Saya memiliki ringkasan nomor 5 (min, Q1, Median, Q3, maks) dari dua boxplot dan ingin menguji apakah rata-rata grup dalam dua boxplot berbeda secara signifikan.
Saya ingin melakukan ini menggunakan uji-t tetapi saya tidak memiliki data yang tersedia untuk saya (hanya ringkasan nomor 5).
Apakah ada cara untuk menguji perbedaan mean? Atau perkiraan kasar untuk uji-t? Juga, saya tahu ukuran sampel dan rerata.
Jawaban:
Karena Anda memiliki mean sampel dan hipotesis Anda berhubungan dengan mean populasi, saya berasumsi bahwa Anda pasti ingin menggunakan mean sampel dalam hal berikut.
Dengan beberapa asumsi distribusi, Anda tentu bisa mendapatkan suatu tempat.
Jika ukuran sampel cukup besar, Anda dapat mengasumsikan distribusi untuk skala IQR ke perkiraanσ dan hanya memperlakukannya sebagai uji-z. (n = 30 tidak terlalu "besar")
mis. jika Anda mengasumsikan normal, kisaran interkuartil populasi adalah sekitar 1,35σ , jadi jika sampel cukup besar sehingga populasi IQR diperkirakan dengan sedikit kesalahan, Anda dapat memperkirakan σ dan memiliki tes efektif di normal.
Dalam hal ini, jika Anda tidak menganggap varian sama, maka Anda mendapatkannyaσi~=IQRi/1.35 , lalu hitung σ~2D=σ~21/n1+σ~22/n2 dan kemudian ambil z∗=x¯1−x¯2σ~D dan cari tabel-z.
[Dengan cara cek, saya baru saja melakukan simulasi di mana saya menghasilkan sampel normal ukuran 30 (dengan varian yang sama, meskipun saya tidak menganggapnya dalam perhitungan), dan tes ini anti-konservatif (yaitu tingkat kesalahan tipe I adalah lebih tinggi dari nominal), jadi ketika Anda mencoba untuk melakukan tes 5% sepertinya Anda benar-benar mendapatkan suatu tempat di wilayah 6,8% (perkiraan kemungkinan akan sedikit lebih buruk jika variasinya berbeda). Jika Anda bisa mentolerir itu, maka itu mungkin baik-baik saja. Tentu saja Anda dapat menurunkan level signifikansi untuk mengkompensasi antikonservatisme, tetapi saya akan cenderung menggigit peluru dan mencoba opsi 2. Namun, setelah ukuran sampel mencapai 200 atau lebih, ini bekerja cukup baik.]
Jika salah satu ukuran sampel tidak besar, Anda masih dapat melakukan sesuatu, tetapi distribusi statistik akan tergantung pada metode yang tepat di mana kuartil dihitung serta ukuran sampel tertentu.
Secara khusus, Anda bisa
Sebuah. mengasumsikan varians yang sama dan menggunakan statistik uji yang mirip dengan statistik t varians yang sama tetapi dengan estimasiσ2 berdasarkan rata-rata tertimbang dari kuadrat dari dua IQR; atau
b. tidak membuat asumsi varians yang sama dan menggunakan statistik uji lebih mirip dengan statistik tipe Welch-Satterthwaite.
Dalam kasus pertama, distribusi statistik uji dapat diperoleh dengan cukup sederhana dengan simulasi dari distribusi yang diasumsikan. (Dalam kasus kedua, masalahnya sedikit lebih rumit karena distribusinya akan bergantung pada perbedaan spread - tetapi sesuatu masih bisa dilakukan.)
Jika Anda tidak siap untuk membuat asumsi distribusi, Anda masih dapat mengikat standar deviasi sampel dan dapatkan batas atas dan bawah pada t-statistik; Namun, batas mungkin tidak terlalu sempit.
Jika Anda tidak memiliki sampel berarti, Anda dapat menggunakan median dalam analog dari uji-t. Jika Anda mengasumsikan normalitas (atau bahkan hanya simetri dan keberadaan cara) maka median akan memperkirakan masing-masing cara; namun, karena kita hanya perlu berurusan dengan perbedaan dalam hal rata-rata, asumsi yang secara substansial lebih lemah akan cukup untuk ini berfungsi sebagai ujian.
Dalam hal ini Anda bisa mendapatkan nilai kritis (atau memang, nilai-p) melalui simulasi dengan cukup mudah, tetapi distribusi nol di bawah asumsi normal cukup dekat dengan t-didistribusikan; perkiraan yang cukup baik untuk nilai-p dapat diperoleh dari tabel-t, tetapi derajat kebebasan yang sesuai secara substansial lebih rendah daripada yang Anda miliki dari uji-t (hampir setengah!) - dan statistik uji harus ditingkatkan juga, karena varians tidak tepat sesuai.
Ini tidak akan memiliki kekuatan yang sangat baik pada normal, tetapi akan memiliki ketahanan yang baik untuk penyimpangan dari normalitas.
Sebagai contoh, untuk statistik formulir ini:
dimanaxi~ adalah median sampel i dan qi adalah kisaran interkuartil sampel i (yang dianalogikan dengan bentuk tertentu dari uji dua sampel untuk varian yang sama dan saman ). Saya mensimulasikan 40.000 sampel ukuran 30 dan 30.
Plot QQ nilai absolut darit∗ vs nilai absolut kuantil dari c⋅t40 (untuk c=1.064 ) diplot di bawah (abu-abu), dan garis 45 derajat ditarik warna hijau. Plot kedua menunjukkan detail di wilayah tingkat signifikansi tipikal (termasuk, tetapi tidak terbatas pada nilai antara 1% dan 10%). Perkiraannya akurat hingga sekitar 3 angka pada sebagian besar kisaran itu.
[Plot serupa diperoleh untuk berbagai derajat kebebasan lainnya di sekitarnya (dengan dipilih secara tepatc ) untuk setiap. Simulasi pada berbagai ukuran sampel menunjukkan bahwa perkiraan distribusi t bekerja dengan baik di berbagai bidangn untuk kasus sama-varians sama-ukuran sampel. Saya perkirakan aproksimasi melalui distribusi-t akan memadai untuk kasus ukuran sampel yang sama dengan varians yang tidak sama, tetapi simulasi dan analisis yang diperlukan akan membutuhkan waktu yang lebih substansial.]
sumber