Saya punya sampel 250 unit. Distribusi asimetris. Saya ingin menguji hipotesis bahwa median populasi berbeda dari 3,5, jadi saya pikir tes satu sampel akan sesuai. Saya tahu bahwa tes peringkat Wilcoxon tidak tepat karena distribusinya tidak simetris. Apakah tes tanda layak digunakan? Jika tidak, adakah yang bisa merekomendasikan tes lain?
hypothesis-testing
median
LeonRupnik
sumber
sumber
Jawaban:
Ringkasan
Hitungan data yang melebihi memiliki distribusi Binomial dengan probabilitas tidak diketahui p . Gunakan ini untuk melakukan tes binomial dari p = 1 / 2 terhadap alternatif p ≠ 1 / 2 .3.5 hal p = 1 / 2 p ≠ 1 / 2
Sisa dari posting ini menjelaskan model yang mendasarinya dan menunjukkan bagaimana melakukan perhitungan. Ini menyediakan
R
kode kerja untuk melaksanakannya. Akun tambahan dari teori pengujian hipotesis yang mendasari disediakan dalam jawaban saya untuk "Apa arti dari nilai p dan nilai t dalam tes statistik?" .Model statistik
Dengan asumsi nilai-nilai yang cukup beragam (dengan beberapa ikatan di ), kemudian di bawah hipotesis nol Anda, setiap nilai secara acak sampel memiliki 1 / 2 = 50 % kemungkinan melebihi 3,5 (sejak 3,5 ditandai sebagai nilai tengah dari populasi). Dengan asumsi semua 250 nilai secara acak dan independen sampel, jumlah mereka melebihi 3,5 karena itu akan memiliki Binomial ( 250 , 1 / 2 ) distribusi. Mari kita sebut nomor ini "hitungan," k .3.5 1 / 2 = 50 % 3.5 3.5 250 3.5 ( 250 , 1 / 2 ) k
Di sisi lain, jika populasi berbeda median dari , peluang nilai acak sampel melebihi 3,5 akan berbeda dari 1 / 2 . Ini adalah hipotesis alternatif.3.5 3.5 1/2
Menemukan tes yang cocok
Cara terbaik untuk membedakan situasi nol dari alternatifnya adalah dengan melihat nilai-nilai yang paling mungkin di bawah nol dan kurang mungkin di bawah alternatif. Ini adalah nilai-nilai dekat 1 / 2 dari 250 , sama dengan 125 . Dengan demikian, wilayah kritis untuk pengujian Anda terdiri dari nilai yang relatif jauh dari 125 : mendekati 0 atau hampir 250 . Tetapi seberapa jauh dari 125 mereka harus menjadi bukti signifikan bahwa 3,5 bukan median populasi?k 1/2 250 125 125 0 250 125 3.5
Dalam tergantung pada standar signifikansi Anda: ini disebut ukuran tes , sering disebut . Di bawah hipotesis nol, harus ada dekat dengan - tetapi tidak lebih dari - peluang α bahwa k akan berada di wilayah kritis.α α k
Biasanya, ketika kita tidak memiliki prasangka tentang alternatif mana yang akan berlaku - median lebih besar atau kurang dari - kita mencoba untuk membangun daerah kritis sehingga ada setengah dari peluang itu, α / 2 , bahwa k rendah dan yang lain setengah, α / 2 , k itu tinggi. Karena kita tahu distribusi k di bawah hipotesis nol, informasi ini cukup untuk menentukan wilayah kritis.3.5 α/2 k α/2 k k
Secara teknis, ada dua cara umum untuk melakukan perhitungan: menghitung probabilitas Binomial atau memperkirakannya dengan distribusi Normal.
Perhitungan dengan probabilitas binomial
Gunakan fungsi titik persentase (kuantil). Dalam
R
, misalnya, ini disebutqbinom
dan akan dipanggil sepertiOutput untuk adalahα=0.05
Ini berarti bahwa wilayah kritis terdiri dari semua nilai rendah antara (dan termasuk) 0 dan 109 , bersama dengan semua nilai tinggi k antara (dan termasuk) 141 dan 250 . Sebagai tanda centang, kami dapat meminta untuk menghitung peluang yang terletak di wilayah tersebut ketika nol benar:k 0 109 k 141 250
R
k
Outputnya adalah , sangat dekat dengan - tetapi tidak lebih besar dari - α itu sendiri. Karena wilayah kritis harus diakhiri dengan bilangan bulat, biasanya tidak mungkin membuat ukuran pengujian aktual ini persis sama dengan ukuran uji nominal α , tetapi dalam kasus ini kedua nilai tersebut memang sangat dekat.0.0497 α α
Perhitungan dengan perkiraan normal
Mean dari Binomial distribusi 250 × 1 / 2 = 125 dan varians adalah 250 × 1 / 2 × ( 1 - 1 / 2 ) = 250 / 4 , membuat standar deviasi yang sama untuk √(250,1/2) 250×1/2=125 250×1/2×(1−1/2)=250/4 . Kami akan mengganti distribusi Binomial dengan distribusi Normal. Distribusi Normal standar memilikiα/2=0,05/2probabilitasnya kurang dari-1,95996, seperti yang dihitung olehperintah250/4−−−−−√≈7.9 α/2=0.05/2 −1.95996
R
Tes ini, karena ia tidak mengasumsikan apa - apa tentang populasi (kecuali bahwa ia tidak memiliki banyak kemungkinan fokus pada mediannya), tidak sekuat tes lain yang membuat asumsi spesifik tentang populasi. Namun, jika tes menolak nol, tidak perlu khawatir tentang kurangnya daya. Jika tidak, Anda harus melakukan trade-off yang rumit antara apa yang ingin Anda asumsikan dan apa yang dapat Anda simpulkan tentang populasi.
sumber