Bagaimana cara menguji median populasi?

9

Saya punya sampel 250 unit. Distribusi asimetris. Saya ingin menguji hipotesis bahwa median populasi berbeda dari 3,5, jadi saya pikir tes satu sampel akan sesuai. Saya tahu bahwa tes peringkat Wilcoxon tidak tepat karena distribusinya tidak simetris. Apakah tes tanda layak digunakan? Jika tidak, adakah yang bisa merekomendasikan tes lain?

LeonRupnik
sumber
3
Anda kehilangan saya di baris pertama, karena beberapa alasan. (1) Sampel tidak dapat memiliki distribusi Gaussian (tetapi kira-kira dapat memiliki satu). (2) Salah satu karakteristik dari semua distribusi Gaussian (dan karenanya perkiraan untuk mereka) adalah simetri . Anda telah menentang diri sendiri. Dengan menggambarkan data Anda dalam istilah Anda sendiri, bukan jargon statistik, Anda akan lebih baik mengomunikasikan apa yang Anda miliki. Bisakah Anda juga menjelaskan, sejelas mungkin, apa yang benar-benar ingin Anda capai dengan data Anda? Informasi apa yang merupakan "contoh uji berdasarkan median" yang dimaksudkan untuk memberi Anda?
whuber
1
Median sampel adalah apa pun itu; tidak perlu menguji itu. Mungkin Anda ingin menguji apakah median populasi (dari mana sampel diperoleh) sama dengan ? Jika demikian, penting untuk mengetahui bagaimana nilai 3,5 dikembangkan. Apakah ini ringkasan dari beberapa dataset lain, mungkin? Atau apakah itu nomor yang telah ditentukan, seperti standar kualitas? 3.53.5
whuber
1
Ini adalah nomor yang telah ditentukan
LeonRupnik
2
" Distribusi asimetris jadi saya ingin menguji hipotesis jika median populasi berbeda dari 3,5 ..." - Mengapa asimetri dalam sampel berdampak pada hipotesis apa yang menarik?" Apakah tes tanda layak untuk digunakan? " - tentu saja, tetapi (setidaknya dalam bentuk asli) itu bergantung pada kontinuitas - Anda perlu mengadaptasinya jika variabel Anda diskrit (Anda tidak mengatakan data Anda terdiri dari apa) .
Glen_b -Reinstate Monica
Data ini kontinu
LeonRupnik

Jawaban:

8

Ringkasan

Hitungan data yang melebihi memiliki distribusi Binomial dengan probabilitas tidak diketahui p . Gunakan ini untuk melakukan tes binomial dari p = 1 / 2 terhadap alternatif p 1 / 2 .3.5pp=1/2p1/2

Sisa dari posting ini menjelaskan model yang mendasarinya dan menunjukkan bagaimana melakukan perhitungan. Ini menyediakan Rkode kerja untuk melaksanakannya. Akun tambahan dari teori pengujian hipotesis yang mendasari disediakan dalam jawaban saya untuk "Apa arti dari nilai p dan nilai t dalam tes statistik?" .

Model statistik

Dengan asumsi nilai-nilai yang cukup beragam (dengan beberapa ikatan di ), kemudian di bawah hipotesis nol Anda, setiap nilai secara acak sampel memiliki 1 / 2 = 50 % kemungkinan melebihi 3,5 (sejak 3,5 ditandai sebagai nilai tengah dari populasi). Dengan asumsi semua 250 nilai secara acak dan independen sampel, jumlah mereka melebihi 3,5 karena itu akan memiliki Binomial ( 250 , 1 / 2 ) distribusi. Mari kita sebut nomor ini "hitungan," k .3.51/2=50%3.53.52503.5(250,1/2)k

Di sisi lain, jika populasi berbeda median dari , peluang nilai acak sampel melebihi 3,5 akan berbeda dari 1 / 2 . Ini adalah hipotesis alternatif.3.53.51/2

Menemukan tes yang cocok

Cara terbaik untuk membedakan situasi nol dari alternatifnya adalah dengan melihat nilai-nilai yang paling mungkin di bawah nol dan kurang mungkin di bawah alternatif. Ini adalah nilai-nilai dekat 1 / 2 dari 250 , sama dengan 125 . Dengan demikian, wilayah kritis untuk pengujian Anda terdiri dari nilai yang relatif jauh dari 125 : mendekati 0 atau hampir 250 . Tetapi seberapa jauh dari 125 mereka harus menjadi bukti signifikan bahwa 3,5 bukan median populasi?k1/225012512502501253.5

Dalam tergantung pada standar signifikansi Anda: ini disebut ukuran tes , sering disebut . Di bawah hipotesis nol, harus ada dekat dengan - tetapi tidak lebih dari - peluang α bahwa k akan berada di wilayah kritis.ααk

Biasanya, ketika kita tidak memiliki prasangka tentang alternatif mana yang akan berlaku - median lebih besar atau kurang dari - kita mencoba untuk membangun daerah kritis sehingga ada setengah dari peluang itu, α / 2 , bahwa k rendah dan yang lain setengah, α / 2 , k itu tinggi. Karena kita tahu distribusi k di bawah hipotesis nol, informasi ini cukup untuk menentukan wilayah kritis.3.5α/2kα/2kk

Secara teknis, ada dua cara umum untuk melakukan perhitungan: menghitung probabilitas Binomial atau memperkirakannya dengan distribusi Normal.

Perhitungan dengan probabilitas binomial

Gunakan fungsi titik persentase (kuantil). Dalam R, misalnya, ini disebut qbinomdan akan dipanggil seperti

alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)

Output untuk adalahα=0.05

109 141

Ini berarti bahwa wilayah kritis terdiri dari semua nilai rendah antara (dan termasuk) 0 dan 109 , bersama dengan semua nilai tinggi k antara (dan termasuk) 141 dan 250 . Sebagai tanda centang, kami dapat meminta untuk menghitung peluang yang terletak di wilayah tersebut ketika nol benar:k0109k141250Rk

pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))

Outputnya adalah , sangat dekat dengan - tetapi tidak lebih besar dari - α itu sendiri. Karena wilayah kritis harus diakhiri dengan bilangan bulat, biasanya tidak mungkin membuat ukuran pengujian aktual ini persis sama dengan ukuran uji nominal α , tetapi dalam kasus ini kedua nilai tersebut memang sangat dekat.0.0497αα

Perhitungan dengan perkiraan normal

Mean dari Binomial distribusi 250 × 1 / 2 = 125 dan varians adalah 250 × 1 / 2 × ( 1 - 1 / 2 ) = 250 / 4 , membuat standar deviasi yang sama untuk (250,1/2)250×1/2=125250×1/2×(11/2)=250/4. Kami akan mengganti distribusi Binomial dengan distribusi Normal. Distribusi Normal standar memilikiα/2=0,05/2probabilitasnya kurang dari-1,95996, seperti yang dihitung olehperintah250/47.9α/2=0.05/21.95996R

qnorm(alpha/2)

0.05/2+1.95996k1.95996125125±7.9×1.96109.5,140.5

250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)

k109141p1/201α


Tes ini, karena ia tidak mengasumsikan apa - apa tentang populasi (kecuali bahwa ia tidak memiliki banyak kemungkinan fokus pada mediannya), tidak sekuat tes lain yang membuat asumsi spesifik tentang populasi. Namun, jika tes menolak nol, tidak perlu khawatir tentang kurangnya daya. Jika tidak, Anda harus melakukan trade-off yang rumit antara apa yang ingin Anda asumsikan dan apa yang dapat Anda simpulkan tentang populasi.

whuber
sumber
2
Karena ini secara praktis merupakan contoh jawaban " makna dari nilai-p " yang lebih abstrak , tidak hanya dalam menganut filosofi yang sama tetapi juga dalam cara jawaban Anda disusun, saya pikir Anda harus menghubungkannya ("Contoh dari bagaimana ini diterapkan dalam praktik dapat ditemukan dalam jawaban saya untuk ... ") di akhir jawaban Anda di sana.
Silverfish
2
@ Silver Terima kasih; yang memang telah terlintas di benak saya. Saya pikir saya mungkin harus menunggu dulu. Di antara hal-hal lain, saya tidak akan terkejut jika beberapa anggota komunitas yang giat menggali thread duplikat, yang ingin saya periksa lebih dekat. Bagaimanapun, ini adalah bahan dasar - banyak pertanyaan yang diajukan tentang tes binomial. Satu-satunya klaim yang satu ini harus menjadi yang baru adalah bahwa ia tiba di sini sebagai kebutuhan untuk tes median - jadi itu tidak begitu jelas tes binomial pada awalnya - dan satu-satunya klaim jawaban saya harus layak membaca terletak pada upayanya untuk menjelaskan setiap langkah.
whuber