Pengujian hipotesis distribusi - apa gunanya melakukannya jika Anda tidak bisa "menerima" hipotesis nol Anda?

26

Berbagai tes hipotesis, seperti tes GOF, Kolmogorov-Smirnov, Anderson-Darling, dll., Ikuti format dasar ini:χ2

H0 : Data mengikuti distribusi yang diberikan.

H1 : Data tidak mengikuti distribusi yang diberikan.

Biasanya, seseorang menilai klaim bahwa beberapa data yang diberikan mengikuti beberapa distribusi yang diberikan, dan jika seseorang menolak , data tersebut tidak cocok untuk distribusi yang diberikan pada tingkat α tertentu.H0α

Tetapi bagaimana jika kita tidak menolak ? Saya selalu diajari bahwa seseorang tidak dapat "menerima" H 0 , jadi pada dasarnya, kami tidak bukti untuk menolak H 0 . Artinya, tidak ada bukti bahwa kami menolak bahwa data mengikuti distribusi yang diberikan.H0H0H0

Jadi, pertanyaan saya adalah, apa gunanya melakukan pengujian seperti itu jika kita tidak dapat menyimpulkan apakah data mengikuti distribusi yang diberikan atau tidak?

Klarinetis
sumber
1
Sangat menggoda untuk hanya menjawab "apa gunanya menguji [secara umum] jika seseorang tidak dapat menerima hipotesis nol?". Dalam semua kasus, tes statistik bukan satu-satunya dasar pengambilan keputusan. Sebaliknya, kami membuat keputusan dan menggunakan data untuk mengukur risiko / biaya kesalahan Tipe I / II. Jika kita hanya merangkum kualitas atau tingkat kesesuaian dengan grafik yang berguna, QQplots, dan statistik prediktif, kita akan disarankan untuk risiko "menerima nol".
AdamO
@ AdamO Ketika saya menanyakan hal ini tiga tahun lalu, saya baru saja menyelesaikan gelar sarjana matematika (penekanan statistik). Sekarang saya sudah setengah jalan dalam program statistik MS dan telah melakukan beberapa pekerjaan profesional, saya mengerti ini sekarang. Sangat disayangkan bagaimana statistik diajarkan di banyak program sarjana, tapi saya ngelantur.
Klarinetis

Jawaban:

37

Secara umum (tidak hanya dalam uji kelaikan, tetapi dalam banyak situasi lain), Anda tidak dapat menyimpulkan bahwa nol itu benar, karena ada alternatif yang secara efektif tidak dapat dibedakan dari nol pada ukuran sampel yang diberikan.

Berikut adalah dua distribusi, standar normal (garis solid hijau), dan yang tampak serupa (standar 90% normal, dan beta standar 10% (2,2), ditandai dengan garis putus-putus merah):

masukkan deskripsi gambar di sini

Yang merah tidak normal. Pada katakanlah , kita memiliki sedikit peluang untuk menemukan perbedaannya, jadi kita tidak dapat menyatakan bahwa data diambil dari distribusi normal - bagaimana jika itu berasal dari distribusi non-normal seperti yang merah?n=100

Fraksi yang lebih kecil dari beta standar dengan parameter yang sama tetapi lebih besar akan jauh lebih sulit untuk dilihat sebagai berbeda dari normal.

Tetapi mengingat bahwa data nyata hampir tidak pernah dari beberapa distribusi sederhana, jika kita memiliki oracle yang sempurna (atau ukuran sampel efektif tak terbatas), kita pada dasarnya akan selalu menolak hipotesis bahwa data tersebut berasal dari beberapa bentuk distribusi sederhana.

Seperti George Box terkenal mengatakan , " Semua model salah, tetapi beberapa berguna. "

Pertimbangkan, misalnya, menguji normalitas. Ini mungkin bahwa data benar-benar datang dari sesuatu yang dekat dengan normal, tetapi akan mereka pernah menjadi persis yang normal? Mereka mungkin tidak pernah ada.

Alih-alih, yang terbaik yang bisa Anda harapkan dengan bentuk pengujian itu adalah situasi yang Anda gambarkan. (Lihat, misalnya, posting Apakah pengujian normal pada dasarnya tidak berguna?, Tetapi ada sejumlah posting lain di sini yang membuat poin terkait)

F

Perhatikan gambar di atas lagi. Distribusi merah adalah non-normal, dan dengan sampel yang sangat besar kita bisa menolak uji normalitas berdasarkan sampel dari itu ... tetapi pada ukuran sampel yang jauh lebih kecil, regresi dan dua sampel t-tes (dan banyak tes lainnya selain itu) akan berperilaku sangat baik sehingga tidak ada gunanya untuk khawatir tentang ketidak normalan itu bahkan sedikit.

μ=μ0

Anda mungkin dapat menentukan beberapa bentuk penyimpangan tertentu dan melihat sesuatu seperti pengujian kesetaraan, tetapi agak rumit dengan goodness of fit karena ada banyak cara untuk distribusi yang dekat tetapi berbeda dari yang dihipotesiskan, dan berbeda bentuk perbedaan dapat memiliki dampak berbeda pada analisis. Jika alternatifnya adalah keluarga yang lebih luas yang memasukkan nol sebagai kasus khusus, pengujian kesetaraan lebih masuk akal (misalnya, menguji eksponensial terhadap gamma) - dan memang, pendekatan "dua uji satu sisi" dijalankan, dan itu mungkin menjadi cara untuk memformalkan "cukup dekat" (atau itu akan terjadi jika model gamma benar, tetapi pada kenyataannya itu sendiri akan hampir pasti akan ditolak oleh tes goodness of fit biasa,

Pengujian goodness of fit (dan seringkali lebih luas, pengujian hipotesis) benar-benar hanya cocok untuk berbagai situasi yang cukup terbatas. Pertanyaan yang biasanya ingin dijawab orang tidak begitu tepat, tetapi agak lebih kabur dan lebih sulit dijawab - tetapi seperti yang dikatakan John Tukey, " Jauh lebih baik jawaban perkiraan untuk pertanyaan yang tepat, yang seringkali tidak jelas, daripada jawaban yang tepat untuk pertanyaan itu. pertanyaan yang salah, yang selalu bisa dibuat tepat. "

Pendekatan yang masuk akal untuk menjawab pertanyaan yang lebih tidak jelas dapat mencakup simulasi dan penyelidikan ulang untuk menilai sensitivitas analisis yang diinginkan terhadap asumsi yang Anda pertimbangkan, dibandingkan dengan situasi lain yang juga cukup konsisten dengan data yang tersedia.

ε

Glen_b -Reinstate Monica
sumber
Glen, ini jawaban yang bagus. Apakah ada lebih banyak sumber daya tentang "pendekatan yang masuk akal untuk menjawab pertanyaan yang lebih samar"? Akan sangat bagus untuk melihat contoh yang berhasil di mana orang menjawab "apakah data saya cukup dekat dengan distribusi X untuk tujuan saya?" dalam konteks.
Stumpy Joe Pete
2
@StumpyJoePete Ada contoh jawaban untuk pertanyaan yang lebih kabur (tapi sedikit berbeda) di sini , di mana simulasi digunakan untuk menilai kira-kira seperti apa ukuran sampel itu mungkin masuk akal untuk menerapkan uji-t dengan kemiringan (eksponensial, katakanlah) data. Kemudian dalam pertanyaan lanjutan, OP memberikan lebih banyak informasi tentang sampel (itu diskrit, dan ternyata, jauh lebih condong daripada "eksponensial" akan menyarankan), ... (
ctd
2
(ctd) ... masalah ini dieksplorasi lebih detail , lagi menggunakan simulasi. Tentu saja, dalam praktiknya harus ada lebih 'bolak-balik' untuk memastikan itu disesuaikan dengan kebutuhan aktual orang tersebut, daripada dugaan seseorang dari penjelasan awal mereka.
Glen_b -Reinstate Monica
Terima kasih! Persis seperti itulah yang saya cari.
Stumpy Joe Pete
17

P-Nilai kurang berguna dari yang terlihat. Estimasi seringkali merupakan pendekatan yang lebih baik bahkan dalam penilaian good-of-fit. Satu dapat menggunakan jarak Kolmogorov-Smirnov sebagai ukuran. Hanya sulit untuk menggunakannya tanpa margin of error. Pendekatan konservatif akan mengambil batas kepercayaan atas jarak KS untuk memandu pemodelan. Ini akan (benar) menyebabkan banyak ketidakpastian, yang dapat menyebabkan orang menyimpulkan bahwa memilih metode yang kuat lebih disukai. Dengan mengingat hal itu, dan kembali ke tujuan semula, ketika seseorang membandingkan distribusi empiris dengan lebih dari, katakanlah, 2 bentuk parametrik yang mungkin, varian sebenarnya dari distribusi pas akhir tidak memiliki presisi yang lebih baik daripada fungsi distribusi kumulatif empiris. Jadi jika tidak ada teori materi pelajaran untuk mendorong pemilihan distribusi,

Frank Harrell
sumber
3
Saya tidak dapat memahami alasan mengapa ini diturunkan; ada beberapa poin bagus di sini. Akan membantu jika orang yang downvoting akan menjelaskan apa yang mereka anggap sebagai masalah. Mungkin kita akan belajar sesuatu.
Glen_b -Reinstate Monica
2

Saya pikir ini adalah contoh sempurna untuk menggambarkan perbedaan antara pekerjaan akademik dan pengambilan keputusan praktis. Dalam pengaturan akademik (di mana saya), Anda dapat berdebat dengan cara apa pun yang Anda inginkan selama itu dianggap masuk akal oleh orang lain. Oleh karena itu, pada dasarnya kita berakhir dengan bertengkar saling bertubi-tubi tanpa akhir, terkadang melingkar, satu sama lain. Dalam hal ini, ini memberi orang sesuatu untuk dikerjakan.

Namun, jika Anda benar-benar berada dalam posisi untuk benar-benar membuat keputusan, maka jawabannya adalah ya atau tidak. Keragu-raguan akan merusak reputasi Anda sebagai pengambil keputusan. Tentu saja, membuat pilihan tidak hanya melibatkan statistik tetapi juga terkadang elemen pertaruhan dan lompatan iman. Singkatnya, latihan semacam ini sedikit banyak berguna untuk pengambilan keputusan. Namun, apakah hanya mengandalkan keputusan Anda pada tes hipotesis ini adalah cerita yang sama sekali berbeda.

LaTeXFan
sumber
2
IMHO itu tidak benar. Buku terbaik yang saya baca yang menjelaskan mengapa orang membuat keputusan yang lebih baik dengan selalu memasukkan ketidakpastian ke dalam setiap fase keputusan adalah The Signal and the Noise karya Nate Silver . Sebagai contoh, pemain poker yang menang adalah mereka yang tidak pernah percaya bahwa probabilitas tangan tertentu adalah 0 atau 1.
Frank Harrell
1
@ FrankHarrell Saya bertanya-tanya bagaimana Anda akan menjawab pertanyaan seperti apakah akan membangun jalan, apakah akan membeli saham. Itu pertanyaan ya atau tidak. Itu adalah jenis pertanyaan yang harus dijawab oleh pembuat keputusan aktual.
LaTeXFan
1
@FrankHarrell Tentunya statistik berperan dalam membantu membuat keputusan. Namun, dari sudut pandang kekokohan, yang kita lakukan hanyalah perkiraan dari kenyataan. Ada banyak hal yang tidak bisa dijelaskan oleh matematika. Dan di sinilah sarana lain berperan seperti insting.
LaTeXFan
1
P
1
@ FrankHarrell Terima kasih atas komentar Anda. Saya pikir perbedaan Anda antara keputusan yang tidak dapat dibatalkan dan sebaliknya adalah poin yang baik. Intinya, ini tentang dimensi waktu masalah. Dalam waktu singkat, sebagian besar keputusan tidak dapat dibatalkan. Inilah yang terjadi ketika orang-orang ditempatkan di tempat untuk melakukan panggilan. Di sisi lain, jika kami dapat membeli tampilan jangka panjang, maka Anda benar - lebih baik memiliki sistem yang dapat menanggapi perubahan keadaan. Meski begitu, beberapa kerusakan, baik finansial maupun fisik, tidak dapat dihindari.
LaTeXFan
2

Intinya adalah bahwa dari sudut pandang statistik murni Anda tidak dapat menerima , tetapi dalam praktiknya Anda lakukan. Misalnya, jika Anda memperkirakan risiko suatu portofolio menggunakan nilai-berisiko atau tindakan-tindakan serupa, distribusi pengembalian portofolio cukup penting. Itu karena risiko ditentukan oleh ekor distribusi Anda.

Dalam kasus-kasus buku teks, distribusi normal sering digunakan sebagai contoh. Namun, jika pengembalian portofolio Anda memiliki masalah besar (yang sering terjadi), perkiraan distribusi normal akan meremehkan risiko. Karena itu, penting untuk memeriksa pengembalian dan memutuskan apakah Anda akan menggunakan perkiraan normal atau tidak. Catatan, ini tidak berarti menjalankan uji statistik, itu bisa berupa QQ-plot atau cara lain. Namun, Anda harus membuat keputusan di beberapa titik berdasarkan analisis pengembalian dan model pengembalian Anda, dan apakah menggunakan normal atau tidak.

Oleh karena itu, untuk semua tujuan praktis tidak menolak benar-benar berarti menerima walaupun tidak dalam arti statistik yang ketat. Anda akan menerima yang normal dan menggunakannya dalam perhitungan Anda, yang akan ditampilkan kepada manajemen puncak setiap hari, kepada regulator Anda, auditor, dll. Tidak menolak dalam kasus ini memiliki konsekuensi yang jauh dalam segala hal, jadi sama atau lebih kuat daripada hasil statistik konyol.

Aksakal
sumber
0

Tidak ada terdakwa di pengadilan yang tidak bersalah. Mereka salah (menolak hipotesis nol tidak bersalah) atau tidak bersalah (tidak menolak anggapan tidak bersalah).

Tidak adanya bukti bukanlah bukti ketidakhadiran.

BCLC
sumber
-1

Jadi, pertanyaan saya adalah, apa gunanya melakukan pengujian seperti itu jika kita tidak dapat menyimpulkan apakah data mengikuti distribusi yang diberikan atau tidak?

Jika Anda memiliki distribusi alternatif (atau set distribusi) untuk dibandingkan maka itu bisa menjadi alat yang berguna.

Saya akan mengatakan: Saya memiliki satu set pengamatan yang saya pikir mungkin didistribusikan secara normal. (Saya pikir begitu karena saya telah melihat pengamatan dari karakter yang sama yang saya puas mengikuti dengan wajar kurva normal.) Saya juga berpikir mereka mungkin tidak mengikuti kurva normal tetapi beberapa kurva non-normal reguler. (Saya pikir ini mungkin karena saya telah melihat tubuh data seperti ini yang tidak mengikuti kurva normal tetapi yang, misalnya, condong, dll.) 3 Saya kemudian melakukan penyelidikan di sepanjang garis berikut: Jika pengamatan berasal dari distribusi normal, seberapa sering chi-square seperti itu terjadi? Kesimpulannya adalah, "Sangat jarang - hanya dua kali dalam seratus." Saya kemudian melakukan penyelidikan, tidak disebutkan dan tidak dihitung, tetapi saya percaya mutlak diperlukan untuk penyelesaian argumen yang valid, sebagai berikut: Jika distribusinya tidak normal, pengalaman ini, dinilai dengan perbedaan chi-square, akan terjadi cukup sering. (Yang harus saya lakukan adalah membayangkan bahwa kurva non-normal memiliki karakter miring yang diamati dari distribusi.) Oleh karena itu saya menolak hipotesis normal pada prinsip yang saya terima bahwa salah satu alternatif dianggap hipotesis di mana peristiwa yang dialami akan lebih sering. Saya mengatakan penolakan hipotesis nol hanya valid pada kesediaan untuk menerima alternatif (alternatif ini tidak harus didefinisikan secara tepat dalam semua hal). Oleh karena itu, saya menolak hipotesis normal dengan prinsip bahwa saya menerima bahwa salah satu alternatif menganggap hipotesis yang lebih sering dialami peristiwa yang dialami. Saya mengatakan penolakan hipotesis nol hanya valid pada kesediaan untuk menerima alternatif (alternatif ini tidak harus didefinisikan secara tepat dalam semua hal). Oleh karena itu, saya menolak hipotesis normal dengan prinsip bahwa saya menerima bahwa salah satu alternatif menganggap hipotesis yang lebih sering dialami peristiwa yang dialami. Saya mengatakan penolakan hipotesis nol hanya valid pada kesediaan untuk menerima alternatif (alternatif ini tidak harus didefinisikan secara tepat dalam semua hal).

Sekarang garis penalaran yang telah saya gambarkan, berbeda dengan apa yang saya gambarkan sebagai yang lebih biasa, akan menjelaskan mengapa keputusan saya berbeda dari yang biasa dalam kasus ketiga dan keempat.

Berkenaan dengan kasus ketiga, setelah saya mencoba tes chi-square, saya telah mencapai kesimpulan, bahwa pada hipotesis tidak ada perbedaan dari normalitas, distribusi dengan chi-square yang begitu besar akan jarang terjadi. Sejauh ini kami berada di posisi yang sama persis seperti saat ini pada kasus kedua. Tetapi sekarang, saya akan memeriksa kemungkinan bahwa pengalaman ini akan terjadi jika persediaan aslinya tidak normal. Akankah pengalaman ini terjadi lebih sering? Tidak ada alasan untuk mengatakannya. Distribusi simetris sempurna, yaitu, kemiringan adalah nol (ada tepat 50 persen dari kasus di setiap sisi rata-rata), dan pemeriksaan sekilas perbedaan dari frekuensi yang diharapkan di kelas yang berbeda menunjukkan mereka tidak sistem. tematic, yaitu, deviasi plus dan minus deviasi bergantian secara acak. Distribusi seperti itu tidak sering diharapkan dari kurva non-normal yang masuk akal. Karena itu kami tidak memiliki alasan untuk penolakan terhadap kurva normal.

Pandangan saya adalah bahwa tidak pernah ada alasan yang sah untuk penolakan hipotesis nol kecuali pada kesediaan untuk merangkul yang alternatif.

Beberapa Kesulitan Penafsiran yang Dihadapi dalam Penerapan Uji Chi-Square. Joseph Berkson. Jurnal Asosiasi Statistik Amerika. Vol. 33, No. 203 (Sep., 1938), hlm. 526-536

Marah
sumber
1
Kutipan / makalah Berkson tampaknya relevan dan masuk akal bagi saya. Sudah menjadi rahasia umum bahwa dengan ukuran sampel yang cukup besar, distribusi yang diasumsikan akan ditolak, meskipun hanya karena kesalahan pengukuran. Jika kami menemukan bahwa data tersebut tidak mungkin dalam distribusi yang diasumsikan, bukankah kita harus mencoba mencari tahu apa pilihan yang lebih baik? Dan jika kita tidak dapat membenarkan pilihan lain ini kita harus mengasumsikan, jika perlu, distribusi paling sederhana yang mungkin? Adakah yang bisa menjelaskan mengapa ini diturunkan?
Livid