Mengapa kami menolak hipotesis nol pada level 0,05 dan bukan pada level 0,5 (seperti yang kami lakukan di Klasifikasi)

11

Pengujian hipotesis mirip dengan masalah Klasifikasi. Jadi katakanlah, kami memiliki 2 label yang memungkinkan untuk pengamatan (subjek) - Bersalah vs. Tidak Bersalah. Biarkan Non-Bersalah menjadi Hipotesis nol. Jika kita melihat masalah dari sudut pandang Klasifikasi, kita akan melatih Klasifikasi yang akan memprediksi probabilitas subjek yang termasuk dalam masing-masing dari 2 Kelas, mengingat Data. Kami kemudian akan memilih Kelas dengan probabilitas tertinggi. Dalam hal 0,5 kemungkinan akan menjadi ambang alami. Kami mungkin memvariasikan ambang jika kami menetapkan biaya yang berbeda untuk kesalahan False Positive vs False Negative. Tetapi jarang kita akan menjadi sangat ekstrim seperti menetapkan ambang batas pada 0,05, yaitu menetapkan subjek ke Kelas "Bersalah" hanya jika probabilitasnya 0,95 atau lebih tinggi. Tetapi jika saya mengerti dengan baik, inilah yang kami lakukan sebagai praktik standar ketika kami melihat masalah yang sama dengan masalah pengujian Hipotesis. Dalam kasus terakhir ini, kami tidak akan menugaskan label "Tidak Bersalah" - sama dengan menugaskan label "Bersalah" - hanya jika probabilitas "Tidak Bersalah" kurang dari 5%. Dan mungkin ini masuk akal jika kita benar-benar ingin menghindari menghukum orang yang tidak bersalah. Tetapi mengapa aturan ini berlaku di semua Domain dan semua kasus?

Memutuskan Hipotesis mana yang akan diadopsi adalah setara dengan mendefinisikan Penaksir Kebenaran yang diberikan Data. Dalam Estimasi Kemungkinan Maksimum, kami menerima Hipotesis yang lebih mungkin diberikan pada Data - meskipun tidak selalu jauh lebih mungkin. Lihat grafik di bawah ini:

Dengan menggunakan pendekatan Maximum Likelihood kami akan mendukung Hipotesis Alternatif dalam contoh ini jika nilai Predictor di atas 3, misalnya 4, meskipun kemungkinan nilai ini berasal dari Hipotesis Null akan lebih besar dari 0,05.

Dan sementara contoh yang saya mulai posting mungkin dibebankan secara emosional, kita bisa memikirkan kasus-kasus lain, misalnya perbaikan teknis. Mengapa kita harus memberikan keuntungan seperti itu kepada Status Quo ketika Data memberi tahu kita bahwa probabilitas bahwa solusi baru adalah peningkatan lebih besar daripada probabilitas bahwa itu bukan?

probability hypothesis-testing classification p-value rf7
sumber

1

Pada dasarnya ini didasarkan pada pandangan RA Fisher tentang statistik sebagai alat ilmiah (percaya satu hipotesis pada suatu waktu, sampai Anda memiliki bukti yang cukup terhadapnya) dan pengalamannya bahwa penyimpangan standar tampaknya memberikan keseimbangan yang berguna antara menolak hipotesis nol terlalu sering dan tidak cukup sering

2

$2$

Henry

1

OP benar bahwa premisnya cacat di sini, tidak ada dalam prosedur NHST klasik yang mengharuskan kita untuk menolak sebesar 5%. Ini adalah fenomena budaya dari nilai yang bisa diperdebatkan.

Matthew Drury

1

@Matthew Drury: "pilih orang-orang jangkung untuk tim bola basket" tidak cacat sebagai strategi hanya karena itu tidak termasuk seberapa tinggi aturan yang tepat. Meskipun ada banyak masalah lain, seperti yang Anda tahu, membiarkan pengguna memilih tempat untuk menggambar garis merupakan fitur dari NHST. Keengganan saya untuk mengambil risiko tidak mengesampingkan perjalanan baru-baru ini ke Paris atau London tetapi itu akan mengesampingkan kunjungan ke banyak negara: orang lain akan menarik garis yang berbeda. Saya setuju bahwa ada fenomena budaya sejauh kelompok yang berbeda memiliki konvensi yang berbeda tentang kapan harus menolak hipotesis.

Nick Cox

Saya tidak yakin apa yang Anda baca dalam komentar saya, Nick. Saya kira saya seharusnya lebih jelas. Saya hanya berharap orang lebih memikirkan menetapkan ambang batas masalah khusus.

Matthew Drury

Anda sepertinya (ed) mengatakan bahwa NHST cacat karena tidak menyiratkan tingkat penolakan tertentu. Saya setuju dengan Anda tentang ambang batas masalah khusus.

Nick Cox

17

Katakanlah Anda berakhir di pengadilan dan Anda tidak melakukannya. Apakah menurut Anda adil bahwa Anda masih memiliki peluang 50% dinyatakan bersalah? Adalah kesempatan 50% dari tidak bersalah "bersalah tanpa wajar keraguan"? Apakah Anda pikir itu adil bahwa Anda memiliki peluang 5% dinyatakan bersalah meskipun Anda tidak melakukannya? Jika saya di pengadilan saya akan menganggap 5% tidak cukup konservatif.

Anda benar bahwa 5% arbitrer. Kami bisa saja memilih 2%, atau 1%, atau jika Anda kutu buku % atau %. Ada orang yang mau menerima 10%, tetapi 50% tidak akan pernah bisa diterima. $\pi$ $e$

Menanggapi hasil edit pertanyaan Anda:

Ide Anda akan masuk akal jika semua hipotesis diciptakan sama. Namun, bukan itu masalahnya. Kami biasanya peduli dengan hipotesis alternatif, jadi kami memperkuat argumen kami jika kami memilih yang rendah . Dalam pengertian itu, contoh yang Anda pilih awalnya menggambarkan hal itu dengan baik. $\alpha$

Maarten Buis
sumber

6

+1 "5% arbitrer". Statistician in Academia: "kami mengajar karena itulah yang mereka gunakan dalam industri". Ahli Statistik dalam Industri: "kami menggunakan karena itulah yang kami ajarkan di Universitas".

α = 0.05

$\alpha = 0.05$

α = 0.05

$\alpha = 0.05$

Knrumsey

8

Seperti yang Anda katakan - itu tergantung pada seberapa penting kesalahan positif palsu dan negatif palsu.

Dalam contoh yang Anda gunakan, seperti yang sudah dijawab Maarten Buis, dihukum jika ada kemungkinan 50% bahwa Anda tidak bersalah tidak adil.

Ketika menerapkannya untuk penelitian, lihat cara ini: Bayangkan Anda ingin tahu apakah obat baru tertentu membantu melawan penyakit tertentu. Katakan bahwa Anda menemukan perbedaan antara kelompok perawatan Anda dan kelompok kontrol Anda dalam mendukung perawatan. Bagus! Obatnya harus bekerja, kan? Anda dapat menolak hipotesis nol bahwa obat tidak bekerja. Nilai- p Anda adalah 0,49! Ada kemungkinan lebih tinggi bahwa efek yang Anda temukan didasarkan pada kebenaran daripada kebetulan!
Sekarang pertimbangkan ini: obatnya memiliki efek samping yang buruk. Anda hanya ingin mengambilnya jika Anda yakin itu berhasil. Dan apakah Anda Tidak, karena masih ada peluang 51% bahwa perbedaan yang Anda temukan antara kedua kelompok itu murni karena kebetulan.

Saya bisa membayangkan bahwa ada domain di mana Anda puas misalnya 10%. Saya telah melihat artikel di mana 10% diterima. Saya juga melihat artikel di mana mereka memilih 2%. Itu tergantung pada seberapa penting Anda berpikir bahwa Anda yakin bahwa menolak hipotesis nol akan didasarkan pada kebenaran dan bukan pada kebetulan. Saya hampir tidak bisa membayangkan situasi di mana Anda puas dengan peluang 50% bahwa perbedaan yang Anda temukan didasarkan pada keberuntungan murni.

Tami
sumber

5

Jawaban lain menunjukkan bahwa itu semua tergantung pada bagaimana Anda secara relatif menilai kemungkinan kesalahan yang berbeda, dan bahwa dalam konteks ilmiah berpotensi cukup masuk akal, kriteria yang bahkan lebih ketat juga berpotensi cukup masuk akal, tetapi tidak mungkin untuk masuk akal. Itu semua benar, tetapi izinkan saya mengambil ini ke arah yang berbeda dan menantang asumsi yang ada di balik pertanyaan. $.05$ $.50$

Anda mengambil "[h] pengujian hipotesis [menjadi] mirip dengan masalah Klasifikasi". Kesamaan yang tampak di sini hanya dangkal; itu tidak benar dalam arti yang bermakna.

Dalam masalah klasifikasi biner, hanya ada dua kelas; yang dapat dibangun secara absolut dan a-priori. Pengujian hipotesis tidak seperti itu. Gambar Anda menampilkan nol dan hipotesis alternatif karena mereka sering digambarkan untuk menggambarkan analisis kekuatan atau logika pengujian hipotesis dalam kelas Stats 101. Angka tersebut menyiratkan bahwa ada satu hipotesis nol dan satu hipotesis alternatif. Meskipun (biasanya) benar bahwa hanya ada satu nol, alternatifnya tidak tetap menjadi hanya nilai titik tunggal dari perbedaan rata-rata (katakanlah). Saat merencanakan studi, peneliti akan sering memilih nilai minimum yang mereka inginkan untuk dapat dideteksi. Katakanlah dalam beberapa penelitian tertentu, ini adalah perubahan rata-rata $.67$ SD. Jadi mereka merancang dan memperkuat studi mereka sesuai. Sekarang bayangkan hasilnya hasilnya signifikan, tetapi tampaknya bukan nilai yang mungkin. Yah, mereka tidak pergi begitu saja! Meskipun demikian, para peneliti akan menyimpulkan bahwa pengobatan membuat perbedaan, tetapi menyesuaikan keyakinan mereka tentang besarnya efek sesuai dengan interpretasi mereka terhadap hasilnya. Jika ada banyak penelitian, meta-analisis akan membantu memperbaiki efek sebenarnya ketika data terakumulasi. Dengan kata lain, alternatif yang disodorkan selama perencanaan studi (dan yang digambarkan dalam gambar Anda) sebenarnya bukan alternatif tunggal sehingga para peneliti harus memilih antara itu dan nol sebagai satu-satunya pilihan mereka. $.67$

Mari kita lanjutkan dengan cara yang berbeda. Anda dapat mengatakan bahwa itu cukup sederhana: hipotesis nol itu benar atau salah, jadi hanya ada dua kemungkinan. Namun, nol biasanya merupakan nilai titik (yaitu, ) dan nol menjadi salah berarti bahwa nilai apa pun selain tepat adalah nilai sebenarnya. Jika kita ingat bahwa suatu titik tidak memiliki lebar, intinya dari garis bilangan sesuai dengan alternatif yang benar. Jadi, kecuali jika hasil yang Anda amati adalah (yaitu, nol hingga tempat desimal tak terbatas), hasil Anda akan lebih dekat ke beberapa nilai non- daripada ke (yaitu, $0$ $0$ $100\%$ $0.\bar{0}$ $0$ $0$ $p<.5$ ). Akibatnya, Anda akan selalu menyimpulkan bahwa hipotesis nol salah. Untuk membuat ini eksplisit, premis yang keliru dalam pertanyaan Anda adalah bahwa ada satu garis biru yang bermakna (seperti yang digambarkan dalam gambar Anda) yang dapat digunakan seperti yang Anda sarankan.

Namun di atas tidak selalu harus demikian. Kadang-kadang terjadi bahwa ada dua teori yang membuat prediksi berbeda tentang suatu fenomena di mana teori-teori tersebut cukup baik untuk menghasilkan estimasi titik yang tepat dan kemungkinan distribusi sampel. Kemudian, percobaan kritis dapat dirancang untuk membedakan di antara mereka. Dalam kasus seperti itu, tidak satu pun teori perlu diambil sebagai nol dan rasio kemungkinan dapat diambil sebagai bobot bukti yang mendukung satu atau teori lainnya. Penggunaan itu akan analog dengan mengambil sebagai alpha Anda. Tidak ada alasan teoretis bahwa skenario ini tidak mungkin menjadi yang paling umum dalam sains, kebetulan sangat jarang ada dua teori seperti itu di sebagian besar bidang saat ini. $.50$

gung - Pasang kembali Monica
sumber

3

Untuk menambah jawaban sebelumnya yang sangat baik: Ya, 5% arbitrer, tetapi terlepas dari ambang batas yang Anda pilih, itu harus cukup kecil, jika tidak pengujian hipotesis tidak masuk akal.

Anda sedang mencari efek dan ingin memastikan hasil Anda tidak murni karena kebetulan. Sejauh itu, Anda menetapkan tingkat signifikansi yang pada dasarnya mengatakan "Jika sebenarnya tidak ada efek (hipotesis nol benar), ini akan menjadi probabilitas untuk tetap mendapatkan hasil seperti itu (atau lebih ekstrim) secara kebetulan" . Menetapkan ini terlalu tinggi akan menghasilkan banyak kesalahan positif, dan merusak kemampuan Anda untuk mendapatkan jawaban yang bermakna bagi pertanyaan penelitian Anda.

Seperti biasa, ada kompromi yang terlibat, jadi komunitas peneliti membuat pedoman 5% ini. Tetapi berbeda di bidang yang berbeda. Dalam fisika partikel, lebih seperti 0,00001% atau sesuatu.

khaozavr
sumber

0

Klasifikasi dan pengujian hipotesis berbeda dan digunakan secara berbeda . Dalam kebanyakan kasus, orang menggunakan

"Klasifikasi" "untuk melakukan tugas" mengklasifikasikan sesuatu sesuai dengan kualitas atau karakteristik bersama ".
Dan gunakan "pengujian hipotesis" untuk memverifikasi beberapa "penemuan signifikan".

Perhatikan bahwa, dalam pengujian hipotesis, "hipotesis nol" adalah "akal sehat", tetapi jika kita dapat menolak hipotesis nol maka kita memiliki jeda.

Inilah sebabnya kami memiliki kriteria yang lebih ketat dalam pengujian hipotesis. Pikirkan contoh pengembangan hambatan baru, kami ingin sangat berhati-hati untuk mengatakan hal itu penting dan efektif.

Haitao Du
sumber

Mengapa kami menolak hipotesis nol pada level 0,05 dan bukan pada level 0,5 (seperti yang kami lakukan di Klasifikasi)

Jawaban: