Keterbatasan dasar pengujian signifikansi hipotesis nol adalah bahwa hal itu tidak memungkinkan peneliti untuk mengumpulkan bukti yang mendukung nol ( Sumber )
Saya melihat klaim ini berulang di banyak tempat, tetapi saya tidak dapat menemukan pembenaran untuk itu. Jika kita melakukan penelitian besar dan kita tidak menemukan bukti signifikan secara statistik terhadap hipotesis nol , bukankah itu bukti untuk hipotesis nol?
hypothesis-testing
Atte Juvonen
sumber
sumber
Jawaban:
Gagal menolak hipotesis nol adalah bukti bahwa hipotesis nol itu benar, tetapi itu mungkin bukan bukti yang sangat baik , dan itu tentu saja tidak membuktikan hipotesis nol.
Mari kita mengambil jalan memutar singkat. Pertimbangkan klise lama:
Terlepas dari popularitasnya, pernyataan ini tidak masuk akal. Jika Anda mencari sesuatu dan gagal menemukannya, itu adalah bukti mutlak bahwa itu tidak ada di sana. Seberapa baik bukti itu tergantung pada seberapa teliti pencarian Anda. Pencarian sepintas memberikan bukti yang lemah; pencarian lengkap memberikan bukti kuat.
Sekarang, kembali ke pengujian hipotesis. Ketika Anda menjalankan tes hipotesis, Anda mencari bukti bahwa hipotesis nol itu tidak benar. Jika Anda tidak menemukannya, maka itu tentu bukti bahwa hipotesis nol itu benar, tetapi seberapa kuat bukti itu? Untuk mengetahuinya, Anda harus tahu seberapa besar kemungkinan bukti yang akan membuat Anda menolak hipotesis nol dapat menghindari pencarian Anda. Artinya, berapa probabilitas negatif palsu pada tes Anda? Ini terkait dengan kekuatan, , dari tes (khusus, itu adalah pelengkap, 1- .)ββ β
Sekarang, kekuatan tes, dan karenanya tingkat negatif palsu, biasanya tergantung pada ukuran efek yang Anda cari. Efek besar lebih mudah dideteksi daripada efek kecil. Oleh karena itu, tidak ada satu untuk percobaan, dan oleh karena itu tidak ada jawaban pasti untuk pertanyaan seberapa kuat bukti untuk hipotesis nol. Dengan kata lain, selalu ada beberapa ukuran efek yang cukup kecil sehingga tidak dikesampingkan oleh percobaan.β
Dari sini, ada dua cara untuk melanjutkan. Terkadang Anda tahu Anda tidak peduli dengan ukuran efek yang lebih kecil dari ambang tertentu. Dalam hal itu, Anda mungkin harus membingkai ulang percobaan Anda sehingga hipotesis nol adalah bahwa efeknya berada di atas ambang itu, dan kemudian menguji hipotesis alternatif bahwa pengaruhnya di bawah ambang. Atau, Anda dapat menggunakan hasil Anda untuk menetapkan batas pada ukuran efek yang dapat dipercaya. Kesimpulan Anda adalah bahwa ukuran efek terletak pada beberapa interval, dengan beberapa probabilitas. Pendekatan itu hanya beberapa langkah dari perawatan Bayesian, yang mungkin ingin Anda pelajari lebih lanjut, jika Anda sering menemukan diri Anda dalam situasi seperti ini.
Ada jawaban yang bagus untuk pertanyaan terkait yang menyentuh pada bukti pengujian ketidakhadiran , yang mungkin berguna bagi Anda.
sumber
NHST bergantung pada nilai-p, yang memberi tahu kita: Mengingat hipotesis nol itu benar, berapakah probabilitas bahwa kita mengamati data kita (atau data yang lebih ekstrem)?
Kami berasumsi bahwa hipotesis nol itu benar — dimasukkan ke dalam NHST bahwa hipotesis nol itu 100% benar. Nilai-p kecil memberi tahu kami bahwa, jika hipotesis nol benar, data kami (atau data yang lebih ekstrem) tidak mungkin.
Tapi apa yang dikatakan nilai p besar? Ini memberitahu kita bahwa, dengan hipotesis nol, data kita (atau lebih banyak data ekstrem) kemungkinan besar.
Secara umum, P (A | B) ≠ P (B | A).
Bayangkan Anda ingin mengambil nilai p yang besar sebagai bukti untuk hipotesis nol. Anda akan mengandalkan logika ini:
Jika nol benar, maka nilai-p tinggi kemungkinan.( Pembaruan: Tidak benar. Lihat komentar di bawah. )Ini mengambil bentuk yang lebih umum:
Ini keliru, seperti yang bisa dilihat dengan contoh:
Tanahnya bisa basah karena hujan. Atau bisa juga karena alat penyiram, seseorang membersihkan talang air, saluran air pecah, dll. Contoh lebih ekstrem dapat ditemukan di tautan di atas.
Ini adalah konsep yang sangat sulit untuk dipahami. Jika kita menginginkan bukti untuk null, inferensi Bayesian diperlukan. Bagi saya, penjelasan paling mudah dari logika ini adalah oleh Rouder et al. (2016). in paper Apakah ada makan siang gratis? diterbitkan dalam Topics in Cognitive Science, 8, hlm. 520–547.
sumber
Untuk memahami apa yang salah dengan asumsi tersebut, lihat contoh berikut:
Bayangkan sebuah kandang di kebun binatang di mana Anda tidak bisa melihat penghuninya. Anda ingin menguji hipotesis bahwa itu dihuni oleh monyet dengan memasukkan pisang ke dalam kandang dan memeriksa apakah sudah hilang pada hari berikutnya. Ini diulangi N kali untuk meningkatkan signifikansi statistik.
Sekarang Anda dapat merumuskan hipotesis nol: Mengingat ada monyet di kandang, sangat mungkin mereka akan menemukan dan memakan pisang, jadi jika pisang tidak disentuh setiap hari, sangat tidak mungkin ada monyet di dalamnya.
Tetapi sekarang Anda melihat bahwa pisang hilang (hampir) setiap hari. Apakah itu memberitahu Anda bahwa ada monyet di dalam?
Tentu saja tidak, karena ada hewan lain yang menyukai pisang juga, atau mungkin penjaga kebun binatang yang penuh perhatian menghilangkan pisang setiap malam.
Jadi apa kesalahan yang dibuat dalam logika ini? Intinya adalah bahwa Anda tidak tahu apa-apa tentang kemungkinan pisang hilang jika tidak ada monyet di dalamnya. Untuk menguatkan hipotesis nol, probabilitas pisang hilang harus kecil jika hipotesis nol salah, tetapi ini tidak perlu menjadi kasusnya. Bahkan, peristiwa itu mungkin sama-sama probabilitas (atau bahkan lebih mungkin) jika hipotesis nol salah.
Tanpa mengetahui tentang probabilitas ini, Anda tidak dapat mengatakan apa-apa tentang validitas hipotesis nol. Jika penjaga kebun binatang menghapus semua pisang setiap malam, percobaan ini sama sekali tidak berharga, meskipun tampaknya pada pandangan pertama Anda telah menguatkan hipotesis nol.
sumber
Dalam makalahnya yang terkenal Mengapa Temuan Penelitian Terbanyak Salah , Ioannidis menggunakan penalaran Bayesian dan tingkat dasar-kekeliruan untuk menyatakan bahwa sebagian besar temuan adalah positif palsu. Singkatnya, probabilitas pasca-studi bahwa hipotesis penelitian tertentu benar tergantung - antara lain - pada probabilitas pra-studi hipotesis tersebut (yaitu tingkat dasar).
Sebagai tanggapan, Moonesinghe et al. (2007) menggunakan kerangka kerja yang sama untuk menunjukkan bahwa replikasi sangat meningkatkan probabilitas post-studi dari hipotesis yang benar. Ini masuk akal: Jika banyak penelitian dapat mereplikasi temuan tertentu, kami lebih yakin bahwa hipotesis dugaan itu benar.
Saya menggunakan formula di Moonesinghe et al. (2007) untuk membuat grafik yang menunjukkan probabilitas pasca-studi dalam kasus kegagalan untuk mereplikasi temuan. Asumsikan bahwa hipotesis penelitian tertentu memiliki probabilitas pra-studi menjadi benar sebesar 50%. Lebih lanjut, saya berasumsi bahwa semua studi tidak memiliki bias (tidak realistis!) Memiliki kekuatan 80% dan menggunakan 0,05.α
Grafik menunjukkan bahwa jika setidaknya 5 dari 10 studi gagal mencapai signifikansi, probabilitas pasca-studi kami bahwa hipotesis itu benar hampir 0. Hubungan yang sama ada untuk studi lebih lanjut. Temuan ini juga masuk akal secara intuitif: Kegagalan berulang untuk menemukan efek memperkuat keyakinan kami bahwa efek tersebut kemungkinan besar salah. Alasan ini sejalan dengan jawaban yang diterima oleh @RPL.
Sebagai skenario kedua, mari kita asumsikan bahwa studi hanya memiliki kekuatan 50% (semuanya sama).
Sekarang probabilitas pasca-studi kami menurun lebih lambat, karena setiap studi hanya memiliki daya yang rendah untuk menemukan efeknya, jika benar-benar ada.
sumber
If you have a negative, you found evidence against the null
- Apa? Kata "negatif" memiliki arti sebaliknya. Nilai p yang signifikan disebut hasil "positif"; yang tidak signifikan adalah "negatif".Penjelasan terbaik yang pernah saya lihat untuk ini adalah dari seseorang yang pelatihannya dalam matematika.
Pengujian Signifikansi Null-Hipotesis pada dasarnya adalah bukti dengan kontradiksi: anggap , apakah ada bukti untukH0 H1 ? Jika ada bukti untuk , tolak dan terima . Tetapi jika tidak ada bukti untuk , itu bulat untuk mengatakan bahwa benar karena Anda menganggap bahwa benar untuk memulai.H1 H0 H1 H1 H0 H0
sumber
Jika Anda tidak menyukai konsekuensi pengujian hipotesis ini tetapi tidak siap untuk melakukan lompatan penuh ke metode Bayesian, bagaimana dengan interval kepercayaan?
Misalkan Anda membalik koin kali dan melihat kepala, membuat Anda mengatakan bahwa interval kepercayaan 95% untuk probabilitas kepala adalah .42078 20913 [0.492,0.502]
Anda belum mengatakan bahwa Anda telah melihat bukti bahwa itu sebenarnya , tetapi bukti tersebut menunjukkan keyakinan tentang seberapa dekat mungkin dengan .12 12
sumber
Mungkin akan lebih baik untuk mengatakan bahwa non-penolakan terhadap hipotesis nol tidak dengan sendirinya menjadi bukti untuk hipotesis nol. Setelah kami mempertimbangkan kemungkinan penuh data, yang lebih eksplisit mempertimbangkan jumlah data, maka data yang dikumpulkan dapat memberikan dukungan untuk parameter yang termasuk dalam hipotesis nol.
Namun, kita juga harus hati-hati memikirkan hipotesis kita. Secara khusus, kegagalan untuk menolak hipotesis titik nol bukanlah bukti yang sangat baik bahwa hipotesis titik nol itu benar. Secara realistis, ia mengumpulkan bukti bahwa nilai sebenarnya dari parameter tidak jauh dari titik yang dimaksud. Hipotesis titik nol sampai batas tertentu adalah konstruksi buatan dan paling sering Anda tidak benar-benar percaya bahwa itu akan benar.
Menjadi jauh lebih masuk akal untuk berbicara tentang penolakan yang mendukung hipotesis nol, jika Anda dapat membalikkan hipotesis nol dan alternatif secara bermakna dan jika saat melakukannya Anda akan menolak hipotesis nol baru Anda. Ketika Anda mencoba melakukan itu dengan hipotesis nol titik standar, Anda segera melihat bahwa Anda tidak akan pernah berhasil menolak komplemennya, karena hipotesis nol terbalik Anda berisi nilai yang mendekati nilai yang dipertimbangkan.
Di sisi lain, jika Anda, katakanlah, uji hipotesis nol terhadap alternatif untuk rata-rata distribusi normal, maka untuk setiap nilai sebenarnya dari ada ukuran sampel - kecuali jika tidak realistis nilai sebenarnya dari adalah atau - yang kita punya probabilitas hampir 100% bahwa interval kepercayaan level akan jatuh sepenuhnya dalam atau di luar interval ini. Untuk ukuran sampel terbatas, tentu saja Anda bisa mendapatkan interval kepercayaan yang terletak di seberang batas, dalam hal ini tidak semua bukti kuat untuk hipotesis nol.H0:|μ|≤δ HA:|μ|>δ μ μ −δ +δ 1−α [−δ,+δ]
sumber
Ini lebih tergantung pada bagaimana Anda menggunakan bahasa. Di bawah teori keputusan Pearson dan Neyman, itu bukan bukti untuk nol, tetapi Anda harus bersikap seolah-olah nol itu benar.
Kesulitan datang dari modus tollens. Metode Bayesian adalah bentuk penalaran induktif dan, dengan demikian, adalah bentuk penalaran tidak lengkap. Metode hipotesis nol adalah bentuk probabilistik dari modus tollens dan karena itu merupakan bagian dari penalaran deduktif dan karenanya merupakan bentuk penalaran yang lengkap.
Modus tollens memiliki bentuk "jika A benar maka B benar, dan B tidak benar; karena itu A tidak benar." Dalam bentuk ini, itu akan menjadi jika nol benar maka data akan muncul dengan cara tertentu, mereka tidak muncul dengan cara itu, oleh karena itu (untuk beberapa tingkat kepercayaan) nol tidak benar (atau setidaknya "dipalsukan" . "
Masalahnya adalah Anda ingin "Jika A maka B dan B." Dari sini, Anda ingin menyimpulkan A, tetapi itu tidak valid. "Jika A maka B," tidak mengecualikan "jika bukan A maka B" juga menjadi pernyataan yang valid. Pertimbangkan pernyataan "jika itu beruang, maka ia bisa berenang. Itu adalah ikan (bukan beruang)." Pernyataan itu tidak mengatakan apa-apa tentang kemampuan non-beruang untuk berenang.
Probabilitas dan statistik adalah cabang retorika dan bukan cabang matematika. Ini adalah pengguna matematika yang berat tetapi bukan bagian dari matematika. Itu ada karena berbagai alasan, persuasi, pengambilan keputusan atau kesimpulan. Ini meluas retorika ke diskusi bukti yang disiplin.
sumber
Saya akan mencoba menggambarkan ini dengan sebuah contoh.
Mari kita berpikir bahwa kita mengambil sampel dari suatu populasi, dengan maksud untuk menguji mean . Kami mendapatkan sampel dengan mean . Jika kita mendapatkan nilai p tidak signifikan, kita juga akan mendapatkan nilai p tidak signifikan jika kita telah menguji hipotesis nol lainnya , sehingga berada di antara dan . Sekarang untuk nilai apa kita punya bukti?ˉ x H 0 : μ = μ i μ i μ 0 ˉ x μμ x¯ H0:μ=μi μi μ0 x¯ μ
Juga ketika kami mendapatkan nilai p yang signifikan, kami tidak mendapatkan bukti untuk tertentu , sebaliknya itu merupakan bukti terhadap (yang dapat dijadikan bukti untuk , atau tergantung situasi). Sifat pengujian hipotesis tidak memberikan bukti untuk sesuatu, itu hanya melawan sesuatu, jika itu benar.H 0 : μ = μ 0 μ ≠ μ 0 μ < μ 0 μ > μ 0H1:μ=M H0:μ=μ0 μ≠μ0 μ<μ0 μ>μ0
sumber
sumber
Mari kita ikuti contoh sederhana.
Hipotesis nol saya adalah bahwa data saya mengikuti distribusi normal. Hipotesis alternatif adalah bahwa distribusi untuk data saya tidak normal.
Saya menarik dua sampel acak dari distribusi yang seragam pada [0,1]. Saya tidak bisa berbuat banyak dengan hanya dua sampel, jadi saya tidak akan bisa menolak hipotesis nol saya.
Apakah itu berarti saya dapat menyimpulkan data saya mengikuti distribusi normal? Tidak, ini distribusi yang seragam !!
Masalahnya adalah saya telah membuat asumsi normal dalam hipotesis nol saya. Jadi, saya tidak bisa menyimpulkan asumsi saya benar karena saya tidak bisa menolaknya.
sumber
sumber
Tidak, ini bukan bukti kecuali Anda memiliki bukti bahwa itu adalah bukti. Saya tidak mencoba untuk menjadi imut, tetapi secara literal. Anda hanya memiliki kemungkinan melihat data tersebut dengan asumsi Anda bahwa nol itu benar. Itu adalah SEMUA yang Anda dapatkan dari nilai-p (jika itu, karena nilai-p didasarkan pada asumsi itu sendiri).
Bisakah Anda menyajikan penelitian yang menunjukkan bahwa untuk studi yang "gagal" untuk mendukung hipotesis nol, mayoritas hipotesis nol ternyata benar? Jika Anda dapat menemukan studi ITU, maka kegagalan Anda untuk menyangkal hipotesis nol setidaknya mencerminkan kemungkinan yang SANGAT digeneralisasi bahwa nol itu benar. Saya yakin Anda tidak memiliki studi itu. Karena Anda tidak bukti yang berkaitan dengan hipotesis nol yang benar berdasarkan nilai-p, Anda hanya perlu pergi dengan tangan kosong.
Anda mulai dengan mengasumsikan nol Anda benar untuk mendapatkan nilai-p itu, sehingga nilai-p tidak dapat memberi tahu Anda apa pun tentang nol, hanya tentang data. Berpikir tentang itu. Ini inferensi satu arah - titik.
sumber