Secara kasar, nilai-p memberikan probabilitas hasil yang diamati dari eksperimen yang diberikan hipotesis (model). Dengan probabilitas ini (nilai-p) kami ingin menilai hipotesis kami (seberapa besar kemungkinannya). Tetapi bukankah lebih alami untuk menghitung probabilitas hipotesis mengingat hasil yang diamati?
Lebih detail. Kami punya koin. Kami membalikkannya 20 kali dan kami mendapatkan 14 kepala (14 dari 20 adalah apa yang saya sebut "hasil percobaan"). Sekarang, hipotesis kami adalah bahwa koin itu adil (probabilitas kepala dan ekor sama satu sama lain). Sekarang kita menghitung nilai p, yaitu sama dengan probabilitas untuk mendapatkan 14 atau lebih kepala dalam 20 flips koin. OK, sekarang kami memiliki probabilitas ini (0,058) dan kami ingin menggunakan probabilitas ini untuk menilai model kami (bagaimana mungkin kami memiliki koin yang adil).
Tetapi jika kita ingin memperkirakan probabilitas model, mengapa kita tidak menghitung probabilitas model yang diberikan eksperimen? Mengapa kita menghitung probabilitas percobaan yang diberikan model (nilai-p)?
sumber
Jawaban:
Menghitung probabilitas bahwa hipotesis itu benar tidak cocok dengan definisi probabilitas (frekuensi jangka panjang), yang diadopsi untuk menghindari subyektivitas yang seharusnya dari definisi Bayesian tentang probabilitas. Kebenaran dari hipotesis tertentu bukan variabel acak, itu bisa benar atau tidak dan tidak memiliki frekuensi jangka panjang. Memang lebih alami untuk tertarik pada probabilitas kebenaran hipotesis, yang merupakan IMHO mengapa nilai-p sering disalahartikan sebagai probabilitas bahwa hipotesis nol itu benar. Bagian dari kesulitannya adalah bahwa dari aturan Bayes, kita tahu bahwa untuk menghitung probabilitas posterior bahwa hipotesis itu benar, Anda harus mulai dengan probabilitas sebelumnya bahwa hipotesis itu benar.
Bayesian akan menghitung probabilitas bahwa hipotesis itu benar, mengingat data (dan keyakinannya sebelumnya).
Pada dasarnya dalam memutuskan antara pendekatan frequentist dan Bayesian adalah pilihan apakah dugaan subjektivitas dari pendekatan Bayesian lebih menjijikkan daripada fakta bahwa pendekatan frequentist umumnya tidak memberikan jawaban langsung untuk pertanyaan yang sebenarnya ingin Anda tanyakan - tetapi ada ruang untuk kedua.
Dalam hal menanyakan apakah koin itu adil, yaitu probabilitas kepala sama dengan probabilitas ekor, kita juga memiliki contoh hipotesis yang kita tahu di dunia nyata hampir pasti salah sejak awal. Kedua sisi koin adalah non-simetris, jadi kita harus mengharapkan sedikit asimetri dalam probabilitas kepala dan ekor, jadi jika koin "lolos" dari ujian, itu berarti kita tidak memiliki cukup pengamatan untuk dapat simpulkan apa yang sudah kita ketahui benar - bahwa koin itu sangat sedikit bias!
sumber
Tidak seperti menjawab pertanyaan yang sangat lama, tapi begini ....
nilai-p adalah tes hipotesis yang hampir valid. Ini adalah kutipan yang sedikit diadaptasi yang diambil dari buku teori probabilitas 2003 Jaynes (percobaan berulang: probabilitas dan frekuensi). Misalkan kita memiliki hipotesis nol yang ingin kita uji. Kami memiliki data D dan informasi sebelum saya . Misalkan ada beberapa hipotesis H A yang tidak ditentukan yang akan kami uji dengan H 0 . Rasio peluang posterior untuk H A terhadap H 0 kemudian diberikan oleh:H0 D I HA H0 HA H0
Jadi kami mengambil rasio dari keduanya, dan kami mendapatkan:
Meskipun keduanya merupakan hal yang mudah dilakukan dalam contoh ini, mereka tidak selalu mudah dalam kasus yang lebih rumit. Dalam beberapa kasus mungkin lebih mudah untuk memilih statistik yang tepat untuk digunakan dan menghitung distribusi sampelnya. Di negara lain mungkin lebih mudah untuk mendefinisikan kelas alternatif, dan memaksimalkan kelas tersebut.
Contoh sederhana ini menjelaskan sejumlah besar pengujian berbasis nilai-p, hanya karena begitu banyak uji hipotesis dari varietas "perkiraan normal". Ini memberikan jawaban perkiraan untuk masalah koin Anda juga (dengan menggunakan perkiraan normal ke binomial). Ini juga menunjukkan bahwa nilai-p dalam kasus ini tidak akan membuat Anda tersesat, setidaknya dalam hal menguji hipotesis tunggal. Dalam hal ini, kita dapat mengatakan bahwa nilai-p adalah ukuran bukti terhadap hipotesis nol.
sumber
Sebagai mantan akademisi yang pindah praktik, saya akan mengambil kesempatan. Orang-orang menggunakan nilai-p karena mereka berguna. Anda tidak dapat melihatnya dalam contoh membalik koin. Tentu mereka tidak benar-benar solid secara mendasar, tapi mungkin itu tidak sepenting yang kita suka pikirkan ketika kita berpikir secara akademis. Dalam dunia data, kita dikelilingi oleh sejumlah hal yang mungkin tak terbatas untuk dilihat selanjutnya. Dengan perhitungan p-value semua yang Anda butuhkan sebagai gagasan tentang apa yang tidak menarik dan heuristik numerik untuk jenis data apa yang mungkin menarik (well, ditambah model probabilitas untuk tidak menarik). Kemudian secara individu atau kolektif kita dapat memindai hal-hal yang cukup sederhana, menolak sebagian besar yang tidak menarik. Nilai p memungkinkan kita untuk mengatakan "Jika saya tidak memprioritaskan untuk memikirkan hal ini sebaliknya,
sumber
Pertanyaan Anda adalah contoh yang bagus dari pemikiran yang sering muncul dan, sebenarnya cukup alami. Saya telah menggunakan contoh ini di kelas saya untuk menunjukkan sifat tes hipotesis. Saya meminta sukarelawan untuk memprediksi hasil flip koin. Apa pun hasilnya, saya mencatat tebakan "benar". Kami melakukan ini berulang kali hingga kelas menjadi mencurigakan.
Sekarang, mereka memiliki model nol di kepala mereka. Mereka menganggap koin itu adil. Mengingat asumsi 50% benar ketika semuanya adil, setiap tebakan yang benar secara berurutan membangkitkan lebih banyak kecurigaan bahwa model koin yang adil tidak benar. Beberapa tebakan yang benar dan mereka menerima peran kebetulan. Setelah 5 atau 10 tebakan yang benar, kelas selalu mulai curiga bahwa peluang koin yang adil rendah. Demikian pula dengan sifat pengujian hipotesis di bawah model frequentist.
Ini adalah representasi yang jelas dan intuitif dari pengambilan sering pada pengujian hipotesis. Ini adalah probabilitas dari data yang diamati mengingat bahwa nol itu benar. Sebenarnya sangat alami seperti yang ditunjukkan oleh percobaan mudah ini. Kami menerima begitu saja bahwa modelnya adalah 50-50 tetapi sebagai bukti meningkat, saya menolak model itu dan mencurigai ada sesuatu yang lain yang berperan.
Jadi, jika probabilitas apa yang saya amati rendah mengingat model yang saya asumsikan (nilai-p) maka saya memiliki kepercayaan diri dalam menolak model yang saya asumsikan. Dengan demikian, nilai-p adalah ukuran bukti yang berguna terhadap model yang saya asumsikan dengan mempertimbangkan peran peluang.
Penafian: Saya mengambil latihan ini dari artikel yang sudah lama terlupakan, yang saya ingat, adalah salah satu jurnal ASA.
sumber
"Secara kasar nilai-p memberikan probabilitas hasil yang diamati dari eksperimen yang diberikan hipotesis (model)."
tapi ternyata tidak. Bahkan tidak kira - ini memalsukan perbedaan penting.
Model ini tidak ditentukan, seperti yang ditunjukkan oleh Raskolnikov, tetapi mari kita asumsikan maksud Anda adalah model binomial (lemparan koin independen, bias koin tidak diketahui tetap). Hipotesis adalah klaim bahwa parameter yang relevan dalam model ini, bias atau probabilitas kepala, adalah 0,5.
"Memiliki probabilitas ini (nilai-p) kami ingin menilai hipotesis kami (seberapa besar kemungkinannya)"
Kita mungkin memang ingin membuat penilaian ini tetapi nilai-p tidak akan (dan tidak dirancang untuk) membantu kita melakukannya.
"Tapi bukankah lebih alami untuk menghitung probabilitas hipotesis mengingat hasil yang diamati?"
Mungkin itu akan terjadi. Lihat semua diskusi Bayes di atas.
"[...] Sekarang kita menghitung nilai-p, yaitu sama dengan probabilitas untuk mendapatkan 14 kepala atau lebih dalam 20 flips koin. OK, sekarang kita memiliki probabilitas ini (0,058) dan kami ingin menggunakan probabilitas ini untuk menilai model kami (bagaimana mungkin kami memiliki koin yang adil). "
'Dari hipotesis kami, dengan asumsi model kami benar', tetapi pada dasarnya: ya. Nilai p yang besar menunjukkan bahwa perilaku koin konsisten dengan hipotesis bahwa itu adil. (Mereka juga biasanya konsisten dengan hipotesis yang salah tetapi begitu dekat dengan kebenaran kita tidak memiliki cukup data untuk diceritakan; lihat 'kekuatan statistik'.)
"Tetapi jika kita ingin memperkirakan probabilitas model, mengapa kita tidak menghitung probabilitas model yang diberikan percobaan? Mengapa kita menghitung probabilitas percobaan yang diberikan model (nilai-p)?"
Kami sebenarnya tidak menghitung probabilitas hasil percobaan yang diberikan hipotesis dalam pengaturan ini. Bagaimanapun, probabilitasnya hanya sekitar 0,176 untuk melihat dengan tepat 10 kepala ketika hipotesisnya benar, dan itulah nilai yang paling mungkin. Ini bukan jumlah yang menarik sama sekali.
Juga relevan bahwa kita biasanya tidak memperkirakan probabilitas model. Baik jawaban frequentist dan Bayesian biasanya menganggap model itu benar dan membuat kesimpulan tentang parameternya. Memang, tidak semua pendukung Bayesian akan bahkan pada prinsipnya tertarik pada probabilitas model, yaitu: probabilitas bahwa seluruh situasi baik dimodelkan dengan distribusi binomial. Mereka mungkin melakukan banyak pengecekan model, tetapi tidak pernah benar-benar bertanya seberapa besar kemungkinan binomial berada dalam ruang model yang mungkin lainnya. Bayesians yang peduli tentang Bayes Factors tertarik, yang lain tidak begitu peduli.
sumber
Catatan tambahan untuk jawaban luar biasa lainnya: kadang-kadang ada saat-saat yang tidak kami lakukan. Misalnya, hingga baru-baru ini, mereka langsung dilarang di jurnal Epidemiologi - sekarang mereka hanya "sangat tidak bersemangat " dan dewan editorial mencurahkan banyak ruang untuk diskusi tentang mereka di sini: http: //journals.lww. com / epidem / halaman / collectiondetails.aspx? TopicalCollectionId = 4
sumber
sumber
Tentukan probabilitas . Saya sungguh-sungguh. Sebelum kita maju lebih jauh, kita perlu menentukan persyaratan.
Dalam masalah praktis dunia dengan mengatakan kondisi medis dan cara kerjanya, Anda mungkin tidak dapat menemukan komponen-komponen ini dari distribusi bersama, dan tidak dapat mengkondisikan.
Selain kesulitan dalam berbicara tentang apa sebenarnya model yang tepat, metode Bayesian memiliki cara terbatas dalam berurusan dengan kesalahan spesifikasi model. Jika Anda tidak menyukai kesalahan Gaussian, atau Anda tidak percaya pada kemandirian lemparan koin (tangan Anda lelah setelah 10.000 atau lebih lemparan pertama, jadi Anda tidak melemparkannya setinggi 1.000 atau lebih kali pertama, yang dapat memengaruhi probabilitas), yang dapat Anda lakukan di dunia Bayesian adalah membangun model yang lebih rumit - tetap menggunakan prior untuk campuran normal, splines dalam probabilitas dari waktu ke waktu, apa pun. Tetapi tidak ada analog langsung dengan kesalahan standar sandwich Huber yang secara eksplisit mengakui bahwa model mungkin salah spesifikasi, dan siap untuk menjelaskannya.
sumber
Karena kita tidak tahu caranya. Ada jumlah tak terbatas dari model yang mungkin, dan ruang probabilitasnya tidak ditentukan.
Ini contoh praktisnya. Katakanlah saya ingin meramalkan PDB AS. Saya mendapatkan seri waktu, dan cocok dengan seorang model. Berapa probabilitas bahwa model ini benar?
sumber