Adakah contoh di mana dua tes yang dapat dipertahankan yang berbeda dengan kemungkinan proporsional akan mengarahkan seseorang pada kesimpulan yang sangat berbeda (dan sama-sama dapat dipertahankan), misalnya, di mana nilai-p adalah urutan besaran yang berjauhan, tetapi kekuatan untuk alternatif serupa?
Semua contoh yang saya lihat sangat konyol, membandingkan binomial dengan binomial negatif, di mana nilai p dari yang pertama adalah 7% dan yang kedua 3%, yang "berbeda" hanya sejauh satu membuat keputusan biner pada ambang batas yang sewenang-wenang signifikansi seperti 5% (yang, omong-omong, adalah standar yang cukup rendah untuk kesimpulan) dan bahkan tidak repot-repot melihat kekuatan. Jika saya mengubah ambang untuk 1%, misalnya, keduanya mengarah pada kesimpulan yang sama.
Saya belum pernah melihat contoh di mana itu akan mengarah pada kesimpulan yang sangat berbeda dan dapat dipertahankan . Apakah ada contoh seperti itu?
Saya bertanya karena saya telah melihat begitu banyak tinta yang dihabiskan untuk topik ini, seolah-olah Prinsip Kemungkinan adalah sesuatu yang mendasar dalam dasar-dasar inferensi statistik. Tetapi jika contoh terbaik yang dimiliki seseorang adalah contoh konyol seperti di atas, prinsipnya tampaknya sama sekali tidak penting.
Jadi, saya mencari contoh yang sangat menarik, di mana jika seseorang tidak mengikuti LP, bobot bukti akan sangat menunjuk ke satu arah diberikan satu tes, tetapi, dalam tes yang berbeda dengan kemungkinan proporsional, bobot bukti akan menjadi sangat menunjuk ke arah yang berlawanan, dan kedua kesimpulan terlihat masuk akal.
Idealnya, orang dapat menunjukkan bahwa kita dapat memisahkan secara sewenang-wenang, namun masuk akal, jawaban, seperti tes dengan versus dengan kemungkinan proporsional dan kekuatan setara untuk mendeteksi alternatif yang sama.
PS: Jawaban Bruce tidak menjawab pertanyaan sama sekali.
sumber
Jawaban:
Pikirkan tentang situasi hipotetis ketika suatu titik nol hipotesis benar tetapi seseorang tetap mengambil sampel sampai (ini akan selalu terjadi cepat atau lambat, yaitu akan terjadi dengan probabilitas 1) dan kemudian memutuskan untuk menghentikan percobaan dan menolak nol. Ini adalah aturan penghentian yang diakui ekstrem, tetapi pertimbangkanlah demi argumen.p < 0,05
Prosedur tolol ini akan memiliki tingkat kesalahan 100% Tipe I, tetapi tidak ada yang salah dengan itu menurut Prinsip Kemungkinan.
Saya akan mengatakan ini benar-benar penting. Tentu saja Anda dapat memilih apa pun dalam argumen ini. Bayesians dapat menggunakan cut-off tetap pada faktor Bayes jika mereka mau. Logika yang sama berlaku. Pelajaran utama di sini adalah bahwa Anda tidak dapat mematuhi LP dan memiliki jaminan tingkat kesalahan. Tidak ada makan siang gratis.α
sumber
Penafian: Saya percaya jawaban ini adalah inti dari keseluruhan argumen, jadi layak untuk dibahas, tetapi saya belum sepenuhnya mengeksplorasi masalah ini. Karena itu, saya menerima koreksi, penyempurnaan, dan komentar.
Aspek yang paling penting adalah dalam hal data yang dikumpulkan secara berurutan. Sebagai contoh, misalkan Anda mengamati hasil biner, dan Anda melihat 10 keberhasilan dan 5 kegagalan. Prinsip kemungkinan mengatakan bahwa Anda harus sampai pada kesimpulan yang sama tentang probabilitas keberhasilan, terlepas dari apakah Anda mengumpulkan data sampai Anda memiliki 10 keberhasilan (binomial negatif) atau menjalankan 15 percobaan, yang 10 di antaranya adalah keberhasilan (binomial) .
Mengapa ini penting?
Karena menurut prinsip kemungkinan (atau setidaknya, interpretasi tertentu dari itu), sama sekali tidak apa-apa untuk membiarkan data memengaruhi ketika Anda akan berhenti mengumpulkan data, tanpa harus mengubah alat inferensi Anda.
Konflik dengan Metode Berurutan
Gagasan bahwa menggunakan data Anda untuk memutuskan kapan harus berhenti mengumpulkan data tanpa mengubah alat inferensial Anda sepenuhnya terbang di hadapan metode analisis sekuensial tradisional. Contoh klasik dari ini adalah dengan metode yang digunakan dalam uji klinis. Untuk mengurangi potensi paparan terhadap pengobatan berbahaya, data sering dianalisis pada waktu menengah sebelum analisis dilakukan. Jika uji coba belum selesai, tetapi para peneliti sudah memiliki cukup data untuk menyimpulkan bahwa perawatan itu berhasil atau berbahaya, etika medis memberi tahu kita bahwa kita harus menghentikan uji coba; jika pengobatannya berhasil, etis untuk menghentikan uji coba dan mulai menyediakan pengobatan untuk pasien yang tidak uji coba. Jika berbahaya, itu lebih etis untuk berhenti sehingga kita berhenti mengekspos pasien percobaan untuk perawatan yang berbahaya.
Masalahnya sekarang kita sudah mulai melakukan beberapa perbandingan, jadi kami telah meningkatkan tingkat kesalahan Tipe I kami jika kami tidak menyesuaikan metode kami dengan memperhitungkan beberapa perbandingan. Ini tidak persis sama dengan masalah perbandingan banyak tradisional, karena ini benar-benar perbandingan parsial ganda (yaitu, jika kita menganalisis data sekali dengan 50% dari data yang dikumpulkan dan sekali dengan 100%, dua sampel ini jelas tidak independen!) , tetapi secara umum semakin banyak perbandingan yang kita lakukan, semakin kita perlu mengubah kriteria kita untuk menolak hipotesis nol untuk mempertahankan tingkat kesalahan tipe I, dengan lebih banyak perbandingan yang direncanakan membutuhkan lebih banyak bukti untuk menolak nol.
Ini menempatkan para peneliti klinis dalam dilema; apakah Anda ingin sering memeriksa data Anda, tetapi kemudian menambah bukti yang diperlukan untuk menolak nol, atau apakah Anda ingin jarang memeriksa data Anda, meningkatkan kekuatan Anda tetapi berpotensi tidak bertindak secara optimal dalam hal etika medis (yaitu, mungkin tunda produk ke pasar atau biarkan pasien terlalu lama tidak membutuhkan perawatan yang berbahaya).
Adalah pemahaman saya (mungkin salah) bahwa prinsip kemungkinan muncul untuk memberi tahu kita bahwa tidak masalah berapa kali kita memeriksa data, kita harus membuat kesimpulan yang sama. Ini pada dasarnya mengatakan bahwa semua pendekatan untuk desain percobaan berurutan sama sekali tidak perlu; cukup gunakan prinsip kemungkinan dan berhenti setelah Anda mengumpulkan cukup data untuk membuat kesimpulan. Karena Anda tidak perlu mengubah metode inferensi untuk menyesuaikan jumlah analisis yang telah Anda siapkan, tidak ada dilema pertukaran antara jumlah waktu yang diperiksa dan kekuasaan. Bam, seluruh bidang analisis sekuensial diselesaikan (sesuai dengan interpretasi ini).
Secara pribadi, yang sangat membingungkan tentang hal ini bagi saya adalah fakta yang diketahui dengan baik di bidang desain berurutan, tetapi cukup halus, adalah bahwa kemungkinan statistik uji akhir sebagian besar diubah oleh aturan penghentian; pada dasarnya, aturan berhenti meningkatkan kemungkinan secara terputus-putus di titik berhenti. Ini adalah plot distorsi semacam itu; garis putus-putus adalah PDF dari statistik tes akhir di bawah nol jika data hanya dianalisis setelah semua data dikumpulkan, sedangkan garis padat memberi Anda distribusi di bawah nol dari statistik uji jika Anda memeriksa data 4 kali dengan yang diberikan aturan.
Dengan mengatakan itu, saya memahami bahwa prinsip kemungkinan menyiratkan bahwa kita dapat membuang semua yang kita ketahui tentang desain berurutan Frequentist dan melupakan berapa kali kita menganalisis data kita. Jelas, implikasi ini, terutama untuk bidang desain klinis, sangat besar. Namun, saya belum memikirkan bagaimana mereka membenarkan mengabaikan bagaimana menghentikan aturan mengubah kemungkinan statistik akhir.
Beberapa diskusi ringan dapat ditemukan di sini , sebagian besar pada slide terakhir.
sumber
Garis besar tes LR untuk data eksponensial.
MisalkanX1, X2, ... , Xn menjadi sampel acak dari
E x p (rate=λ), sehingga E( Xsaya) = μ = 1 / λ .
Untuk x > 0 , fungsi kerapatan adalah dan CDF adalahf( x ) = λ e- λ x F( x ) = 1 - e- λ x.
1. Statistik uji adalah minimum sampel.
Untuk menguji terhadap pada level kami menganggap sebagai pengamatan tunggal dari distribusi eksponensial. Kami menemukan bahwa rasio kemungkinan log menunjukkan penolakan ketika manaH9: μ ≤ μ0 HSebuah: μ > μ0, α = 5 % , V V> c , P( V> c|μ = μ0) = 0,05.
Untuk kasus khusus di mana dan kami memiliki tingkat eksponensial sehingga dari R, di mana eksponensial distribusi parameter oleh tingkat.n = 100 μ0= 10 ,λ0= 0,1 , 10 = n / μ0= 100 / 10 = 10 , c = 0,2295
Dengan demikian, kekuatan terhadap alternatif (tingkat adalah sekitar 74%.μSebuah= 100 n / μSebuah= 1 )
2. Uji statistik adalah mean sampel.
Catatan kelas Oxford U. (halaman kedua) menunjukkan bahwa uji rasio kemungkinan terhadap pada tingkat signifikansi yang ditolak untuk mana Selain itu, seseorang dapat menunjukkan menggunakan fungsi-fungsi penghasil momen yangH0: μ ≤ μ0 H0: μ > μ0 X¯> c , P( X¯> c|μ = μ0) = 0,5. X¯∼ G a m m a ( n , n λ ) .
Untuk kasus khusus di mana dan kami memiliki sehinggan = 100 μ0= 10 ,λ0= 0,1 , X¯∼ G a m m a ( 100 , 10 ) , c = 11.7.
Dengan demikian, kekuatan terhadap alternatif adalah sekitar 95,6%.μSebuah= 14
Jelas, untuk keperluan pengujian hipotesis tentang mean eksponensial informasi dalam statistik yang memadai jauh lebih besar daripada informasi dalam sampel minimum.μ , X¯
sumber
Pelanggaran oleh berbagai fungsi pdf danf( x , θ ) g( x , θ )
Kasus ini akan menjadi contoh 'pelanggaran' karena fungsi distribusi probabilitas secara intrinsik berbeda. Bahkan ketika dan , berbeda, mereka mungkin berhubungan dengan prinsip kemungkinan karena pada pengukuran tetap mereka memberikan fungsi yang sama dari hingga penskalaan. Bedanya, membuka kemungkinan untuk "pelanggaran".f( x , θ ) g( x , θ ) f g x θf g x θ
Balik koin dengan atau tanpa aturan penghentian opsional
The koin flip dengan atau tanpa berhenti aturan opsional adalah contoh yang khas, pdf adalah binomial binomial atau negatif yang berbeda fungsi pdf dan menyebabkan perhitungan yang berbeda dari p-nilai, dan interval kepercayaan, tetapi mereka menyebabkan fungsi kemungkinan yang sama untuk tetap sampel / pengukuran (hingga skala).
Contoh yang lebih ekstrem
Pertimbangkan beberapa pengukuran yang didistribusikan sebagaiX
di mana adalah beberapa parameter yang diketahui yang bergantung pada jenis percobaan, dan adalah beberapa parameter yang mungkin tidak diketahui dan dapat disimpulkan dari pengukuran .Sebuah θ x
Untuk setiap diberikan dan fungsi kemungkinan adalah sebanding dengan fungsi yang sama yang independen dari :x a Sebuah
Tetapi, meskipun fungsi kemungkinan yang sama, nilai-p dapat sangat bervariasi tergantung pada percobaan (yaitu nilai ). Misalnya ketika Anda mengukur dan menguji terhadap maka nilai-p adalahSebuah x = 2 H0: θ = 1 H0: θ < 1
Intuisi: Alasan pelanggaran dalam kasus-kasus ini adalah bahwa nilai-p dan tes hipotesis tidak semata - mata didasarkan pada fungsi kemungkinan untuk nilai yang diamati tertentu .x
Nilai p tidak dihitung dari kemungkinan dengan tetap, tetapi dengan pdf dengan tetap yang merupakan irisan yang berbeda. Interval kepercayaan, nilai-p, dan tes hipotesis, adalah hal-hal yang berbeda dari informasi dari rasio kemungkinan.f( θ | x ) x f( x | θ ) θ
nilai-p tidak benar-benar bukti: Nilai-p berhubungan dengan kesalahan tipe I yang merupakan ukuran yang berhubungan dengan ansambel pengukuran daripada pengukuran tunggal. Kesalahan tipe I atau nilai-p ini tidak sama dengan 'makna bukti' dari dasar Birnbaums 'dasar bukti statistik'. Ini banyak berhubungan dengan masalah dengan nilai-p dan ilmuwan yang mencari hasil hanya dengan signifikansi statistik daripada efek penting.
Apakah kita memerlukan contoh di mana kesimpulan sangat berbeda? Kasus ekstrem adalah contoh yang dibuat-buat. Kasus seperti itu, atau apa pun dengan perbedaan ekstrim yang serupa, tentu saja tidak terjadi dengan mudah dalam praktiknya. Lebih sering terjadi bahwa perbedaannya akan kecil seperti dalam kasus yang Anda sebut konyol.
Untuk menanyakan contoh-contoh di mana prinsip kemungkinan 'benar-benar penting', atau di mana dua kesimpulan berbeda mengarah pada hasil yang sangat berbeda, adalah sedikit pertanyaan yang banyak dimuat . Setidaknya ketika niat untuk pertanyaan ini berkaitan dengan beberapa argumen filosofis. Ini adalah pertanyaan yang dimuat karena mengandaikan bahwa prinsip-prinsip yang penting harus mengarah pada hasil yang sangat beragam. Namun dalam banyak kasus praktis hasilnya kecil (dalam hal nilai-p yang berbeda kurang dari pesanan). Saya percaya bahwa ini tidak aneh untuk dua metode yang berbeda, tetapi keduanya masuk akal, untuk menghasilkan hasil yang kurang lebih sama. Saya akan mempertimbangkan prinsip kemungkinan untuk tidak 'kurang dilanggar' ketika perbedaannya hanya kecil.
sumber
Berikut adalah contoh yang diadaptasi dari teori keputusan Statistik dan analisis Bayesian oleh James O. Berger (Edisi kedua halaman 29).
Katakanlah bahwa dua spesies tawon dapat dibedakan dengan jumlah takik pada sayap (sebut ini ) dan dengan jumlah cincin hitam di sekitar perut (sebut ini ). Distribusi karakter dalam dua spesies (berlabel dan ) adalah sebagai berikut:x y H0 H1
Katakanlah kita menemukan spesimen dengan 1 takik di sayap dan 1 cincin di sekitar perut. Bobot bukti jika 100 kali lebih besar mendukung melawan untuk kedua karakter.H1 H0
Sekarang jika seseorang ingin membuat tes untuk pada level 5%, aturan keputusan akan untuk karakter pertama "terima jika ada 1 takik pada sayap, jika tidak menolaknya", dan untuk karakter kedua "terima jika ada 3 cincin di sekitar perut, tolak tolak ”. Ada banyak kemungkinan lain, tetapi ini adalah tes paling kuat di level ini. Namun, mereka mengarah pada kesimpulan berbeda untuk kedua karakter.H0 H0 H0
Catatan : seseorang tentu saja dapat melakukan tes dengan aturan "terima jika ada 1 atau 3 cincin di sekitar perut, jika tidak menolaknya". Pertanyaannya adalah apakah kita lebih suka tes pada level 5% dengan risiko tipe II 0, atau tes pada level 4,9% dengan risiko tipe II 0,00001. Perbedaannya sangat kecil sehingga kita mungkin tidak peduli, tetapi seperti yang saya pahami, ini adalah inti dari argumen untuk prinsip kemungkinan: bukan ide yang baik untuk membuat hasilnya tergantung pada sesuatu yang tampaknya tidak relevan.H0
Fungsi kemungkinan proporsional, namun nilai p dari adalah 0,95, dan adalah 0,001 (dengan asumsi bahwa kami menolak dengan peristiwa dalam bentuk ). Jelas dari struktur tabel bahwa saya bisa memilih angka yang lebih kecil dari 0,001. Juga, risiko penolakan tipe II adalah 0, jadi sepertinya tidak ada yang "salah" di sini.x = 1 y= 1 H0 y≤ α
Meski demikian, saya akui bahwa contoh ini agak dibuat-buat dan tidak sepenuhnya jujur karena bermain dengan kesulitan mengatur tes dengan data diskrit. Orang dapat menemukan contoh yang setara dengan data kontinu tetapi mereka akan lebih dibuat-buat. Saya setuju dengan OP bahwa prinsip kemungkinan hampir tidak memiliki nilai praktis; Saya menafsirkannya sebagai prinsip untuk menjamin konsistensi dalam teori.
sumber