Saya tahu bahwa ada banyak bahan yang menjelaskan nilai-p. Namun konsep ini tidak mudah dipahami dengan kuat tanpa klarifikasi lebih lanjut.
Berikut adalah definisi nilai p dari Wikipedia:
Nilai-p adalah probabilitas memperoleh statistik uji setidaknya paling ekstrem seperti yang sebenarnya diamati, dengan asumsi bahwa hipotesis nol itu benar. ( http://en.wikipedia.org/wiki/P-value )
Pertanyaan pertama saya berkaitan dengan ungkapan "paling tidak sama ekstrimnya dengan yang benar-benar diamati." Pemahaman saya tentang logika yang mendasari penggunaan nilai-p adalah sebagai berikut: Jika nilai-p kecil, tidak mungkin bahwa pengamatan terjadi dengan asumsi hipotesis nol dan kita mungkin perlu hipotesis alternatif untuk menjelaskan pengamatan. Jika p-value tidak begitu kecil, kemungkinan pengamatan hanya terjadi dengan mengasumsikan hipotesis nol dan hipotesis alternatif tidak diperlukan untuk menjelaskan pengamatan. Jadi, jika seseorang ingin menekankan hipotesis ia harus menunjukkan bahwa nilai p dari hipotesis nol sangat kecil. Dengan mengingat pandangan ini, pemahaman saya tentang ekspresi ambigu adalah bahwa p-value adalah, jika PDF dari statistik adalah unimodal, di mana adalah statistik uji dan adalah nilainya yang diperoleh dari pengamatan. Apakah ini benar? Jika benar, apakah masih berlaku untuk menggunakan statistik bimodal dari statistik? Jika dua puncak dari PDF dipisahkan dengan baik dan nilai yang diamati adalah suatu tempat di wilayah kepadatan probabilitas rendah antara dua puncak, interval mana yang memberikan nilai p-probabilitas?
Pertanyaan kedua adalah tentang definisi p-value lain dari Wolfram MathWorld:
Probabilitas bahwa suatu varian akan menganggap suatu nilai lebih besar dari atau sama dengan nilai yang diamati secara kebetulan. ( http://mathworld.wolfram.com/P-Value.html )
Saya mengerti bahwa ungkapan "secara kebetulan" harus ditafsirkan sebagai "mengasumsikan hipotesis nol". Apakah itu benar?
Pertanyaan ketiga berkaitan dengan penggunaan "hipotesis nol". Mari kita asumsikan bahwa seseorang ingin bersikeras bahwa koin itu adil. Dia menyatakan hipotesis karena frekuensi relatif kepala adalah 0,5. Maka hipotesis nol adalah "frekuensi relatif kepala bukan 0,5." Dalam hal ini, sedangkan menghitung nilai p dari hipotesis nol adalah sulit, perhitungannya mudah untuk hipotesis alternatif. Tentu saja masalahnya dapat diselesaikan dengan mempertukarkan peran dua hipotesis. Pertanyaan saya adalah bahwa penolakan atau penerimaan yang didasarkan langsung pada nilai-p dari hipotesis alternatif asli (tanpa memperkenalkan hipotesis nol) adalah apakah itu OK atau tidak. Jika tidak OK, apa solusi yang biasa untuk kesulitan seperti itu ketika menghitung nilai p dari hipotesis nol?
Saya memposting pertanyaan baru yang lebih jelas berdasarkan diskusi di utas ini.
Jawaban:
Jawaban pertama
Anda harus berpikir pada konsep ekstrim dalam hal probabilitas statistik uji, bukan dalam hal nilainya atau nilai variabel acak yang diuji. Saya melaporkan contoh berikut dari Christensen, R. (2005). Menguji Fisher, Neyman, Pearson, dan Bayes . The American Statistician , 59 (2), 121-126
Di sini adalah pengamatan, baris kedua adalah probabilitas untuk mengamati pengamatan yang diberikan di bawah hipotesis nol , yang digunakan di sini sebagai statistik uji, baris ketiga adalah nilai . Kami di sini dalam kerangka uji Fisher: ada satu hipotesis ( , dalam hal ini ) di mana kami ingin melihat apakah datanya aneh atau tidak. Pengamatan dengan probabilitas terkecil adalah 2 dan 3 dengan masing-masing 0,5%. Jika Anda mendapatkan 2, misalnya, probabilitas untuk mengamati sesuatu yang cenderung atau kurang mungkin ( dan ) adalah 1%. Pengamatan tidak berkontribusi padar θ=0 p H0 θ=0 r=2 r=3 r=4 p nilai, meskipun lebih jauh (jika ada hubungan pesanan), karena memiliki probabilitas yang lebih tinggi untuk diamati.
Definisi ini berfungsi secara umum, karena mengakomodasi variabel kategorikal dan multidimensi, di mana relasi urutan tidak didefinisikan. Dalam kasus variabel kuantitatif tunggal, di mana Anda mengamati beberapa bias dari hasil yang paling mungkin, mungkin masuk akal untuk menghitung nilai ekor tunggal , dan hanya mempertimbangkan pengamatan yang ada di satu sisi dari distribusi statistik uji.p
Jawaban kedua
Saya sepenuhnya tidak setuju dengan definisi ini dari Mathworld.
Jawaban ketiga
Saya harus mengatakan bahwa saya tidak sepenuhnya yakin saya memahami pertanyaan Anda, tetapi saya akan mencoba memberikan beberapa pengamatan yang dapat membantu Anda.
Dalam konteks pengujian Fisher yang paling sederhana, di mana Anda hanya memiliki hipotesis nol, ini harus menjadi status quo . Ini karena pengujian Fisher pada dasarnya bekerja berdasarkan kontradiksi. Jadi, dalam kasus koin, kecuali Anda memiliki alasan untuk berpikir secara berbeda, Anda akan menganggapnya adil, . Kemudian Anda menghitung nilai untuk data Anda di bawah dan, jika nilai Anda di bawah ambang yang telah ditentukan, Anda menolak hipotesis (bukti dengan kontradiksi). Anda tidak pernah menghitung probabilitas hipotesis nol.H0:θ=0.5 p H0 p
Dengan tes Neyman-Pearson Anda menentukan dua hipotesis alternatif dan, berdasarkan kemungkinan relatif dan dimensi vektor parameter, Anda mendukung satu atau yang lain. Ini dapat dilihat, misalnya, dalam menguji hipotesis koin bias dan tidak bias. Tidak cocok berarti memperbaiki parameter ke (dimensi ruang parameter ini adalah nol), sedangkan bias dapat berupa nilai (dimensi sama dengan satu). Ini memecahkan masalah mencoba untuk bertentangan dengan hipotesis bias dengan kontradiksi, yang tidak mungkin, seperti yang dijelaskan oleh pengguna lain. Fisher dan NP memberikan hasil yang sama ketika sampel besar, tetapi mereka tidak persis sama. Di sini di bawah kode sederhana dalam R untuk koin bias.θ=0.5 θ≠0.5
sumber
(1) Statistik adalah angka yang dapat Anda hitung dari sampel. Ini digunakan untuk mengatur semua sampel yang mungkin Anda miliki (di bawah model yang diasumsikan, di mana koin tidak mendarat di tepinya & apa pun yang Anda miliki). Jika adalah apa yang Anda hitung dari sampel yang Anda dapatkan, & adalah variabel acak yang sesuai, maka nilai-p diberikan oleh bawah hipotesis nol, . 'Lebih besar dari' vs 'lebih ekstrim' pada prinsipnya tidak penting. Untuk pengujian dua sisi pada rata-rata Normal kita dapat menggunakan tetapi lebih mudah menggunakan karena kami memiliki tabel yang sesuai. (Perhatikan penggandaannya.)t T Pr(T≥t) H0 Pr(|Z|≥|z|) 2min[Pr(Z≥z),Pr(Z≤z)]
Tidak ada persyaratan untuk statistik uji untuk menempatkan sampel dalam urutan probabilitas mereka di bawah hipotesis nol. Ada situasi (seperti contoh Zag) di mana dengan cara lain akan tampak menyimpang (tanpa informasi lebih lanjut tentang apa langkah-langkah, apa jenis perbedaan dengan yang menarik yang paling, & c.), Tetapi kriteria sering lainnya digunakan. Jadi Anda bisa memiliki bimodal PDF untuk statistik uji & masih menguji menggunakan rumus di atas.r H0 H0
(2) Ya, artinya di bawah .H0
(3) Hipotesis nol seperti "Frekuensi kepala bukan 0,5" tidak ada gunanya karena Anda tidak akan pernah bisa menolaknya. Ini nol komposit termasuk "frekuensi kepala adalah 0,49999999", atau sedekat yang Anda suka. Terlepas dari apakah Anda berpikir sebelumnya tentang koin yang adil atau tidak, Anda memilih hipotesis nol yang bermanfaat yang mendukung masalah tersebut. Mungkin yang lebih bermanfaat setelah percobaan adalah menghitung interval kepercayaan untuk frekuensi kepala yang menunjukkan Anda bahwa itu jelas bukan koin yang adil, atau cukup dekat dengan adil, atau Anda perlu melakukan lebih banyak percobaan untuk mengetahuinya.
Ilustrasi untuk (1):
Misalkan Anda sedang menguji kewajaran sebuah koin dengan 10 kali lemparan. Ada hasil yang mungkin. Berikut mereka bertiga:210
Anda mungkin akan setuju dengan saya bahwa dua yang pertama terlihat agak mencurigakan. Namun probabilitas di bawah nol sama:
Untuk sampai di mana saja, Anda perlu mempertimbangkan jenis alternatif apa dari nol yang ingin Anda uji. Jika Anda siap untuk mengambil independensi dari setiap lemparan di bawah nol & alternatif (& dalam situasi nyata ini seringkali berarti bekerja sangat keras untuk memastikan uji coba independen,), Anda dapat menggunakan jumlah total kepala sebagai statistik uji tanpa kehilangan informasi . (Mempartisi ruang sampel dengan cara ini adalah pekerjaan penting lain yang dilakukan statistik.)
Jadi, Anda memiliki hitungan antara 0 dan 10
Distribusi di bawah nol adalah
Di bawah versi alternatif yang paling cocok dengan data, jika Anda melihat (katakanlah) 3 dari 10 kepala, kemungkinan kepala adalah , jadi310
Ambil rasio probabilitas di bawah nol ke probabilitas di bawah alternatif (disebut rasio kemungkinan):
Dibandingkan dengan
Jadi untuk nol ini, dua statistik memesan sampel dengan cara yang sama. Jika Anda mengulangi dengan nol 0,85 (yaitu pengujian bahwa frekuensi kepala jangka panjang adalah 85%), mereka tidak.
Untuk melihat alasannya
Beberapa nilai kurang mungkin di bawah alternatif, & statistik uji rasio kemungkinan memperhitungkan hal ini. NB statistik tes ini tidak akan ekstrem untukt
Dan itu bagus - setiap sampel dapat dianggap ekstrem dari sudut pandang tertentu. Anda memilih statistik uji sesuai dengan jenis perbedaan hingga nol yang ingin Anda deteksi.
... Melanjutkan rangkaian pemikiran ini, Anda dapat menentukan statistik yang membagi ruang sampel secara berbeda untuk menguji nol yang sama terhadap alternatif yang dilemparkan satu koin ke yang berikutnya. Panggil jumlah run , sehinggar
memiliki :r=6
Urutan yang mencurigakan
memiliki . Begitu jugar=10
sementara di ekstrem lainnya
punya . Menggunakan probabilitas di bawah nol sebagai statistik uji (sesuka Anda), Anda dapat mengatakan bahwa nilai-p sampelr=1
Oleh karena itu . Apa yang patut dicatat, membandingkan tes ini dengan yang sebelumnya, adalah bahwa bahkan jika Anda berpegang teguh pada urutan yang diberikan oleh probabilitas di bawah nol, cara Anda mendefinisikan statistik pengujian untuk mempartisi ruang sampel tergantung pada pertimbangan alternatif.41024=1256
sumber