Saya telah membaca tentang nilai- , tingkat kesalahan tipe 1, tingkat signifikansi, perhitungan daya, ukuran efek dan perdebatan Fisher vs Neyman-Pearson. Ini membuat saya agak kewalahan. Saya minta maaf untuk dinding teks, tetapi saya merasa perlu untuk memberikan gambaran tentang pemahaman saya saat ini tentang konsep-konsep ini, sebelum saya pindah ke pertanyaan saya yang sebenarnya.
Dari apa yang telah saya kumpulkan, nilai hanyalah ukuran kejutan, probabilitas untuk mendapatkan hasil setidaknya sama ekstrimnya, mengingat bahwa hipotesis nol itu benar. Fisher awalnya dimaksudkan untuk itu menjadi tindakan berkelanjutan.
Dalam kerangka kerja Neyman-Pearson, Anda memilih tingkat signifikansi di muka dan menggunakan ini sebagai titik batas (arbitrer). Level signifikansi sama dengan tingkat kesalahan tipe 1. Ini didefinisikan oleh frekuensi jangka panjang, yaitu jika Anda mengulangi percobaan 1000 kali dan hipotesis nol benar, sekitar 50 dari eksperimen tersebut akan menghasilkan efek yang signifikan , karena variabilitas pengambilan sampel. Dengan memilih level signifikansi, kita menjaga diri kita dari positif palsu ini dengan probabilitas tertentu. secara tradisional tidak muncul dalam kerangka kerja ini.
Jika kita menemukan nilai -0,01 ini tidak berarti bahwa tingkat kesalahan tipe 1 adalah 0,01, kesalahan tipe 1 dinyatakan sebagai apriori. Saya percaya ini adalah salah satu argumen utama dalam perdebatan Fisher vs NP, karena nilai- sering dilaporkan sebagai 0,05 *, 0,01 **, 0,001 ***. Ini bisa menyesatkan orang untuk mengatakan bahwa efeknya signifikan pada nilai- p tertentu , bukan pada nilai signifikansi tertentu.
Saya juga menyadari bahwa nilai- adalah fungsi dari ukuran sampel. Oleh karena itu, itu tidak dapat digunakan sebagai pengukuran absolut. Nilai p yang kecil dapat menunjukkan efek kecil yang tidak relevan dalam percobaan sampel besar. Untuk mengatasi ini, penting untuk melakukan perhitungan ukuran daya / efek ketika menentukan ukuran sampel untuk percobaan Anda. memberi tahu kita apakah ada efek, bukan seberapa besar efeknya. Lihat Sullivan 2012 .
Pertanyaan saya: Bagaimana saya bisa merekonsiliasi fakta bahwa nilai- adalah ukuran kejutan (lebih kecil = lebih meyakinkan) sementara pada saat yang sama itu tidak dapat dilihat sebagai pengukuran absolut?
Yang saya bingung, adalah yang berikut: bisakah kita lebih percaya diri dalam nilai- p kecil daripada yang besar? Dalam pengertian Nelayan, saya akan mengatakan ya, kami lebih terkejut. Dalam kerangka NP, memilih tingkat signifikansi yang lebih kecil akan menyiratkan kita menjaga diri kita lebih kuat terhadap positif palsu.
Tetapi di sisi lain, nilai bergantung pada ukuran sampel. Mereka bukan ukuran absolut. Jadi kita tidak bisa mengatakan 0,001593 lebih signifikan dari 0,0439. Namun ini yang akan tersirat dalam kerangka kerja Fisher: kita akan lebih terkejut dengan nilai ekstrem seperti itu. Bahkan ada diskusi tentang istilah yang sangat signifikan sebagai istilah yang keliru: Apakah salah menyebut hasil sebagai "sangat penting"?
Saya pernah mendengar bahwa nilai dalam beberapa bidang ilmu pengetahuan hanya dianggap penting ketika mereka lebih kecil dari 0,0001, sedangkan di bidang lain nilai sekitar 0,01 sudah dianggap sangat signifikan.
Pertanyaan-pertanyaan Terkait:
Jawaban:
Apakah nilai lebih kecil "lebih meyakinkan"? Ya tentu saja.p
Dalam kerangka kerja Fisher, nilai adalah kuantifikasi jumlah bukti terhadap hipotesis nol. Bukti bisa lebih atau kurang meyakinkan; semakin kecil nilai p , semakin meyakinkan. Perhatikan bahwa dalam setiap percobaan yang diberikan dengan ukuran sampel n tetap , nilai- p secara monoton terkait dengan ukuran efek, seperti yang ditunjukkan oleh @Scortchi dalam jawabannya (+1). Jadi nilai p yang lebih kecil sesuai dengan ukuran efek yang lebih besar; tentu saja mereka lebih meyakinkan!p p n p p
Dalam kerangka kerja Neyman-Pearson, tujuannya adalah untuk mendapatkan keputusan biner: apakah buktinya "signifikan" atau tidak. Dengan memilih ambang , kami menjamin bahwa kami tidak akan memiliki lebih dari α positif palsu. Perhatikan bahwa orang yang berbeda dapat memiliki α yang berbeda dalam pikiran ketika melihat data yang sama; mungkin ketika saya membaca makalah dari bidang yang saya skeptis tentang, saya pribadi tidak akan menganggap sebagai hasil "signifikan" dengan misalnya p = 0,03 meskipun penulis menyebutnya sebagai signifikan. Α pribadi saya mungkin disetel ke atau apalah. Jelas menurunkan dilaporkanα α α p=0.03 α 0.001 p -Nilai, semakin skeptis pembaca akan dapat meyakinkan! Karenanya, sekali lagi, nilai- lebih rendah lebih meyakinkan.p
Praktik standar saat ini adalah menggabungkan pendekatan Fisher dan Neyman-Pearson: jika , maka hasilnya disebut "signifikan" dan nilai- [dilaporkan dengan tepat atau kurang-lebih] dan digunakan sebagai ukuran tingkat keyakinan (dengan menandai dengan bintang, menggunakan ekspresi sebagai "sangat signifikan", dll.); jika , maka hasilnya disebut "tidak signifikan" dan hanya itu.p<α p p>α
Ini biasanya disebut sebagai "pendekatan hybrid", dan memang itu adalah hybrid. Beberapa orang berpendapat bahwa hibrida ini tidak koheren; Saya cenderung tidak setuju. Mengapa tidak valid untuk melakukan dua hal yang valid sekaligus?
Bacaan lebih lanjut:
Apakah "hibrid" antara Fisher dan Neyman-Pearson pendekatan untuk pengujian statistik benar-benar "mishmash tidak koheren"? - pertanyaan saya tentang "hybrid". Itu menghasilkan beberapa diskusi, tetapi saya masih tidak puas dengan jawaban apa pun, dan berencana untuk kembali ke utas itu pada beberapa titik.
Apakah salah menyebut hasil sebagai "sangat penting"? - Lihat jawaban saya kemarin, yang pada dasarnya mengatakan: itu tidak salah (tapi mungkin agak ceroboh).
Mengapa nilai p yang lebih rendah tidak lebih banyak bukti terhadap nol? Argumen dari Johansson 2011 - contoh makalah anti-Fisher yang berpendapat bahwa nilai tidak memberikan bukti terhadap nol; jawaban teratas oleh @Momo melakukan pekerjaan dengan baik dalam menyanggah argumen. Jawaban saya untuk pertanyaan judul adalah: Tapi tentu saja mereka.p
sumber
Saya tidak tahu apa yang dimaksud dengan nilai-p yang lebih kecil menjadi "lebih baik", atau oleh kami "lebih percaya diri" pada mereka. Tetapi mengenai nilai-p sebagai ukuran seberapa terkejutnya kita dengan data, jika kita percaya hipotesis nol, tampaknya cukup masuk akal; nilai p adalah fungsi monoton statistik uji yang Anda pilihuntuk mengukur perbedaan dengan hipotesis nol ke arah yang Anda minati, mengkalibasinya sehubungan dengan propertinya di bawah prosedur pengambilan sampel yang relevan dari suatu populasi atau penetapan acak dari perawatan eksperimental. "Signifikansi" telah menjadi istilah teknis untuk merujuk pada nilai-p 'baik di atas atau di bawah beberapa nilai yang ditentukan; sehingga bahkan mereka yang tidak berminat menentukan tingkat signifikansi & menerima atau menolak hipotesis cenderung menghindari frasa seperti "sangat signifikan" - kepatuhan terhadap konvensi.
Mengenai ketergantungan nilai-p pada ukuran sampel & ukuran efek, mungkin beberapa kebingungan muncul karena misalnya mungkin terlihat bahwa 474 head dari 1000 kali lemparan seharusnya tidak terlalu mengejutkan daripada 2 dari 10 untuk seseorang yang berpikir bahwa koin itu adil — bagaimanapun juga. proporsi sampel hanya menyimpang sedikit dari 50% dalam kasus sebelumnya — namun nilai-p hampir sama. Tapi benar atau salah jangan mengakui derajat; p-value melakukan apa yang diminta darinya: sering kali interval kepercayaan untuk suatu parameter benar-benar ingin menilai seberapa tepatnya efek diukur, & kepentingan praktis atau teoretis dari besarnya estimasi.
sumber
Terima kasih atas komentar dan bacaan yang disarankan. Saya memiliki lebih banyak waktu untuk merenungkan masalah ini dan saya yakin saya telah berhasil mengisolasi sumber kebingungan utama saya.
Awalnya saya pikir ada dikotomi antara melihat nilai-p sebagai ukuran kejutan versus menyatakan bahwa itu bukan ukuran absolut. Sekarang saya menyadari pernyataan ini tidak selalu saling bertentangan. Yang pertama memungkinkan kita untuk lebih atau kurang percaya diri dalam ekstremeness (bahkan ketidaksamaan?) Dari efek yang diamati, dibandingkan dengan hasil hipotesis lain dari percobaan yang sama. Sedangkan yang terakhir hanya memberi tahu kita bahwa apa yang dianggap sebagai nilai-p yang meyakinkan dalam satu percobaan, mungkin tidak mengesankan sama sekali dalam eksperimen lain, misalnya jika ukuran sampel berbeda.
Fakta bahwa beberapa bidang ilmu menggunakan dasar yang berbeda dari nilai-p yang kuat, dapat menjadi cerminan dari perbedaan ukuran sampel umum (astronomi, klinis, eksperimen psikologis) dan / atau upaya untuk menyampaikan ukuran efek dalam p- nilai. Tapi yang terakhir adalah penggabungan yang salah dari keduanya.
Signifikansi adalah pertanyaan ya / tidak berdasarkan alfa yang dipilih sebelum percobaan. Nilai p karena itu tidak bisa lebih signifikan daripada yang lain, karena mereka lebih kecil atau lebih besar dari tingkat signifikansi yang dipilih. Di sisi lain, nilai p yang lebih kecil akan lebih meyakinkan daripada nilai yang lebih besar (untuk ukuran sampel / percobaan yang serupa, seperti yang disebutkan dalam poin pertama saya).
Interval kepercayaan secara inheren menyampaikan ukuran efek, menjadikannya pilihan yang bagus untuk menjaga terhadap masalah yang disebutkan di atas.
sumber
Nilai-p tidak bisa menjadi ukuran kejutan karena itu hanya ukuran probabilitas ketika nol benar. Jika nol adalah benar maka setiap nilai p yang mungkin sama kemungkinannya. Orang tidak dapat terkejut dengan nilai p apa pun sebelum memutuskan untuk menolak nol. Begitu seseorang memutuskan ada efek maka makna nilai-p menghilang. Seseorang hanya melaporkannya sebagai tautan dalam rantai induktif yang relatif lemah untuk membenarkan penolakan, atau tidak, dari nol. Tetapi jika ditolak sebenarnya tidak ada artinya lagi.
sumber