Mengutip jawaban hebat gung
Diduga, seorang peneliti pernah mendekati Fisher dengan hasil 'tidak signifikan', bertanya kepadanya apa yang harus dia lakukan, dan Fisher berkata, 'dapatkan lebih banyak data'.
Dari perspektif Neyman-Pearson, ini terang-terangan -hacking, tetapi ada kasus penggunaan di mana Fisher go-get-lebih-data yang pendekatan masuk akal?
Jawaban:
Paradigma frequentist adalah perpaduan pandangan Fisher dan Neyman-Pearson. Hanya dengan menggunakan satu pendekatan dan interpretasi lain, masalah muncul.
Seharusnya aneh bagi siapa pun bahwa mengumpulkan lebih banyak data bermasalah, karena lebih banyak data lebih banyak bukti. Memang, masalahnya bukan terletak pada mengumpulkan lebih banyak data, tetapi dalam menggunakan nilai-p untuk memutuskan untuk melakukannya, ketika itu juga merupakan ukuran yang menarik. Mengumpulkan lebih banyak data berdasarkan p -value hanya p -hacking jika Anda menghitung p -value baru.
Jika Anda memiliki cukup bukti untuk membuat kesimpulan yang memuaskan tentang pertanyaan penelitian, maka tentu saja, dapatkan lebih banyak data. Namun, akui bahwa Anda sekarang sudah melewati tahap penelitian NHST, dan lebih baik fokuslah pada mengukur efek yang diinginkan.
Catatan yang menarik adalah bahwa orang Bayesia tidak menderita dilema ini. Pertimbangkan hal berikut sebagai contoh:
sumber
Dengan ukuran sampel yang cukup besar, sebuah tes akan selalu menunjukkan hasil yang signifikan, kecuali ukuran efek sebenarnya adalah nol, seperti yang dibahas di sini . Dalam praktiknya, ukuran efek sebenarnya bukan nol, sehingga mengumpulkan lebih banyak data pada akhirnya akan dapat mendeteksi perbedaan paling kecil.
Jawaban sombong (IMO) dari Fisher adalah sebagai jawaban atas pertanyaan yang relatif sepele bahwa pada premisnya menggabungkan 'perbedaan signifikan' dengan 'perbedaan praktis yang relevan'.
Itu akan sama dengan seorang peneliti yang datang ke kantor saya dan bertanya, "Saya menimbang timbal ini dengan label '25 gram 'dan diukur 25,0 gram. Saya yakin itu salah label, apa yang harus saya lakukan?" Untuk itu saya bisa menjawab, "Dapatkan skala yang lebih tepat."
Saya percaya pendekatan go-get-more-data sesuai jika tes awal kurang bertenaga untuk mendeteksi besarnya perbedaan yang secara praktis relevan.
sumber
Terima kasih. Ada beberapa hal yang perlu diingat di sini:
sumber
Apa yang kami sebut P-hacking menerapkan uji signifikansi beberapa kali dan hanya melaporkan hasil signifikansi. Apakah ini baik atau buruk tergantung pada situasi.
Untuk menjelaskannya, mari kita pikirkan efek sejati dalam istilah Bayesian, daripada hipotesis nol dan alternatif. Selama kami percaya bahwa efek kami yang menarik datang dari distribusi yang berkelanjutan, maka kami tahu hipotesis nol itu salah. Namun, dalam kasus tes dua sisi, kami tidak tahu apakah itu positif atau negatif. Di bawah cahaya ini, kita dapat memikirkan nilai-p untuk uji dua sisi sebagai ukuran seberapa kuat bukti bahwa estimasi kami memiliki arah yang benar (yaitu, efek positif atau negatif).
Sekarang, pertimbangkan apa yang terjadi ketika Anda terus kembali untuk mendapatkan lebih banyak data. Setiap kali Anda mendapatkan lebih banyak data, probabilitas Anda untuk mendapatkan arah yang benar tergantung pada data yang cukup hanya naik. Jadi dalam skenario ini, kita harus menyadari bahwa dengan mendapatkan lebih banyak data, walaupun kita sebenarnya meningkatkan kemungkinan kesalahan tipe I, kita juga mengurangi kemungkinan salah menyimpulkan arah yang salah.
Ambillah ini sebagai kontras, penyalahgunaan P-hacking yang lebih tipikal; kami menguji 100-an dari ukuran efek yang memiliki probabilitas yang baik untuk menjadi sangat kecil dan hanya melaporkan yang signifikan. Perhatikan bahwa dalam kasus ini, jika semua efeknya kecil, kami memiliki peluang hampir 50% untuk mendapatkan arah yang salah ketika kami menyatakan signifikansi.
Tentu saja, nilai p yang dihasilkan dari data ini, double-down tetap harus datang dengan sebutir garam. Meskipun, secara umum, Anda seharusnya tidak memiliki masalah dengan orang yang mengumpulkan lebih banyak data untuk lebih yakin tentang ukuran efek, ini bisa disalahgunakan dengan cara lain. Misalnya, PI yang pandai mungkin menyadari bahwa alih-alih mengumpulkan semua 100 titik data sekaligus, mereka dapat menghemat banyak uang dan meningkatkan daya dengan terlebih dahulu mengumpulkan 50 titik data, menganalisis data, dan kemudian mengumpulkan 50 berikutnya jika tidak signifikan . Dalam skenario ini, mereka meningkatkan kemungkinan mendapatkan arah efek yang salah bersyarat pada menyatakan signifikansi, karena mereka lebih cenderung mendapatkan arah efek yang salah dengan 50 titik data daripada dengan 100 titik data.
Dan akhirnya, pertimbangkan implikasi dari tidak mendapatkan lebih banyak data ketika kita memiliki hasil yang tidak signifikan. Itu menyiratkan tidak pernah mengumpulkan lebih banyak informasi tentang topik, yang tidak akan benar-benar mendorong ilmu pengetahuan ke depan, bukan? Satu studi yang kurang kuat akan membunuh seluruh bidang.
sumber
Jika alternatif memiliki probabilitas a priori kecil , maka percobaan yang gagal menolak nol akan menurunkannya lebih lanjut, membuat penelitian lebih lanjut bahkan lebih hemat biaya. Misalnya, misalkan probabilitas a priori adalah 0,01. Maka entropi Anda adalah 0,08 bit. Jika probabilitas berkurang menjadi 0,001, maka entropi Anda sekarang 0,01. Dengan demikian, terus mengumpulkan data seringkali tidak efektif biaya. Salah satu alasan mengapa hal itu akan efektif secara biaya adalah karena mengetahui sangat penting sehingga bahkan bit 0,01 entropi yang tersisa perlu dikurangi.
Alasan lain adalah jika probabilitas a priori benar-benar tinggi. Jika a priori Anda probabilitas lebih dari 50%, maka kegagalan untuk menolak nol meningkatkan entropi Anda, membuatnya lebih hemat biaya untuk terus mengumpulkan data. Contohnya adalah ketika Anda hampir yakin bahwa ada efek, tetapi tidak tahu ke arah mana.
Misalnya, jika Anda seorang agen kontra intelijen dan Anda yakin bahwa suatu departemen memiliki tahi lalat, dan telah mempersempitnya menjadi dua tersangka, dan sedang melakukan beberapa analisis statistik untuk memutuskan yang mana, maka hasil yang tidak signifikan secara statistik akan membenarkan pengumpulan data. lebih banyak data.
sumber