Kapan pendekatan "dapatkan data lebih banyak" dari Fisher masuk akal?

26

Mengutip jawaban hebat gung

Diduga, seorang peneliti pernah mendekati Fisher dengan hasil 'tidak signifikan', bertanya kepadanya apa yang harus dia lakukan, dan Fisher berkata, 'dapatkan lebih banyak data'.

Dari perspektif Neyman-Pearson, ini terang-terangan p -hacking, tetapi ada kasus penggunaan di mana Fisher go-get-lebih-data yang pendekatan masuk akal?

nalzok
sumber
10
Fisher (berulang kali) menekankan pentingnya replikasi percobaan dan saya berharap itulah maksudnya di sini (dengan asumsi percakapan terjadi). Tentu saja Fisher akan menyadari bahwa Anda tidak dapat memeriksa signifikansi dan kemudian memperluas sampel awal Anda jika Anda tidak mendapatkannya.
Glen_b -Reinstate Monica
@ Glen_b Saya telah mendengar frasa "replikasi percobaan" sebelumnya tetapi tidak cukup mengerti. Bisakah Anda menguraikan? Katakanlah, apakah sepuluh ulangan percobaan yang ukuran sampelnya 10 lebih baik daripada percobaan tunggal yang ukuran sampelnya 100?
nalzok
Dalam studi eksplorasi, mendapatkan-lebih-data mungkin diterima. Dalam studi konfirmasi, tidak ada posisi untuk mendapatkan lebih banyak data.
user158565
5
Salah satu pandangan kontroversial saya tentang praktik statistik adalah bahwa sementara penting untuk mempertimbangkan masalah false-positive, kita tidak boleh menempatkan tingkat kesalahan melestarikan tipe 1 pada tumpuan tinggi sehingga kami menolak untuk belajar dari data untuk melestarikan tipe. 1 tingkat kesalahan.
Cliff AB

Jawaban:

29

Paradigma frequentist adalah perpaduan pandangan Fisher dan Neyman-Pearson. Hanya dengan menggunakan satu pendekatan dan interpretasi lain, masalah muncul.

Seharusnya aneh bagi siapa pun bahwa mengumpulkan lebih banyak data bermasalah, karena lebih banyak data lebih banyak bukti. Memang, masalahnya bukan terletak pada mengumpulkan lebih banyak data, tetapi dalam menggunakan nilai- p untuk memutuskan untuk melakukannya, ketika itu juga merupakan ukuran yang menarik. Mengumpulkan lebih banyak data berdasarkan p -value hanya p -hacking jika Anda menghitung p -value baru.

Jika Anda memiliki cukup bukti untuk membuat kesimpulan yang memuaskan tentang pertanyaan penelitian, maka tentu saja, dapatkan lebih banyak data. Namun, akui bahwa Anda sekarang sudah melewati tahap penelitian NHST, dan lebih baik fokuslah pada mengukur efek yang diinginkan.


Catatan yang menarik adalah bahwa orang Bayesia tidak menderita dilema ini. Pertimbangkan hal berikut sebagai contoh:

  • Jika seorang frequentist menyimpulkan tidak ada perbedaan yang signifikan dan kemudian beralih ke pengujian kesetaraan, tentunya tingkat positif palsu telah meningkat;
  • Seorang Bayesian dapat mengekspresikan interval kepadatan tertinggi dan wilayah kesetaraan praktis perbedaan secara bersamaan dan tidur sama di malam hari.
Frans Rodenburg
sumber
Jadi pada dasarnya, katakan saya ingin menguji apakah rata-rata populasi A sama dengan populasi B. Awalnya, saya mendapatkan beberapa data, melakukan tes untuk : "berarti sama", dan saya gagal menolaknya. Dalam hal ini, saya tidak boleh melakukan tes lain untuk H 0 : "artinya TIDAK sama". Yang bisa saya lakukan adalah memperkirakan interval rahasia cara, apakah itu benar? Bagaimana jika tidak ada tumpang tindih antara kedua interval? H0H0
nalzok
6
"Ini hanya p-peretasan jika Anda menghitung nilai p baru." Bukankah ini sebenarnya bergantung sepenuhnya pada metode yang digunakan untuk menghitung nilai-p? Mengabaikan analisis sekuensial dan keputusan untuk mengumpulkan lebih banyak data akan menghasilkan nilai-p yang tidak akurat. Namun, jika Anda memasukkan aturan keputusan untuk mengumpulkan lebih banyak data ke dalam perhitungan nilai p, maka Anda akan menghasilkan nilai p yang valid.
jsk
4
@ jsk Saya pikir kurang dari itu nilai p yang dihitung kemudian dalam beberapa cara tidak valid, dan lebih banyak yang Anda gunakan standar sewenang-wenang dan non-data untuk menilai ketika percobaan Anda "benar" dan penelitian Anda pada proyek itu adalah " selesai ". Memutuskan bahwa semua non-signifikan p-nilai yang salah, dan mengumpulkan data sampai Anda mendapatkan satu yang adalah signifikan dan kemudian berhenti karena Anda sudah mendapatkan yang "benar" hasil adalah kebalikan dari ilmu pengetahuan eksperimental.
Upper_Case-Stop Harming Monica
1
@Upper_Case Saya mengomentari bagian yang sangat kecil dari pos sehubungan dengan p-hacking, itulah sebabnya saya memasukkan bagian itu dalam tanda kutip. Anda terlalu banyak membaca pernyataan saya. Maksud saya adalah bahwa aturan keputusan APAPUN yang digunakan untuk memutuskan untuk mengumpulkan lebih banyak data harus dimasukkan ke dalam penghitungan nilai-p. Selama Anda memasukkan keputusan yang dibuat ke dalam perhitungan nilai-p, Anda masih dapat melakukan NHST yang valid jika Anda menginginkannya. Ini sama sekali tidak berarti bahwa saya menganjurkan untuk menghentikan aturan yang mengatakan, "kumpulkan lebih banyak data sampai Anda menemukan hasil yang signifikan."
jsk
@jsk Ah, saya mengerti maksud Anda lebih baik sekarang. Terimakasih atas klarifikasinya.
Upper_Case-Stop Harming Monica
10

Dengan ukuran sampel yang cukup besar, sebuah tes akan selalu menunjukkan hasil yang signifikan, kecuali ukuran efek sebenarnya adalah nol, seperti yang dibahas di sini . Dalam praktiknya, ukuran efek sebenarnya bukan nol, sehingga mengumpulkan lebih banyak data pada akhirnya akan dapat mendeteksi perbedaan paling kecil.

Jawaban sombong (IMO) dari Fisher adalah sebagai jawaban atas pertanyaan yang relatif sepele bahwa pada premisnya menggabungkan 'perbedaan signifikan' dengan 'perbedaan praktis yang relevan'.

Itu akan sama dengan seorang peneliti yang datang ke kantor saya dan bertanya, "Saya menimbang timbal ini dengan label '25 gram 'dan diukur 25,0 gram. Saya yakin itu salah label, apa yang harus saya lakukan?" Untuk itu saya bisa menjawab, "Dapatkan skala yang lebih tepat."

Saya percaya pendekatan go-get-more-data sesuai jika tes awal kurang bertenaga untuk mendeteksi besarnya perbedaan yang secara praktis relevan.

Underminer
sumber
Namun intinya adalah bahwa Anda perlu memasukkan keputusan untuk mendapatkan lebih banyak data ke dalam perhitungan nilai-p.
jsk
@jsk bahkan jika Anda mengubah nilai-p, Anda masih dapat mengumpulkan lebih banyak data untuk menemukan hasil yang signifikan (meskipun Anda membutuhkan lebih banyak data).
Underminer
1
Saya bisa lebih jelas. Saya tidak yakin apa yang sebenarnya Anda maksud dengan "Anda masih BISA mengumpulkan lebih banyak data untuk menemukan hasil yang signifikan". Saya mengerti karena hipotesis nol secara umum tidak pernah benar, mengumpulkan lebih banyak data pada akhirnya akan menghasilkan hasil yang signifikan. Saya hanya ingin menarik perhatian pada fakta bahwa ketika menghitung nilai-p, Anda perlu memasukkan keputusan untuk mengumpulkan lebih banyak data ke dalam perhitungan nilai-p. Ini berarti bahwa aturan keputusan (tentang mengumpulkan lebih banyak data) harus ditentukan sebelumnya sebelum pengumpulan data asli.
jsk
@jsk bahkan dengan metode yang sangat konservatif dalam menyesuaikan nilai-p (misalnya Bonferroni benar, berlaku dalam analisis pasca-hoc), terdapat ukuran sampel tambahan yang cukup besar yang akan mengatasi koreksi. Intinya adalah: Jika Anda memberi saya metode penyesuaian nilai-p (ditentukan sebelum pengumpulan data asli atau tidak), perbedaan sebenarnya antara distribusi populasi dari kelompok minat, dan hasil awal yang tidak signifikan; dan saya bisa memberi Anda ukuran sampel yang cukup besar yang akan memberi Anda hasil yang signifikan. Karenanya, lebih banyak data SELALU merupakan jawaban.
Underminer
7

Terima kasih. Ada beberapa hal yang perlu diingat di sini:

  1. Kutipan mungkin apokrip.
  2. Cukup masuk akal untuk mendapatkan lebih banyak / data yang lebih baik, atau data dari sumber yang berbeda (skala yang lebih tepat, lih, jawaban @ Underminer ; situasi atau kontrol yang berbeda; dll.), Untuk studi kedua (lih, komentar @ Glen_b ) . Artinya, Anda tidak akan menganalisis data tambahan bersamaan dengan data asli: misalkan Anda memiliki N = 10 dengan hasil yang tidak signifikan, Anda bisa mengumpulkan data N = 20 lainnya dan menganalisisnya sendiri (tidak menguji 30 penuh secara bersamaan ). Jika kutipan itu bukan apokrip, itu bisa menjadi apa yang ada dalam pikiran Fisher.
  3. Filsafat sains Fisher pada dasarnya adalah Popper . Artinya, nol tidak selalu berarti menolak secara asal-asalan untuk mengonfirmasi teorimu, tetapi idealnya bisa jadi teorimu sendiri, sehingga penolakan berarti teori kesayanganmu salah dan kamu harus kembali ke papan gambar. Dalam kasus seperti itu, inflasi kesalahan tipe I tidak akan menguntungkan peneliti. (Di sisi lain, penafsiran ini memotong terhadap Fisher yang memberikan saran ini kecuali dia sedang bertengkar, yang tidak akan keluar dari karakter.)
  4. Bagaimanapun, ada baiknya menunjukkan bahwa alasan saya memasukkan komentar adalah bahwa komentar itu menggambarkan sesuatu yang mendasar tentang perbedaan sifat dari kedua pendekatan tersebut.
gung - Reinstate Monica
sumber
1
hal
Ngomong-ngomong, alangkah baiknya jika Anda bisa menguraikan "perbedaan dalam sifat kedua pendekatan". Metode Fisher terdengar lebih ... subjektif, karena saya merasa dia tidak terlalu peduli dengan tingkat kesalahan, tapi saya bisa melewatkan sesuatu.
nalzok
1
@nalzok, perbedaannya dibahas di utas asli: pendekatan Neyman-Pearson mengasumsikan bahwa studi ini adalah peristiwa yang terpisah, Anda melakukannya & berjalan pergi; Pendekatan Fisher mengasumsikan bahwa masalah ini sedang diselidiki lebih lanjut. Re: # 2, jika Anda menganalisis data dalam isolasi, itu bukan p-hacking (kecuali mungkin Anda menjalankan beberapa studi & hanya menerbitkan satu yang menunjukkan apa yang Anda inginkan). Re: # 3, tidak, null tidak diterima, Anda harus terus mencari cara yang lebih baik untuk menguji teori Anda.
gung - Reinstate Monica
1
pp
1
(+1) Terkadang saya pikir kita fokus pada pohon dan merindukan hutan. Terus terang saja, ketika kita memiliki masalah yang sulit, lebih banyak data biasanya lebih baik daripada lebih sedikit data. Dalam kebanyakan kasus, lebih banyak data tidak jauh lebih baik. Seperti yang dikemukakan oleh makalah Meng pada tahun 2018, " Paradis statistik dan paradoks dalam data besar (I) ", mendapatkan data yang lebih baik (misalnya sampel yang dipilih dengan baik) jauh lebih bermanfaat daripada data yang lebih besar ketika kami mencoba memperkirakan jumlah yang tidak diketahui. Tetapi lebih banyak data biasanya membantu!
usεr11852 mengatakan Reinstate Monic
6

Apa yang kami sebut P-hacking menerapkan uji signifikansi beberapa kali dan hanya melaporkan hasil signifikansi. Apakah ini baik atau buruk tergantung pada situasi.

Untuk menjelaskannya, mari kita pikirkan efek sejati dalam istilah Bayesian, daripada hipotesis nol dan alternatif. Selama kami percaya bahwa efek kami yang menarik datang dari distribusi yang berkelanjutan, maka kami tahu hipotesis nol itu salah. Namun, dalam kasus tes dua sisi, kami tidak tahu apakah itu positif atau negatif. Di bawah cahaya ini, kita dapat memikirkan nilai-p untuk uji dua sisi sebagai ukuran seberapa kuat bukti bahwa estimasi kami memiliki arah yang benar (yaitu, efek positif atau negatif).

p<α

Sekarang, pertimbangkan apa yang terjadi ketika Anda terus kembali untuk mendapatkan lebih banyak data. Setiap kali Anda mendapatkan lebih banyak data, probabilitas Anda untuk mendapatkan arah yang benar tergantung pada data yang cukup hanya naik. Jadi dalam skenario ini, kita harus menyadari bahwa dengan mendapatkan lebih banyak data, walaupun kita sebenarnya meningkatkan kemungkinan kesalahan tipe I, kita juga mengurangi kemungkinan salah menyimpulkan arah yang salah.

Ambillah ini sebagai kontras, penyalahgunaan P-hacking yang lebih tipikal; kami menguji 100-an dari ukuran efek yang memiliki probabilitas yang baik untuk menjadi sangat kecil dan hanya melaporkan yang signifikan. Perhatikan bahwa dalam kasus ini, jika semua efeknya kecil, kami memiliki peluang hampir 50% untuk mendapatkan arah yang salah ketika kami menyatakan signifikansi.

Tentu saja, nilai p yang dihasilkan dari data ini, double-down tetap harus datang dengan sebutir garam. Meskipun, secara umum, Anda seharusnya tidak memiliki masalah dengan orang yang mengumpulkan lebih banyak data untuk lebih yakin tentang ukuran efek, ini bisa disalahgunakan dengan cara lain. Misalnya, PI yang pandai mungkin menyadari bahwa alih-alih mengumpulkan semua 100 titik data sekaligus, mereka dapat menghemat banyak uang dan meningkatkan daya dengan terlebih dahulu mengumpulkan 50 titik data, menganalisis data, dan kemudian mengumpulkan 50 berikutnya jika tidak signifikan . Dalam skenario ini, mereka meningkatkan kemungkinan mendapatkan arah efek yang salah bersyarat pada menyatakan signifikansi, karena mereka lebih cenderung mendapatkan arah efek yang salah dengan 50 titik data daripada dengan 100 titik data.

Dan akhirnya, pertimbangkan implikasi dari tidak mendapatkan lebih banyak data ketika kita memiliki hasil yang tidak signifikan. Itu menyiratkan tidak pernah mengumpulkan lebih banyak informasi tentang topik, yang tidak akan benar-benar mendorong ilmu pengetahuan ke depan, bukan? Satu studi yang kurang kuat akan membunuh seluruh bidang.

Cliff AB
sumber
1
(+1) Ini adalah sudut pandang yang menarik, tetapi dapatkah Anda menguraikan perbedaan antara metodologi Fisher dan metodologi PI pintar? Keduanya mengumpulkan lebih banyak data karena tes awal tidak signifikan.
nalzok
Juga, saya tidak yakin apa yang Anda maksud dengan "walaupun kita sebenarnya meningkatkan kemungkinan kesalahan tipe I, kami juga mengurangi kemungkinan salah menyimpulkan arah yang salah". Apa hipotesis nol di sini? IMO jika Anda melakukan tes satu sisi, maka "menyimpulkan arah yang salah" adalah "kesalahan tipe I", dan untuk tes dua sisi, Anda tidak boleh menyimpulkan arahnya.
nalzok
Koreksi saya jika saya salah, tetapi saya pikir Anda menyarankan untuk tetap mengumpulkan lebih banyak data sampai tes dua sisi signifikan, dan dalam kasus ini, tingkat kesalahan tipe I akan menjadi 100%.
nalzok
1
Perbedaan utama antara apa yang direkomendasikan oleh Fisher dan PI yang cerdik / naif adalah bahwa Fisher melakukan panggilan dari penelitian yang disimpulkan. Pilihannya adalah mengumpulkan lebih banyak data, atau memutuskan bahwa ia tidak akan pernah tahu arah efeknya. Di sisi lain, PI memutuskan untuk underpower studi awal sebelum ia bahkan melihat data.
Cliff AB
1
@nalzok: tentu saya akan mencoba untuk melihat selama jam kerja :)
Cliff AB
1

Jika alternatif memiliki probabilitas a priori kecil , maka percobaan yang gagal menolak nol akan menurunkannya lebih lanjut, membuat penelitian lebih lanjut bahkan lebih hemat biaya. Misalnya, misalkan probabilitas a priori adalah 0,01. Maka entropi Anda adalah 0,08 bit. Jika probabilitas berkurang menjadi 0,001, maka entropi Anda sekarang 0,01. Dengan demikian, terus mengumpulkan data seringkali tidak efektif biaya. Salah satu alasan mengapa hal itu akan efektif secara biaya adalah karena mengetahui sangat penting sehingga bahkan bit 0,01 entropi yang tersisa perlu dikurangi.

Alasan lain adalah jika probabilitas a priori benar-benar tinggi. Jika a priori Anda probabilitas lebih dari 50%, maka kegagalan untuk menolak nol meningkatkan entropi Anda, membuatnya lebih hemat biaya untuk terus mengumpulkan data. Contohnya adalah ketika Anda hampir yakin bahwa ada efek, tetapi tidak tahu ke arah mana.

Misalnya, jika Anda seorang agen kontra intelijen dan Anda yakin bahwa suatu departemen memiliki tahi lalat, dan telah mempersempitnya menjadi dua tersangka, dan sedang melakukan beberapa analisis statistik untuk memutuskan yang mana, maka hasil yang tidak signifikan secara statistik akan membenarkan pengumpulan data. lebih banyak data.

Akumulasi
sumber
Mengapa gagal menolak nol mengurangi kemungkinannya? Sementara tidak adanya bukti bukanlah bukti ketidakhadiran, saya tidak bisa mengerti mengapa itu bukti melawan ketidakhadiran.
nalzok
@nalzok saya menulis "Jika alternatif memiliki probabilitas a priori yang kecil, maka percobaan yang gagal menolak nol akan menurunkannya lebih lanjut" Sementara "nol" adalah kata benda terdekat dengan "itu", nol bukan kuantitas, dan karena itu tidak dapat menurun dan bukan merupakan anteseden yang valid untuk "itu". Selain itu "selanjutnya" menunjukkan bahwa "itu" mengacu pada sesuatu yang sudah kecil. Fakta-fakta ini menunjuk pada anteseden "itu" sebagai "kecil kemungkinan a priori" dari alternatif.
Akumulasi