Peneliti 1 menjalankan 1000 regresi, peneliti 2 menjalankan hanya 1, keduanya mendapatkan hasil yang sama - haruskah mereka membuat kesimpulan yang berbeda?

Bayangkan seorang peneliti sedang mengeksplorasi dataset dan menjalankan 1000 regresi yang berbeda dan ia menemukan satu hubungan yang menarik di antara mereka.

Sekarang bayangkan peneliti lain dengan data yang sama hanya menjalankan 1 regresi, dan ternyata itu sama dengan yang peneliti lain lakukan untuk menemukan 1000 regresi. Peneliti 2 tidak mengenal peneliti 1.

Haruskah peneliti 1 membuat kesimpulan yang berbeda dari peneliti 2? Mengapa? Misalnya, apakah peneliti 1 harus melakukan beberapa koreksi perbandingan, tetapi peneliti 2 tidak?

Jika peneliti 2 menunjukkan Anda kemundurannya sendiri, kesimpulan apa yang akan Anda buat? Jika setelah itu peneliti 1 menunjukkan kepada Anda hasilnya, haruskah Anda mengubah kesimpulan Anda? Jika demikian, mengapa itu penting?

PS 1 : Jika berbicara tentang peneliti hipotetis membuat masalahnya abstrak, pikirkan tentang ini: bayangkan Anda menjalankan hanya satu regresi untuk makalah Anda, menggunakan metode terbaik yang tersedia. Kemudian peneliti lain mengeksplorasi 1000 regresi berbeda dengan data yang sama, sampai ia menemukan regresi yang sama persis dengan yang Anda jalankan . Haruskah kalian membuat kesimpulan yang berbeda? Apakah buktinya sama untuk kedua kasus atau tidak? Haruskah Anda mengubah kesimpulan Anda jika Anda tahu hasil peneliti lainnya? Bagaimana seharusnya masyarakat menilai bukti dari dua studi?

PS 2: tolong coba untuk lebih spesifik dan untuk memberikan pembenaran matematis / teoritis, jika mungkin!

bayesian multiple-regression multiple-comparisons inference theory statlearner
sumber

Untuk menjadi perbandingan yang valid, Anda perlu menentukan semua hipotesis nol dan alternatif. Peneliti 2 hanya dapat menguji 1 hipotesis sedangkan Peneliti 1 mungkin ingin mengontrol probabilitas Anda untuk tidak membuat 1 tipe 1 kesalahan dari 1000. Jika itu adalah kesimpulan simultan yang ingin Anda buat maka Anda harus melakukan penyesuaian nilai-p. Peneliti 2 memiliki satu tes dan tidak perlu penyesuaian. Untuk peneliti 1 apakah Anda memasang model yang berbeda ke data yang sama atau satu model yang cocok untuk masing-masing 1000 set data?

Michael R. Chernick

@MichaelChernick hanya ada satu dataset. Peneliti 1 memenuhi 1000 model untuk dataset yang sama hingga ia menemukan model yang disukainya. Peneliti 2 dipasang hanya 1. Kedua peneliti menggunakan data yang sama. Jadi, menurut Anda, apakah kedua peneliti ini harus menyimpulkan hal-hal yang berbeda dengan dataset yang sama persis? Peneliti 2 harus yakin dengan analisisnya, sementara peneliti 1 harus mengembang interval nilai-p / kepercayaannya karena beberapa perbandingan?

statslearner

Jika Anda mengikuti argumen saya, mereka melakukannya dalam arti bahwa hanya peneliti 2 yang menguji hipotesis tunggal sementara peneliti 1 menguji 1000 hipotesis dan perlu mengendalikan semua hipotesis yang ia uji .. Ini melibatkan dua masalah yang berbeda. Apa yang masih kabur adalah apa yang Anda maksud dengan "hanya menemukan satu hubungan yang menarik". Mungkin Anda pikir Anda telah mengajukan situasi yang paradoks. Saya tidak berpikir Anda memilikinya.

Michael R. Chernick

@MichaelChernick bagaimana itu bukan paradoks untuk data yang sama persis dengan model yang sama persis mengarah pada dua kesimpulan yang berbeda? Jika Anda membaca dua makalah yang terpisah, apa yang akan Anda simpulkan?

statslearner

@MichaelChernick saya lakukan, dan saya merasa Anda merasa ini benar --- data yang sama persis, dengan model yang sama persis, mengarah ke dua kesimpulan yang berbeda. Lihat komentar saya pada jawabannya.

statslearner

Jawaban:

Inilah slogan "Bayesian" saya pada pertanyaan Anda. Saya pikir Anda telah menggambarkan situasi di mana dua orang dengan informasi sebelumnya yang berbeda harus mendapatkan jawaban / kesimpulan yang berbeda ketika diberi dataset yang sama. Contoh yang lebih blak-blakan / ekstrem adalah misalkan kita memiliki "peneliti 1b" yang kebetulan menebak parameter model regresi dan kesimpulan dari hipotesis apa pun. Menjalankan regresi secara konseptual tidak terlalu jauh dari dugaan. $1000$

Apa yang saya pikirkan sedang terjadi ... apa yang kita pelajari tentang para peneliti informasi sebelumnya dari pertanyaan di atas? - peneliti 1 mungkin memiliki flat sebelumnya untuk model - peneliti 2 memiliki prior yang tajam untuk model yang menarik (menganggap adalah model keduanya cocok) $P (M_k|I_1)=\frac {1}{1000}$ $P (M_1|I_2) =1$ $M_1$

Ini jelas penyederhanaan, tetapi Anda bisa lihat di sini, kami sudah lebih menekankan pada kesimpulan peneliti 2 tanpa data apa pun. Tapi Anda tahu, begitu mereka berdua memperhitungkan data, probabilitas posterior peneliti 1 untuk akan meningkat ... (... kita tahu ini karena itu "lebih baik "Dari model lain ...). Posterior peneliti 2 tidak dapat berkonsentrasi lagi, itu sudah sama dengan . Yang kami tidak tahu adalah seberapa banyak data mendukung dibandingkan alternatif. Apa yang kita juga tidak tahu adalah bagaimana model yang berbeda mengubah kesimpulan substantif peneliti 1. Misalnya, anggap semua $M_1$ $P (M_1|DI)>>P (M_1|I)$ $999$ $1$ $M_1$ $1000$ model berisi istilah umum, dan semua parameter regresi untuk variabel tersebut secara signifikan lebih besar dari (misalnya untuk semua model). Maka tidak ada masalah dengan menyimpulkan efek positif yang signifikan, meskipun banyak model cocok. $1000$ $0$ $p-value <10^{-8}$

Anda juga tidak mengatakan seberapa besar dataset, dan ini penting! Jika Anda berbicara tentang dataset dengan pengamatan dan variabel kovariat / prediktor / independen, maka peneliti 1 mungkin masih akan sangat tidak yakin tentang model. Namun, jika peneliti 1 menggunakan pengamatan, ini dapat menentukan model. $100$ $10$ $2,000,000$

Tidak ada yang salah secara mendasar dengan dua orang yang mulai dengan informasi yang berbeda, dan terus memiliki kesimpulan yang berbeda setelah melihat data yang sama. Namun ... melihat data yang sama akan mendekatkan mereka, asalkan "ruang model" mereka tumpang tindih dan data mendukung "wilayah yang tumpang tindih" ini.

probabilityislogic
sumber

Jadi bagian mendasar dari klaim Anda adalah bahwa mereka harus membuat inferensi yang berbeda karena mereka memiliki prior yang berbeda, dan bukan karena seberapa banyak mereka "mengeksplorasi data", benar?

statslearner

Omong-omong, bagaimana Anda menilai bukti? Apakah Anda peduli tentang berapa banyak model yang cocok untuk peneliti 1? Jika demikian, mengapa?

statslearner

Saya tidak akan terlalu peduli tentang jumlah model yang cocok, tetapi apakah model yang digunakan dikenal atau tidak dengan tingkat kepastian. Seperti yang saya sebutkan secara singkat, saya ingin tahu apakah ada alternatif yang masuk akal. Sebagai contoh, jika peneliti 1 membuat "bola garis" keputusan tentang variabel yang dijatuhkan / ditambahkan, saya ingin melihat yang disebutkan.

probabilityislogic

Mengapa Anda ingin melihat yang disebutkan, apakah itu mengubah Anda sebelumnya? Apakah Anda menggunakan dia sebagai proxy untuk Anda sebelumnya? Bagi saya tidak jelas pemetaan yang Anda buat. Mengapa alasan peneliti tertentu penting bagi kesimpulan Anda, karena itu tidak memengaruhi proses pembuatan data sama sekali?

statslearner

Kami menganggap dataset di sini sebagai eksternal bagi peneliti, ia tidak mengumpulkannya, dan kedua peneliti menggunakan data yang sama. Tampaknya temuan alasan tidak dapat direplikasi dalam psikologi adalah karena mereka hanya menggunakan ambang batas signifikansi longgar sebagai yang standar bukti untuk menilai beberapa hipotesis gila wajar setiap orang / ilmuwan akan menemukan mereka konyol apriori. Ambillah kasus kita di sini, jika hipotesis yang diuji dalam contoh kita adalah sesuatu yang konyol seperti suatu kekuatan yang ditimbulkan, apakah akan menjadi masalah apakah kita menjalankan 1 atau 1000 regresi?

statslearner

Penafsiran statistik jauh lebih tidak jelas daripada, apa yang Anda minta, perlakuan matematika.

Matematika adalah masalah yang didefinisikan dengan jelas. Misalnya menggulirkan dadu yang sempurna, atau menggambar bola dari guci.

Statistik diterapkan matematika di mana matematika memberikan pedoman tetapi bukan solusi (tepat).

Dalam hal ini jelas bahwa keadaan memainkan peran penting. Jika kita melakukan regresi dan kemudian menghitung (matematika) beberapa nilai p untuk mengekspresikan kekuatan lalu apa interpretasi (statistik) dan nilai dari nilai p?

Dalam kasus 1000 regresi yang dilakukan oleh peneliti 1 hasilnya jauh lebih lemah karena jenis situasi ini terjadi ketika kita tidak benar-benar memiliki petunjuk dan hanya mengeksplorasi data. Nilai p hanyalah indikasi bahwa mungkin ada sesuatu.

Jadi nilai p jelas kurang layak dalam regresi yang dilakukan oleh peneliti 1. Dan jika peneliti 1 atau seseorang yang menggunakan hasil peneliti 1 ingin melakukan sesuatu dengan regresi maka nilai p perlu dikoreksi. (dan jika Anda menganggap perbedaan antara peneliti 1 dan peneliti 2 tidak cukup, pikirkan saja banyak cara yang dapat dilakukan peneliti 1 untuk mengoreksi nilai p untuk beberapa perbandingan)
Dalam kasus regresi tunggal yang dilakukan oleh peneliti 2 hasilnya adalah bukti yang jauh lebih kuat. Tetapi itu karena regresi tidak berdiri sendiri. Kita harus memasukkan alasan mengapa peneliti 2 hanya melakukan satu regresi tunggal. Ini bisa jadi karena dia punya alasan (tambahan) yang bagus untuk percaya bahwa regresi tunggal adalah model yang baik untuk data.
Pengaturan regresi yang dilakukan oleh peneliti 1 dan 2 jauh berbeda, dan tidak jarang Anda menemukan keduanya pada waktu yang sama untuk masalah yang sama. Jika ini masalahnya maka baik
- Peneliti 2 sangat beruntung
  
  Ini tidak biasa, dan kita harus memperbaiki hal ini ketika menafsirkan sastra, juga kita harus meningkatkan penerbitan gambar total penelitian. Jika ada seribu peneliti seperti peneliti 2, dan kita hanya akan melihat salah satu dari mereka mempublikasikan keberhasilan, maka karena kita tidak melihat kegagalan 999 peneliti lain, kita mungkin keliru percaya bahwa kita tidak memiliki kasus seperti peneliti 1
- Peneliti 1 tidak begitu pintar dan melakukan pencarian yang sangat berlebihan untuk beberapa regresi sementara dia mungkin sudah tahu dari awal bahwa itu seharusnya yang tunggal, dan dia bisa melakukan tes yang lebih kuat.
  
  Untuk orang luar yang lebih pintar dari peneliti 1 (tidak peduli tentang 999 regresi tambahan dari awal) dan membaca tentang pekerjaan, mereka mungkin memberikan kekuatan lebih pada signifikansi hasil, namun masih tidak sekuat yang akan dilakukannya untuk hasil peneliti 2.
  
  Sementara peneliti 1 mungkin terlalu konservatif ketika mengoreksi 999 regresi tambahan yang berlebihan, kita tidak bisa mengabaikan fakta bahwa penelitian itu dilakukan dalam kekosongan pengetahuan dan jauh lebih mungkin untuk menemukan peneliti yang beruntung dari tipe 1 daripada tipe. 2.

Sebuah cerita terkait yang menarik: Dalam astronomi, ketika mereka merencanakan instrumen yang lebih baik untuk mengukur latar belakang kosmik dengan presisi yang lebih tinggi, ada peneliti yang berpendapat hanya merilis setengah data. Ini karena hanya ada satu kesempatan untuk mengumpulkan data. Setelah semua regresi telah dilakukan oleh puluhan peneliti yang berbeda (dan karena variasi dan kreativitas yang luar biasa dari ahli teori, pasti ada beberapa yang cocok untuk setiap kemungkinan, acak, menabrak data), tidak ada kemungkinan untuk melakukan Eksperimen baru untuk memverifikasi (yaitu, kecuali Anda dapat menghasilkan seluruh dunia baru).

Sextus Empiricus
sumber

1 untuk @ MartijnWeterings seperti yang saya katakan di komentar saya masalahnya tidak diajukan secara matematis. Saya mendapat kesan bahwa OP berpikir ada paradoks karena karena dua peneliti akan mengarah ke pilihan model yang sama tetapi yang melakukan 1.000 regresi dihukum karena kebutuhan untuk masalah perbandingan ganda. Saya tidak melihat ini sebagai paradoks sama sekali (tidak jelas tapi saya pikir OP lakukan). Anda memberikan jawaban yang ditulis dengan sangat indah dan benar yang juga menjelaskan secara intuitif mengapa kedua kasus itu berbeda. Saya pikir OP harus memberikan jawaban Anda cek!

Michael R. Chernick

\neq

$\neq$

Juga, saya tahu ini adalah praktik umum, tetapi tidakkah Anda merasa kesulitan untuk mengatakan satu hasil adalah "bukti yang lebih kuat" daripada yang lain, ketika mereka adalah model dan data yang sama persis dari proses menghasilkan data yang sama? Satu-satunya hal yang berbeda adalah seberapa banyak pihak ketiga melihat data, dan ini seharusnya tidak ada hubungannya dengan DGP itu sendiri atau keyakinan Anda sebelumnya tentang masalah tersebut. Haruskah analisis peneliti 2 dinodai oleh ketidaktahuan peneliti 1, misalnya?

statslearner

@ MartijnWeterings mengapa niat peneliti penting untuk interpretasi data? Jika Anda menggunakan ini sebagai heuristik, sebagai orang awam menafsirkan hasil ahli, ini baik-baik saja. Tetapi bagi seorang ilmuwan yang menganalisis data, tampaknya niat peneliti seharusnya tidak berpengaruh pada interpretasi Anda terhadap bukti.

statslearner

Jadi sepertinya Anda menggunakan perilaku peneliti sebagai proksi untuk Anda sebelumnya. Jika peneliti menjalankan 1000 regresi, itu akan sesuai dengan yang rendah sebelum hipotesis spesifik itu. Jika dia berlari hanya 1, ini akan sesuai dengan sebelum tinggi pada hipotesis itu. Jika Anda memiliki dua kasing, maka Anda tidak tahu yang mana yang akan digunakan.

statslearner

Cerpen: kami tidak memiliki cukup informasi untuk menjawab pertanyaan Anda karena kami tidak tahu apa-apa tentang metode yang digunakan atau data yang dikumpulkan.

Jawaban panjang ... Pertanyaan sesungguhnya di sini adalah apakah yang dilakukan setiap peneliti:

sains yang ketat
pseudosains ketat
eksplorasi data
pengerukan atau peretasan data

Metode mereka akan menentukan kekuatan interpretasi hasil mereka. Ini karena beberapa metode kurang suara daripada yang lain.

Dalam sains yang ketat kami mengembangkan hipotesis, mengidentifikasi variabel pengganggu, mengembangkan kontrol untuk variabel di luar hipotesis kami, merencanakan metode pengujian, merencanakan metodologi analitik kami, melakukan tes / mengumpulkan data, dan kemudian menganalisis data. (Perhatikan bahwa metode analitis direncanakan sebelum pengujian terjadi). Ini adalah yang paling ketat karena kita harus menerima data dan analisis yang tidak sesuai dengan hipotesis. Tidak dapat diterima untuk mengubah metode setelah mendapatkan sesuatu yang menarik. Hipotesis baru apa pun dari temuan harus melalui proses yang sama lagi.

Dalam pseudosain kita sering mengambil data yang sudah dikumpulkan. Ini lebih sulit untuk digunakan secara etis karena lebih mudah untuk menambahkan bias pada hasil. Namun, masih mungkin untuk mengikuti metode ilmiah untuk analis etis. Mungkin sulit untuk membuat kontrol yang tepat dan yang perlu diteliti dan dicatat.

Eksplorasi data tidak didasarkan pada sains. Tidak ada hipotesis khusus. Tidak ada evaluasi apriori faktor perancu. Juga, sulit untuk kembali dan melakukan analisis ulang menggunakan data yang sama, karena hasilnya mungkin ternoda oleh pengetahuan atau pemodelan sebelumnya dan tidak ada data baru untuk digunakan untuk validasi. Eksperimen ilmiah yang ketat direkomendasikan untuk mengklarifikasi kemungkinan hubungan yang ditemukan dari analisis eksplorasi.

Pengerukan atau peretasan data adalah tempat "analis" melakukan beberapa tes dengan harapan jawaban yang tidak terduga atau tidak diketahui atau memanipulasi data untuk mendapatkan hasil. Hasilnya mungkin kebetulan yang sederhana, mungkin hasil dari variabel pengganggu, atau mungkin tidak memiliki ukuran efek atau kekuatan yang berarti.

Ada beberapa solusi untuk setiap masalah, tetapi solusi tersebut harus dievaluasi dengan cermat.

Adam Sampson
sumber

Saya yakin Anda menambahkan suara yang tidak perlu ke pertanyaan. Asumsikan mereka menggunakan metode terbaik yang tersedia. Data tidak dikumpulkan oleh mereka, tetapi oleh lembaga statistik, sehingga mereka tidak memiliki kendali atas pengumpulan data. Satu-satunya perbedaan adalah seberapa banyak masing-masing peneliti mengeksplorasi data. Salah satunya banyak dieksplorasi, yang lain hanya dieksplorasi satu kali. Keduanya mendapatkan model akhir yang sama dengan data yang sama. Haruskah mereka membuat kesimpulan yang berbeda? Dan bagaimana hal itu memengaruhi inferensi Anda ?

statslearner

Ini bukan suara tambahan. Matematika adalah matematika. Jika model identik maka mereka identik. Bagaimana Anda menginterpretasikan model tergantung pada semua variabel lain yang tidak termasuk dalam masalah Anda. Jika Anda mengabaikan semua konteks dan desain atau eksperimen lain, jawabannya sederhana, kedua model memiliki kinerja yang sama secara matematis dan keduanya lemah secara ilmiah.

Adam Sampson