Statistik diterbitkan dalam makalah akademik

44

Saya membaca banyak makalah akademis evolusi / ekologis, kadang-kadang dengan tujuan khusus untuk melihat bagaimana statistik digunakan 'di dunia nyata' di luar buku teks. Saya biasanya mengambil statistik dalam makalah sebagai Injil dan menggunakan makalah untuk membantu dalam pembelajaran statistik saya. Lagi pula, jika sebuah makalah telah menghabiskan waktu bertahun-tahun untuk menulis dan telah melalui tinjauan sejawat yang teliti, maka tentu saja statistiknya akan solid? Tetapi dalam beberapa hari terakhir, saya telah mempertanyakan asumsi saya, dan bertanya-tanya seberapa sering analisis statistik yang diterbitkan dalam makalah akademik dicurigai? Secara khusus, mungkin diharapkan bahwa mereka yang berada di bidang seperti ekologi dan evolusi menghabiskan lebih sedikit waktu untuk mempelajari statistik dan lebih banyak waktu untuk mempelajari bidang mereka.

Seberapa sering orang menemukan statistik yang dicurigai dalam makalah akademis?

luciano
sumber
18
Para pengulas sering kali adalah orang-orang yang tidak tahu banyak tentang statistik daripada mereka yang menulis makalah, sehingga seringkali mudah untuk menerbitkan statistik yang buruk.
Behacad
9
Mempublikasikan makalah adalah langkah pertama menuju penerimaannya oleh komunitas ilmiah, bukan yang terakhir. Sebagian besar makalah yang diterbitkan akan memiliki kekurangan yang signifikan di beberapa daerah, penggunaan statistik tidak terkecuali.
Dikran Marsupial
3
Asumsi Anda bahwa makalah "perlu waktu bertahun-tahun untuk menulis" adalah jauh dari sasaran. Mengumpulkan data mungkin memakan waktu lama tetapi menganalisis data dan menulis biasanya berminggu-minggu, bukan bertahun-tahun.
David Richerby
2
Sekarang diketahui bahwa statistik dalam banyak makalah psikologi dan kedokteran dipertanyakan setidaknya, jelas salah atau bahkan tidak cukup sering. Penggunaan nilai-p dan NHST yang buruk adalah contoh utama masalah, lihat catatan ini .
Kuarsa

Jawaban:

38

Lagi pula, jika sebuah makalah telah menghabiskan waktu bertahun-tahun untuk menulis dan telah melalui tinjauan sejawat yang teliti, maka tentu saja statistiknya akan solid?

Pengalaman saya membaca makalah yang berupaya menerapkan statistik di berbagai bidang (ilmu politik, ekonomi, psikologi, kedokteran, biologi, keuangan, ilmu aktuaria, akuntansi, optik, astronomi, dan banyak lainnya) adalah kualitas dari analisis statistik dapat berada di mana saja pada spektrum dari sangat baik dan dilakukan dengan baik untuk omong kosong mengerikan. Saya telah melihat analisis yang baik di setiap bidang yang telah saya sebutkan, dan analisis yang dilakukan dengan buruk di hampir semua bidang tersebut.

Beberapa jurnal umumnya cukup bagus, dan beberapa bisa lebih seperti bermain anak panah dengan penutup mata - Anda mungkin mendapatkan sebagian besar dari mereka tidak terlalu jauh dari target, tetapi akan ada beberapa di dinding, lantai dan langit-langit. Dan mungkin kucing itu.

Saya tidak berencana menyebutkan nama pelakunya, tetapi saya akan mengatakan bahwa saya telah melihat karier akademik dibangun berdasarkan kesalahan penggunaan statistik (yaitu ketika kesalahan dan kesalahpahaman yang sama diulang dalam kertas setelah kertas, lebih dari satu dekade).

Jadi saran saya adalah biarkan pembaca berhati - hatilah ; jangan percaya bahwa editor dan peer reviewer tahu apa yang mereka lakukan. Seiring berjalannya waktu, Anda mungkin mengetahui yang mana penulis umumnya dapat diandalkan untuk tidak melakukan sesuatu yang terlalu mengejutkan, dan mana yang harus diperlakukan secara hati-hati. Anda mungkin merasa bahwa beberapa jurnal biasanya memiliki standar yang sangat tinggi untuk statistik mereka.

Tetapi bahkan seorang penulis yang baik biasanya dapat membuat kesalahan, atau wasit dan editor dapat gagal untuk mengambil kesalahan yang biasanya mereka temukan; jurnal yang biasanya bagus dapat mempublikasikan howler.

[Kadang-kadang, Anda bahkan akan melihat surat kabar yang sangat buruk memenangkan hadiah atau penghargaan ... yang tidak banyak berpengaruh pada kualitas orang yang menilai hadiah itu.]

Saya tidak ingin menebak apa fraksi statistik "buruk" yang mungkin saya lihat (dalam berbagai samaran, dan pada setiap tahap dari mendefinisikan pertanyaan, desain penelitian, pengumpulan data, manajemen data, ... sampai ke analisis dan kesimpulan), tetapi itu tidak cukup kecil bagi saya untuk merasa nyaman.

Saya bisa menunjukkan contoh, tapi saya pikir ini bukan forum yang tepat untuk melakukan itu. (Akan lebih baik jika ada adalah forum yang baik untuk itu, sebenarnya, tapi sekali lagi, itu mungkin akan menjadi sangat "dipolitisir" cukup cepat, dan segera gagal untuk melayani tujuannya.)

Saya telah menghabiskan beberapa waktu menjelajahi PLOS ONE ... dan sekali lagi, tidak akan menunjukkan makalah tertentu. Beberapa hal yang saya perhatikan: sepertinya sebagian besar makalah memiliki statistik di dalamnya, mungkin lebih dari setengahnya memiliki tes hipotesis. Bahaya utama tampaknya banyak tes, baik dengan tinggi seperti 0,05 pada masing-masing (yang tidak secara otomatis masalah selama kita mengerti bahwa beberapa efek yang sangat kecil mungkin muncul sebagai signifikan secara kebetulan), atau sangat rendah tingkat signifikansi individual, yang akan cenderung memberikan daya rendah. Saya juga melihat sejumlah kasus di mana sekitar setengah lusin tes berbedaαrupanya diterapkan untuk menyelesaikan pertanyaan yang persis sama. Ini mengejutkan saya sebagai ide yang umumnya buruk. Secara keseluruhan standarnya cukup bagus di beberapa lusin kertas, tetapi di masa lalu saya telah melihat kertas yang benar-benar mengerikan di sana.

[Mungkin saya bisa menikmati hanya satu contoh, secara tidak langsung. Pertanyaan ini menanyakan tentang seseorang yang melakukan sesuatu yang sangat meragukan. Itu jauh dari hal terburuk yang pernah kulihat.]

Di sisi lain, saya juga melihat (bahkan lebih sering) kasus-kasus di mana orang dipaksa untuk melewati semua jenis simpai yang tidak perlu untuk mendapatkan analisis mereka diterima; hal-hal yang masuk akal untuk dilakukan tidak diterima karena ada cara yang "benar" untuk melakukan hal-hal menurut peninjau atau editor atau penyelia, atau hanya dalam budaya yang tidak diucapkan dalam bidang tertentu.

Glen_b
sumber
2
" Caveat lector ", mengingat semakin banyaknya jurnal akses terbuka?
Scortchi
1
@scortchi Saya memutuskan untuk menghindari masalah ini hanya dengan menulis dalam Bahasa Inggris. Ini peningkatan.
Glen_b
10
Tanpa menyebutkan penyebab tertentu, saya pikir fakultas.vassar.edu/abbaird/about/publications/pdfs/... layak disebutkan. Untuk membuktikan poin tentang penyalahgunaan statistik di bidangnya, mereka menggunakan protokol statistik yang banyak digunakan untuk menganalisis hasil pemindaian fMRI salmon mati. Mereka menemukan aktivitas otak yang "signifikan secara statistik". statisticsdonewrong.com juga membuat bacaan yang menarik.
James_pic
1
@James_pic, harus bergabung dengan +1 yang berkomentar untuk tautan statistik yang salah; diskusi tentang fallacy tingkat dasar sangat menarik.
Dan Bryant
1
@ KennyPeanuts: Tidak ada - hanya menunjukkan bahwa saat ini banyak pemilih bahkan tidak secara langsung menjadi emptor .
Scortchi
16

Saya menghormati sikap @ Glen_b tentang cara yang benar untuk menjawab di sini (dan tentu saja tidak bermaksud untuk menguranginya), tapi saya tidak bisa menolak menunjuk ke contoh yang sangat menghibur yang dekat dengan rumah saya. Dengan risiko mempolitisasi hal dan melakukan tujuan pertanyaan ini merugikan, saya merekomendasikan Wagenmakers, Wetzels, Boorsboom, dan Van Der Maas (2011) . Saya mengutip ini dalam posting terkait pada Cognitive Sciences beta SE ( Bagaimana ilmu kognitif menjelaskan intensionalitas dan fungsi otak yang jauh pada penerima? ), Yang mempertimbangkan contoh lain dari "panah memukul kucing". Artikel Wagenmakers dan rekannya mengomentari langsung "howler" yang sebenarnya: artikel itu diterbitkan di JPSP (salah satu jurnal terbesar di bidang psikologi) beberapa tahun yang lalu. Mereka juga berpendapat lebih umum mendukung analisis Bayesian dan bahwa:

Untuk meyakinkan audiensi skeptis tentang klaim kontroversial, kita perlu melakukan studi konfirmasi ketat dan menganalisis hasilnya dengan tes statistik yang konservatif daripada liberal.

Saya mungkin tidak perlu memberi tahu Anda bahwa ini tidak tepat sebagai khotbah kepada paduan suara. FWIW, ada bantahan juga (karena sepertinya selalu ada antara Bayesians dan frequentist; ( Bem, Utts, & Johnson, 2011 ) , tetapi saya merasa bahwa itu tidak tepat skakmat dalam debat .

Psikologi sebagai komunitas ilmiah telah mendapat sedikit replikasi baru-baru ini, sebagian karena ini dan kekurangan metodologis profil tinggi lainnya. Komentar lain di sini menunjuk kasus yang mirip dengan apa yang dulu dikenal sebagai korelasi voodoo dalam ilmu saraf sosial (bagaimana yang untuk politis tidak benar BTW kertas telah diberi judul;? Vul, Harris, Winkielman, & Pashler 2009 ). Itu juga menarik bantahannya , yang bisa Anda lihat untuk debat lebih banyak tentang praktik yang sangat bisa diperdebatkan.

Untuk lebih edutainment dengan biaya (lebih depersonalisasi) dari statistik (semu) yang berperilaku buruk, lihat pertanyaan kami yang saat ini yang paling banyak dipilih di sini di CV dengan judul yang salah (secara politis) salah, " Apa dosa statistik umum? " @MikeLawrence menghubungkan inspirasinya dengan studi paralelnya tentang psikologi dan statistik. Ini adalah salah satu favorit pribadi saya, dan jawabannya sangat berguna untuk menghindari jebakan yang tak terhitung jumlahnya di luar sana sendiri.


Di sisi pribadi, saya telah menghabiskan banyak dari lima bulan terakhir saya di sini sebagian besar karena sangat sulit untuk mendapatkan statistik yang kuat tentang pertanyaan analitik data tertentu. Terus terang, peer review sering tidak terlalu ketat sama sekali, terutama dalam hal pengawasan statistik penelitian dalam ilmu yang lebih muda dengan pertanyaan kompleks dan banyak komplikasi epistemik. Karena itu saya merasa perlu untuk mengambil tanggung jawab pribadi untuk memoles metode dalam pekerjaan saya sendiri.

Saat mempresentasikan penelitian disertasi saya , saya merasakan betapa pentingnya tanggung jawab pribadi untuk pengawasan statistik. Dua psikolog yang luar biasa di almamater saya menyela bahwa saya melakukan salah satu dosa paling mendasar dalam interpretasi saya tentang korelasi. Saya sudah memikirkan diri saya di atasnya, dan sudah memberi kuliah tentang undergrads beberapa kali, tetapi saya masih pergi ke sana, dan dipanggil keluar (sejak awal, terima kasih banyak). Saya pergi ke sana karena penelitian yang saya ulas dan tiru pergi ke sana! Jadi saya akhirnya menambahkan beberapa bagian untuk disertasi saya yang memanggil para peneliti lain untuk mengasumsikan kausalitas dari studi longitudinal kuasi-eksperimental (kadang-kadang bahkan dari korelasi cross-sectional) dan mengabaikan penjelasan alternatif sebelum waktunya.

Disertasi saya diterima tanpa revisi oleh komite saya, yang mencakup psikometrik luar biasa lain dan calon presiden SPSP (yang menerbitkan JPSP), tetapi jujur ​​saja, saya tidak sombong mengatakan ini. Sejak itu saya berhasil menyodok beberapa lubang kelinci dalam metode saya sendiri meskipun melewati proses peninjauan eksternal dengan pengulas yang sangat baik. Saya sekarang telah berada di ujung dalam statistik dalam mencoba menghubungkannya dengan metode yang lebih tepat untuk pemodelan prediktif peringkat Likert seperti SEM, IRT, dan analisis nonparametrik (lihat pengujian regresi setelah pengurangan dimensi). Saya memilih untuk secara sukarela menghabiskan waktu bertahun-tahun di atas kertas yang mungkin bisa saya terbitkan apa adanya ... Saya rasa saya bahkan memiliki studi simulasi yang harus dilakukan sebelum saya dapat melanjutkan dengan hati-hati.

Namun saya menekankan bahwa ini opsional - bahkan mungkin terlalu bersemangat dan mahal di tengah-tengah budaya mempublikasikan atau punah yang sering menekankan kuantitas daripada kualitas dalam catatan kerja awal karier. Kesalahan penerapan model parametrik untuk data kontinu terhadap distribusi data ordinal yang melanggar asumsi adalah terlalu umum di bidang saya, seperti juga misinterpretasi dan misrepresentasi signifikansi statistik (lihat Mengakomodasi pandangan mengakar tentang nilai-p ). Saya benar-benar bisa lolos dengan itu (dalam jangka pendek) ... dan bahkan tidak terlalu sulit untuk melakukan lebih baik dari itu. Saya kira saya memiliki beberapa tahun terakhir kemajuan luar biasa dalam program R untuk berterima kasih untuk itu! Di sini berharap waktunya berubah.


Referensi
· Bem, DJ, Utts, J., & Johnson, WO (2011). Haruskah psikolog mengubah cara mereka menganalisis data mereka? Jurnal Kepribadian dan Psikologi Sosial, 101 (4), 716-719. Diperoleh dari http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P., & Pashler, H. (2009). Korelasi yang sangat tinggi dalam studi fMRI tentang emosi, kepribadian, dan kognisi sosial. Perspektif tentang Ilmu Psikologi, 4 (3), 274–290. Diperoleh dari http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Pembuat Wagen, EJ, Wetzels, R., Borsboom, D., & Van der Maas, H. (2011). Mengapa psikolog harus mengubah cara mereka menganalisis data mereka: Kasus psi. Jurnal Kepribadian dan Psikologi Sosial, 100 , 426-432. Diperoleh dari http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .

Nick Stauner
sumber
1
Jika Anda menikmati "Feeling the Future", maka Anda mungkin menyukai Witztum et al. (1994), "Urutan Surat yang Sama Dalam Kitab Kejadian", Statist. Sci. , 9 , 3 . Ini menarik pengejek yang tak terhindarkan & tidak mengatakan: McKay et. Al. (1999), "Memecahkan Puzzle Kode Alkitab", Statist. Sci. , 14 , 2 .
Scortchi
1
@ Scortchi: terima kasih untuk referensi, dan amoeba: terima kasih untuk konteksnya. Saya tidak melihat klaim dalam Witzum et al. bahwa McKay et al. mengejek dalam abstrak mereka, tetapi mereka jelas menunjukkan banyak kekurangan serius lainnya. Barang bagus. "Sedangkan data nyata dapat mengacaukan harapan para ilmuwan bahkan ketika hipotesis mereka benar, mereka yang eksperimennya secara sistematis bias terhadap harapan mereka kurang sering kecewa (Rosenthal, 1976)." Itu salah satu dari orang-orang yang memanggil saya pada kesimpulan kausal berdasarkan eksperimen semu ... seorang psikolog yang benar-benar hebat. Bem memiliki beberapa kredibilitas juga.
Nick Stauner
2
+1 Pos luar biasa. " betapa pentingnya tanggung jawab pribadi untuk pengawasan statistik " - Saya harus bertepuk tangan. Pada akhirnya, di sinilah tanggung jawab harus diletakkan, seberat apa pun bagi seseorang yang sudah berusaha menyelesaikan pekerjaan di bidang penelitian yang ingin mereka terapkan statistik.
Glen_b
1
@NickStauner: McKay et al. katakan secara abstrak bahwa Witzum et al. mengklaim "teks Ibrani dari Kitab Kejadian mengkodekan peristiwa yang tidak terjadi sampai ribuan tahun setelah teks ditulis". Mungkin sedikit hiperbola, karena hanya lebih dari dua milenia paling banyak antara penulisan Taurat & tanggal lahir rabi terakhir dari daftar mereka, tetapi ringkasan yang cukup adil. (Saya kira Anda juga bisa melihat kertas Witztum et al. Sebagai bukti untuk kepenulisan terbaru dari Kitab Kejadian, meskipun sejauh yang saya tahu tidak ada yang dilakukan.)
Scortchi - Reinstate Monica
1
Ya, saya kira saya tidak bisa mengerti Witzum et al. cukup baik untuk mengenali bahwa mereka membuat klaim itu. Untuk sekali ini saya rasa saya bisa berterima kasih atas tulisan tumpul penulis ... Itu muncul sebagai sedikit lebih menarik pada nilai nominal karena klaim yang paling menonjol adalah bahwa pola itu bukan karena kebetulan, bukan apa pola yang seharusnya disebabkan untuk menurut mereka. Itu bisa mengundang interpretasi yang lebih menarik seperti milik Anda seandainya tidak melampaui McKay et al. katakan itu ... setidaknya sampai McKay et al. menembak mereka dengan alasan metodologis, sehingga tidak ada yang layak ditafsirkan.
Nick Stauner
5

Saya ingat di Universitas ketika ditanya oleh beberapa mahasiswa tahun terakhir ilmu sosial pada kesempatan yang berbeda (salah satunya mendapat nilai 1) bagaimana menghitung rata-rata untuk proyek mereka yang memiliki beberapa titik data. (Jadi mereka tidak mengalami masalah dalam menggunakan perangkat lunak, hanya dengan konsep bagaimana melakukan matematika dengan kalkulator.)

Mereka hanya memberi saya tatapan kosong ketika saya bertanya apa jenis rata-rata yang mereka inginkan.

Namun mereka semua merasa perlu untuk menempatkan beberapa statistik dalam laporan mereka, karena itu adalah hal yang dilakukan - saya berharap mereka semua membaca 101 makalah yang memiliki statistik tanpa memikirkan tentang arti statistik jika ada.

Jelas bahwa peneliti yang mengajar mereka selama 3 tahun tidak peduli tentang kebenaran statistik yang cukup untuk menyaring pemahaman apa pun kepada siswa.

(Saya adalah seorang mahasiswa ilmu komputer pada saat itu. Saya memposting ini sebagai jawaban karena agak lama untuk komentar.)

Ian Ringrose
sumber
Murid-murid semuanya adalah monyet, IMO. Saya tidak akan menyalahkan guru dengan segera karena kurangnya pemahaman mereka tanpa bukti lebih lanjut ... tetapi jika sejelas yang Anda katakan bahwa guru itu yang harus disalahkan, saya juga tidak akan terkejut.
Nick Stauner
@NickStauner, saya menyalahkan guru karena tidak cukup peduli dengan statistik; jika mereka peduli akan ada setidaknya satu pertanyaan di setiap makalah ujian yang membutuhkan pemahaman tentang statistik, pada tingkat "Bagaimana Berbohong dengan Statistik". Saya tidak peduli jika siswa ilmu sosial tahu bagaimana melakukan perhitungan, tetapi mereka harus tahu bagaimana tidak menyesatkan.
Ian Ringrose
Setuju bahwa mereka harus tahu, tetapi tidak ada jaminan mereka akan menjawab pertanyaan itu dengan benar!
Nick Stauner
@NickStauner, Ya, tetapi Anda hanya mendapatkan apa ukurannya, jadi Anda tidak akan mendapatkan siswa yang mengerti apa-apa tentang statistik kecuali Anda memasukkannya dalam ujian.
Ian Ringrose
Sekali lagi, saya cenderung memberi kredit lebih sedikit kepada guru untuk hasil siswa. Banyak siswa (oke, mungkin tidak "banyak", tetapi beberapa) akan cukup peduli untuk belajar demi dirinya sendiri, dan beberapa akan datang ke kelas sudah mengetahui banyak materi. Maafkan saya jika saya menafsirkan komentar Anda terlalu mutlak; Saya setuju bahwa seringkali merupakan kejahatan yang perlu untuk memaksa motivasi belajar kepada siswa, dan bahwa ujian adalah cara yang lebih baik untuk belajar daripada menghafal, belajar berulang-ulang / kuliah.
Nick Stauner
0

Sebagai daftar yang sangat tidak lengkap, saya menemukan statistik paling benar dalam 1) makalah fisika diikuti 2) makalah statistik dan paling menyedihkan dalam 3) makalah medis. Alasan untuk ini adalah langsung dan harus dilakukan dengan kelengkapan persyaratan yang dikenakan pada model prototipe di setiap bidang.

Dalam makalah fisika, persamaan dan statistik terapan harus memperhatikan unit yang seimbang dan memiliki hubungan kausal yang paling sering terjadi, dan pengujian terhadap standar fisik.

Dalam statistik, 1) unit dan kausalitas kadang-kadang diabaikan, asumsi kadang-kadang heuristik, dan pengujian fisik terlalu sering diabaikan, tetapi kesetaraan (atau ketidaksetaraan), yaitu, logika umumnya dipertahankan di sepanjang jalur induktif, di mana yang terakhir tidak dapat mengoreksi untuk. asumsi tidak fisik.

Dalam kedokteran, biasanya unit diabaikan, persamaan dan asumsi biasanya heuristik, biasanya tidak diuji dan sering palsu.

Tentu saja, bidang seperti mekanika statistik lebih cenderung memiliki asumsi yang dapat diuji daripada, katakanlah, ekonomi, dan, yang tidak mencerminkan bakat dari para calon penulis di bidang-bidang itu. Ini lebih terkait dengan berapa banyak dari apa yang dilakukan sebenarnya dapat diuji, dan berapa banyak pengujian yang telah dilakukan secara historis di setiap bidang.

Carl
sumber
-7

Setiap makalah yang menyangkal hipotesis nol nol menggunakan statistik yang tidak berharga (sebagian besar dari apa yang saya lihat). Proses ini tidak dapat memberikan informasi yang belum disediakan oleh ukuran efek. Lebih lanjut tidak memberi tahu kita apa-apa tentang apakah hasil yang signifikan sebenarnya disebabkan oleh alasan yang diteorikan oleh peneliti. Ini membutuhkan investigasi yang cermat atas data untuk bukti pengganggu. Paling sering, jika ada, bukti terkuat ini bahkan dibuang sebagai "pencilan".

Saya tidak begitu akrab dengan evolusi / ekologi, tetapi dalam kasus penelitian psikologi dan medis saya akan menyebut tingkat pemahaman statistik "sangat bingung" dan "hambatan untuk kemajuan ilmiah". Orang-orang seharusnya menyangkal sesuatu yang diprediksi oleh teori mereka, bukan kebalikannya (nol perbedaan / efek).

Ada ribuan makalah yang ditulis tentang topik ini. Cari kontroversi hibrida NHST.

Sunting: Dan saya maksudkan uji signifikansi nol nol hipotesis memiliki nilai ilmiah maksimum nol. Orang ini memukul paku di kepala:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/

Juga: Paul Meehl. 1967. Pengujian Teori dalam Psikologi dan Fisika: Paradoks Metodologis

Edit 3:

Jika seseorang memiliki argumen yang mendukung kegunaan strawman NHST yang tidak memerlukan pemikiran "tolak hipotesis bahwa laju pemanasan adalah sama, tetapi JANGAN anggap ini menyiratkan bahwa laju pemanasan tidak sama" adalah rasional pernyataan, saya akan menyambut komentar Anda.

Edit 4:

Apa yang dimaksud Fisher dengan kutipan berikut? Apakah itu menyiratkan bahwa ia berpikir "Jika model / teori A tidak sesuai dengan data, kita dapat mengatakan A salah, tetapi tidak ada tentang apakah A tidak benar"?

"Sudah pasti bahwa minat uji statistik untuk pekerja ilmiah sepenuhnya tergantung dari penggunaannya dalam menolak hipotesis yang dengan demikian dinilai tidak sesuai dengan pengamatan."

...

Oleh karena itu, akan sangat menambah kejelasan dengan mana tes signifikansi dianggap jika secara umum dipahami bahwa tes signifikansi, ketika digunakan secara akurat, mampu menolak atau membatalkan hipotesis, sejauh ini bertentangan dengan data. ; tetapi bahwa mereka tidak pernah mampu membuktikannya sebagai hal yang benar

Karl Pearson dan RA Fisher tentang Tes Statistik: Pertukaran 1935 dari Alam

Apakah itu karena dia berasumsi bahwa orang hanya akan mencoba untuk melemahkan hipotesis yang masuk akal dan bukan strawmen? Atau saya salah?

Marah
sumber
7
"Proses ini tidak dapat memberikan informasi yang belum disediakan oleh ukuran efek." ini tidak benar, nilai-p memberikan beberapa informasi tentang seberapa tidak biasa ukuran efek ini berada di bawah hipotesis nol, sehingga memberikan elemen kalibrasi ukuran efek. Jangan salah paham, saya pikir faktor Bayes lebih berguna, tetapi itu hiperbola untuk mengatakan bahwa nilai-p adalah statistik yang tidak berharga.
Dikran Marsupial
3
"Saya menemukan bahwa semua pola yang saya (dan lainnya) perhatikan layak disebutkan" ini persis masalah yang muncul dalam diskusi iklim di blog, mata manusia sangat pandai melihat pola dalam data yang ternyata hanya berisik, dan itu melakukan rasio signal-to-noise dalam perdebatan tidak ada gunanya sama sekali untuk tidak memiliki beberapa rintangan untuk ide untuk menyelesaikan sebelum mempostingnya di blog! Ini adalah salah satu bidang ilmu di mana statistik seringkali sangat buruk.
Dikran Marsupial
2
Livid, saya memberi Anda sebuah contoh konkret tentang di mana melakukan NHST yang sesuai dengan "manusia jerami" H0 akan bermanfaat untuk diskusi topik ilmiah. Yang menyediakan counterexample yang jelas yang menunjukkan pandangan Anda tidak benar - NHSTs, sebagai cacat seperti mereka, jangan tetap melakukan fungsi yang berguna dalam ilmu dan statistik. Sekarang jika Anda dapat menunjukkan bahwa sampel tandingan saya benar, itu mungkin bisa menyelesaikan masalah.
Dikran Marsupial
2
@Bagi, NHST melakukan fungsi secara ilmiah dan statistik, bukan fungsi yang diinginkan secara sosial (meskipun tidak secara optimal) dan itu tidak menetapkan penghalang yang sewenang-wenang, rintangan umumnya ditentukan oleh penentangannya terhadap H1 dan itu tidak melibatkan komit "menegaskan konsekuensinya fallacy "sebagai menolak H0 tidak menyiratkan bahwa H1 itu benar. Jadi tidak, itu tidak akurat.
Dikran Marsupial
3
Anda tidak mengerti intinya. Jika Anda memiliki rintangan rendah, maka tidak ada yang terkejut jika Anda dapat menegosiasikannya dengan sukses. Namun jika Anda memiliki rintangan rendah, tetapi Anda masih tidak bisa mengatasinya, itu memberi tahu Anda sesuatu. Seperti yang telah saya katakan berulang kali, menolak nol tidak menyiratkan bahwa H1 itu benar, jadi menolak H0 tidak berarti pasti ada jeda, itu tidak memberi tahu Anda mengapa ada jeda. Tetapi jika Anda tidak dapat mengatasi rintangan untuk dapat menolak H0, itu menunjukkan bahwa mungkin ada bukti yang tidak cukup untuk menyatakan H1 sebagai fakta (yang adalah apa yang terjadi dalam contoh ini).
Dikran Marsupial