Saya membaca banyak makalah akademis evolusi / ekologis, kadang-kadang dengan tujuan khusus untuk melihat bagaimana statistik digunakan 'di dunia nyata' di luar buku teks. Saya biasanya mengambil statistik dalam makalah sebagai Injil dan menggunakan makalah untuk membantu dalam pembelajaran statistik saya. Lagi pula, jika sebuah makalah telah menghabiskan waktu bertahun-tahun untuk menulis dan telah melalui tinjauan sejawat yang teliti, maka tentu saja statistiknya akan solid? Tetapi dalam beberapa hari terakhir, saya telah mempertanyakan asumsi saya, dan bertanya-tanya seberapa sering analisis statistik yang diterbitkan dalam makalah akademik dicurigai? Secara khusus, mungkin diharapkan bahwa mereka yang berada di bidang seperti ekologi dan evolusi menghabiskan lebih sedikit waktu untuk mempelajari statistik dan lebih banyak waktu untuk mempelajari bidang mereka.
Seberapa sering orang menemukan statistik yang dicurigai dalam makalah akademis?
sumber
Jawaban:
Pengalaman saya membaca makalah yang berupaya menerapkan statistik di berbagai bidang (ilmu politik, ekonomi, psikologi, kedokteran, biologi, keuangan, ilmu aktuaria, akuntansi, optik, astronomi, dan banyak lainnya) adalah kualitas dari analisis statistik dapat berada di mana saja pada spektrum dari sangat baik dan dilakukan dengan baik untuk omong kosong mengerikan. Saya telah melihat analisis yang baik di setiap bidang yang telah saya sebutkan, dan analisis yang dilakukan dengan buruk di hampir semua bidang tersebut.
Beberapa jurnal umumnya cukup bagus, dan beberapa bisa lebih seperti bermain anak panah dengan penutup mata - Anda mungkin mendapatkan sebagian besar dari mereka tidak terlalu jauh dari target, tetapi akan ada beberapa di dinding, lantai dan langit-langit. Dan mungkin kucing itu.
Saya tidak berencana menyebutkan nama pelakunya, tetapi saya akan mengatakan bahwa saya telah melihat karier akademik dibangun berdasarkan kesalahan penggunaan statistik (yaitu ketika kesalahan dan kesalahpahaman yang sama diulang dalam kertas setelah kertas, lebih dari satu dekade).
Jadi saran saya adalah biarkan pembaca berhati - hatilah ; jangan percaya bahwa editor dan peer reviewer tahu apa yang mereka lakukan. Seiring berjalannya waktu, Anda mungkin mengetahui yang mana penulis umumnya dapat diandalkan untuk tidak melakukan sesuatu yang terlalu mengejutkan, dan mana yang harus diperlakukan secara hati-hati. Anda mungkin merasa bahwa beberapa jurnal biasanya memiliki standar yang sangat tinggi untuk statistik mereka.
Tetapi bahkan seorang penulis yang baik biasanya dapat membuat kesalahan, atau wasit dan editor dapat gagal untuk mengambil kesalahan yang biasanya mereka temukan; jurnal yang biasanya bagus dapat mempublikasikan howler.
[Kadang-kadang, Anda bahkan akan melihat surat kabar yang sangat buruk memenangkan hadiah atau penghargaan ... yang tidak banyak berpengaruh pada kualitas orang yang menilai hadiah itu.]
Saya tidak ingin menebak apa fraksi statistik "buruk" yang mungkin saya lihat (dalam berbagai samaran, dan pada setiap tahap dari mendefinisikan pertanyaan, desain penelitian, pengumpulan data, manajemen data, ... sampai ke analisis dan kesimpulan), tetapi itu tidak cukup kecil bagi saya untuk merasa nyaman.
Saya bisa menunjukkan contoh, tapi saya pikir ini bukan forum yang tepat untuk melakukan itu. (Akan lebih baik jika ada adalah forum yang baik untuk itu, sebenarnya, tapi sekali lagi, itu mungkin akan menjadi sangat "dipolitisir" cukup cepat, dan segera gagal untuk melayani tujuannya.)
Saya telah menghabiskan beberapa waktu menjelajahi PLOS ONE ... dan sekali lagi, tidak akan menunjukkan makalah tertentu. Beberapa hal yang saya perhatikan: sepertinya sebagian besar makalah memiliki statistik di dalamnya, mungkin lebih dari setengahnya memiliki tes hipotesis. Bahaya utama tampaknya banyak tes, baik dengan tinggi seperti 0,05 pada masing-masing (yang tidak secara otomatis masalah selama kita mengerti bahwa beberapa efek yang sangat kecil mungkin muncul sebagai signifikan secara kebetulan), atau sangat rendah tingkat signifikansi individual, yang akan cenderung memberikan daya rendah. Saya juga melihat sejumlah kasus di mana sekitar setengah lusin tes berbedaα rupanya diterapkan untuk menyelesaikan pertanyaan yang persis sama. Ini mengejutkan saya sebagai ide yang umumnya buruk. Secara keseluruhan standarnya cukup bagus di beberapa lusin kertas, tetapi di masa lalu saya telah melihat kertas yang benar-benar mengerikan di sana.
[Mungkin saya bisa menikmati hanya satu contoh, secara tidak langsung. Pertanyaan ini menanyakan tentang seseorang yang melakukan sesuatu yang sangat meragukan. Itu jauh dari hal terburuk yang pernah kulihat.]
Di sisi lain, saya juga melihat (bahkan lebih sering) kasus-kasus di mana orang dipaksa untuk melewati semua jenis simpai yang tidak perlu untuk mendapatkan analisis mereka diterima; hal-hal yang masuk akal untuk dilakukan tidak diterima karena ada cara yang "benar" untuk melakukan hal-hal menurut peninjau atau editor atau penyelia, atau hanya dalam budaya yang tidak diucapkan dalam bidang tertentu.
sumber
Saya menghormati sikap @ Glen_b tentang cara yang benar untuk menjawab di sini (dan tentu saja tidak bermaksud untuk menguranginya), tapi saya tidak bisa menolak menunjuk ke contoh yang sangat menghibur yang dekat dengan rumah saya. Dengan risiko mempolitisasi hal dan melakukan tujuan pertanyaan ini merugikan, saya merekomendasikan Wagenmakers, Wetzels, Boorsboom, dan Van Der Maas (2011) . Saya mengutip ini dalam posting terkait pada Cognitive Sciences beta SE ( Bagaimana ilmu kognitif menjelaskan intensionalitas dan fungsi otak yang jauh pada penerima? ), Yang mempertimbangkan contoh lain dari "panah memukul kucing". Artikel Wagenmakers dan rekannya mengomentari langsung "howler" yang sebenarnya: artikel itu diterbitkan di JPSP (salah satu jurnal terbesar di bidang psikologi) beberapa tahun yang lalu. Mereka juga berpendapat lebih umum mendukung analisis Bayesian dan bahwa:
Saya mungkin tidak perlu memberi tahu Anda bahwa ini tidak tepat sebagai khotbah kepada paduan suara. FWIW, ada bantahan juga (karena sepertinya selalu ada antara Bayesians dan frequentist; ( Bem, Utts, & Johnson, 2011 ) , tetapi saya merasa bahwa itu tidak tepat skakmat dalam debat .
Psikologi sebagai komunitas ilmiah telah mendapat sedikit replikasi baru-baru ini, sebagian karena ini dan kekurangan metodologis profil tinggi lainnya. Komentar lain di sini menunjuk kasus yang mirip dengan apa yang dulu dikenal sebagai korelasi voodoo dalam ilmu saraf sosial (bagaimana yang untuk politis tidak benar BTW kertas telah diberi judul;? Vul, Harris, Winkielman, & Pashler 2009 ). Itu juga menarik bantahannya , yang bisa Anda lihat untuk debat lebih banyak tentang praktik yang sangat bisa diperdebatkan.
Untuk lebih edutainment dengan biaya (lebih depersonalisasi) dari statistik (semu) yang berperilaku buruk, lihat pertanyaan kami yang saat ini yang paling banyak dipilih di sini di CV dengan judul yang salah (secara politis) salah, " Apa dosa statistik umum? " @MikeLawrence menghubungkan inspirasinya dengan studi paralelnya tentang psikologi dan statistik. Ini adalah salah satu favorit pribadi saya, dan jawabannya sangat berguna untuk menghindari jebakan yang tak terhitung jumlahnya di luar sana sendiri.
Di sisi pribadi, saya telah menghabiskan banyak dari lima bulan terakhir saya di sini sebagian besar karena sangat sulit untuk mendapatkan statistik yang kuat tentang pertanyaan analitik data tertentu. Terus terang, peer review sering tidak terlalu ketat sama sekali, terutama dalam hal pengawasan statistik penelitian dalam ilmu yang lebih muda dengan pertanyaan kompleks dan banyak komplikasi epistemik. Karena itu saya merasa perlu untuk mengambil tanggung jawab pribadi untuk memoles metode dalam pekerjaan saya sendiri.
Saat mempresentasikan penelitian disertasi saya , saya merasakan betapa pentingnya tanggung jawab pribadi untuk pengawasan statistik. Dua psikolog yang luar biasa di almamater saya menyela bahwa saya melakukan salah satu dosa paling mendasar dalam interpretasi saya tentang korelasi. Saya sudah memikirkan diri saya di atasnya, dan sudah memberi kuliah tentang undergrads beberapa kali, tetapi saya masih pergi ke sana, dan dipanggil keluar (sejak awal, terima kasih banyak). Saya pergi ke sana karena penelitian yang saya ulas dan tiru pergi ke sana! Jadi saya akhirnya menambahkan beberapa bagian untuk disertasi saya yang memanggil para peneliti lain untuk mengasumsikan kausalitas dari studi longitudinal kuasi-eksperimental (kadang-kadang bahkan dari korelasi cross-sectional) dan mengabaikan penjelasan alternatif sebelum waktunya.
Disertasi saya diterima tanpa revisi oleh komite saya, yang mencakup psikometrik luar biasa lain dan calon presiden SPSP (yang menerbitkan JPSP), tetapi jujur saja, saya tidak sombong mengatakan ini. Sejak itu saya berhasil menyodok beberapa lubang kelinci dalam metode saya sendiri meskipun melewati proses peninjauan eksternal dengan pengulas yang sangat baik. Saya sekarang telah berada di ujung dalam statistik dalam mencoba menghubungkannya dengan metode yang lebih tepat untuk pemodelan prediktif peringkat Likert seperti SEM, IRT, dan analisis nonparametrik (lihat pengujian regresi setelah pengurangan dimensi). Saya memilih untuk secara sukarela menghabiskan waktu bertahun-tahun di atas kertas yang mungkin bisa saya terbitkan apa adanya ... Saya rasa saya bahkan memiliki studi simulasi yang harus dilakukan sebelum saya dapat melanjutkan dengan hati-hati.
Namun saya menekankan bahwa ini opsional - bahkan mungkin terlalu bersemangat dan mahal di tengah-tengah budaya mempublikasikan atau punah yang sering menekankan kuantitas daripada kualitas dalam catatan kerja awal karier. Kesalahan penerapan model parametrik untuk data kontinu terhadap distribusi data ordinal yang melanggar asumsi adalah terlalu umum di bidang saya, seperti juga misinterpretasi dan misrepresentasi signifikansi statistik (lihat Mengakomodasi pandangan mengakar tentang nilai-p ). Saya benar-benar bisa lolos dengan itu (dalam jangka pendek) ... dan bahkan tidak terlalu sulit untuk melakukan lebih baik dari itu. Saya kira saya memiliki beberapa tahun terakhir kemajuan luar biasa dalam program R untuk berterima kasih untuk itu! Di sini berharap waktunya berubah.
Referensi
· Bem, DJ, Utts, J., & Johnson, WO (2011). Haruskah psikolog mengubah cara mereka menganalisis data mereka? Jurnal Kepribadian dan Psikologi Sosial, 101 (4), 716-719. Diperoleh dari http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P., & Pashler, H. (2009). Korelasi yang sangat tinggi dalam studi fMRI tentang emosi, kepribadian, dan kognisi sosial. Perspektif tentang Ilmu Psikologi, 4 (3), 274–290. Diperoleh dari http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Pembuat Wagen, EJ, Wetzels, R., Borsboom, D., & Van der Maas, H. (2011). Mengapa psikolog harus mengubah cara mereka menganalisis data mereka: Kasus psi. Jurnal Kepribadian dan Psikologi Sosial, 100 , 426-432. Diperoleh dari http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .
sumber
Saya ingat di Universitas ketika ditanya oleh beberapa mahasiswa tahun terakhir ilmu sosial pada kesempatan yang berbeda (salah satunya mendapat nilai 1) bagaimana menghitung rata-rata untuk proyek mereka yang memiliki beberapa titik data. (Jadi mereka tidak mengalami masalah dalam menggunakan perangkat lunak, hanya dengan konsep bagaimana melakukan matematika dengan kalkulator.)
Mereka hanya memberi saya tatapan kosong ketika saya bertanya apa jenis rata-rata yang mereka inginkan.
Namun mereka semua merasa perlu untuk menempatkan beberapa statistik dalam laporan mereka, karena itu adalah hal yang dilakukan - saya berharap mereka semua membaca 101 makalah yang memiliki statistik tanpa memikirkan tentang arti statistik jika ada.
Jelas bahwa peneliti yang mengajar mereka selama 3 tahun tidak peduli tentang kebenaran statistik yang cukup untuk menyaring pemahaman apa pun kepada siswa.
(Saya adalah seorang mahasiswa ilmu komputer pada saat itu. Saya memposting ini sebagai jawaban karena agak lama untuk komentar.)
sumber
Sebagai daftar yang sangat tidak lengkap, saya menemukan statistik paling benar dalam 1) makalah fisika diikuti 2) makalah statistik dan paling menyedihkan dalam 3) makalah medis. Alasan untuk ini adalah langsung dan harus dilakukan dengan kelengkapan persyaratan yang dikenakan pada model prototipe di setiap bidang.
Dalam makalah fisika, persamaan dan statistik terapan harus memperhatikan unit yang seimbang dan memiliki hubungan kausal yang paling sering terjadi, dan pengujian terhadap standar fisik.
Dalam statistik, 1) unit dan kausalitas kadang-kadang diabaikan, asumsi kadang-kadang heuristik, dan pengujian fisik terlalu sering diabaikan, tetapi kesetaraan (atau ketidaksetaraan), yaitu, logika umumnya dipertahankan di sepanjang jalur induktif, di mana yang terakhir tidak dapat mengoreksi untuk. asumsi tidak fisik.
Dalam kedokteran, biasanya unit diabaikan, persamaan dan asumsi biasanya heuristik, biasanya tidak diuji dan sering palsu.
Tentu saja, bidang seperti mekanika statistik lebih cenderung memiliki asumsi yang dapat diuji daripada, katakanlah, ekonomi, dan, yang tidak mencerminkan bakat dari para calon penulis di bidang-bidang itu. Ini lebih terkait dengan berapa banyak dari apa yang dilakukan sebenarnya dapat diuji, dan berapa banyak pengujian yang telah dilakukan secara historis di setiap bidang.
sumber
Setiap makalah yang menyangkal hipotesis nol nol menggunakan statistik yang tidak berharga (sebagian besar dari apa yang saya lihat). Proses ini tidak dapat memberikan informasi yang belum disediakan oleh ukuran efek. Lebih lanjut tidak memberi tahu kita apa-apa tentang apakah hasil yang signifikan sebenarnya disebabkan oleh alasan yang diteorikan oleh peneliti. Ini membutuhkan investigasi yang cermat atas data untuk bukti pengganggu. Paling sering, jika ada, bukti terkuat ini bahkan dibuang sebagai "pencilan".
Saya tidak begitu akrab dengan evolusi / ekologi, tetapi dalam kasus penelitian psikologi dan medis saya akan menyebut tingkat pemahaman statistik "sangat bingung" dan "hambatan untuk kemajuan ilmiah". Orang-orang seharusnya menyangkal sesuatu yang diprediksi oleh teori mereka, bukan kebalikannya (nol perbedaan / efek).
Ada ribuan makalah yang ditulis tentang topik ini. Cari kontroversi hibrida NHST.
Sunting: Dan saya maksudkan uji signifikansi nol nol hipotesis memiliki nilai ilmiah maksimum nol. Orang ini memukul paku di kepala:
http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/
Juga: Paul Meehl. 1967. Pengujian Teori dalam Psikologi dan Fisika: Paradoks Metodologis
Edit 3:
Jika seseorang memiliki argumen yang mendukung kegunaan strawman NHST yang tidak memerlukan pemikiran "tolak hipotesis bahwa laju pemanasan adalah sama, tetapi JANGAN anggap ini menyiratkan bahwa laju pemanasan tidak sama" adalah rasional pernyataan, saya akan menyambut komentar Anda.
Edit 4:
Apa yang dimaksud Fisher dengan kutipan berikut? Apakah itu menyiratkan bahwa ia berpikir "Jika model / teori A tidak sesuai dengan data, kita dapat mengatakan A salah, tetapi tidak ada tentang apakah A tidak benar"?
Karl Pearson dan RA Fisher tentang Tes Statistik: Pertukaran 1935 dari Alam
Apakah itu karena dia berasumsi bahwa orang hanya akan mencoba untuk melemahkan hipotesis yang masuk akal dan bukan strawmen? Atau saya salah?
sumber