Saya seorang mahasiswa pascasarjana dalam bidang psikologi, dan ketika saya melanjutkan studi statistik yang semakin mandiri, saya semakin kagum dengan tidak memadainya pelatihan formal saya. Baik pengalaman pribadi dan tangan kedua menunjukkan bahwa kurangnya kekakuan statistik dalam pelatihan sarjana dan pascasarjana agak ada di mana-mana dalam psikologi. Dengan demikian, saya pikir akan berguna bagi pelajar mandiri seperti saya untuk membuat daftar "Dosa Statistik", mentabulasikan praktik statistik yang diajarkan kepada siswa pascasarjana sebagai praktik standar yang pada kenyataannya digantikan oleh yang superior (lebih kuat, atau fleksibel, atau kuat, dll.) metode modern atau terbukti terus terang tidak valid. Mengantisipasi bahwa bidang lain mungkin juga mengalami keadaan yang serupa, saya mengusulkan wiki komunitas di mana kita dapat mengumpulkan daftar dosa statistik lintas disiplin.
227
Jawaban:
Gagal melihat (plot) data.
sumber
Sebagian besar interpretasi nilai-p adalah dosa! Penggunaan konvensional nilai-p sangat buruk; sebuah fakta yang, menurut pendapat saya, mempertanyakan pendekatan standar untuk pengajaran tes hipotesis dan tes signifikansi.
Haller dan Krause telah menemukan bahwa instruktur statistik hampir sama mungkinnya dengan siswa yang salah mengartikan nilai-p. (Ikuti tes dalam makalah mereka dan lihat bagaimana Anda melakukannya.) Steve Goodman membuat alasan yang baik untuk membuang penggunaan nilai-p (konvensional) yang berpihak pada kemungkinan. Kertas Hubbard juga patut dilihat.
Haller dan Krauss. Misinterpretasi yang penting: Masalah yang dibagikan siswa dengan guru mereka . Metode Penelitian Psikologis (2002) vol. 7 (1) hlm. 1-20 ( PDF )
Hubbard dan Bayarri. Kebingungan tentang Ukuran Bukti (p) versus Kesalahan (α) dalam Pengujian Statistik Klasik . The American Statistician (2003) vol. 57 (3)
Orang baik. Menuju statistik medis berbasis bukti. 1: Kesalahan nilai P. Ann Intern Med (1999) vol. 130 (12) hal. 995-1004 ( PDF )
Lihat juga:
Pembuat Wagen, EJ. Solusi praktis untuk masalah meresapi nilai p. Buletin & Ulasan Psikonomis, 14 (5), 779-804.
untuk beberapa kasus yang jelas di mana bahkan penafsiran "p" nilai nominal secara nominal telah dibuat salah karena pilihan yang dibuat oleh peneliti.
Pembaruan (2016) : Pada tahun 2016, American Statistics Association mengeluarkan pernyataan tentang nilai-p, lihat di sini . Ini, dalam suatu cara, merupakan respons terhadap "larangan nilai-p" yang dikeluarkan oleh jurnal psikologi sekitar setahun sebelumnya.
sumber
Jebakan paling berbahaya yang saya temui ketika bekerja pada model prediktif bukanlah untuk memesan set data uji sejak dini sehingga mendedikasikannya pada evaluasi kinerja "akhir".
Sangat mudah untuk melebih-lebihkan akurasi prediksi model Anda jika Anda memiliki kesempatan untuk entah bagaimana menggunakan data pengujian ketika mengubah parameter, memilih sebelumnya, memilih algoritma pembelajaran, menghentikan kriteria ...
Untuk menghindari masalah ini, sebelum memulai pekerjaan Anda pada dataset baru Anda harus membagi data Anda sebagai:
Kemudian bagi set pengembangan Anda sebagai "set pengembangan pelatihan" dan "set pengembangan pengujian" di mana Anda menggunakan set pengembangan pelatihan untuk melatih berbagai model dengan parameter yang berbeda dan pilih yang terbaik sesuai dengan kinerja yang ada pada set pengembangan pengujian. Anda juga dapat melakukan pencarian kotak dengan validasi silang tetapi hanya pada set pengembangan. Jangan pernah menggunakan set evaluasi sementara pemilihan model tidak 100% dilakukan.
Setelah Anda yakin dengan pemilihan model dan parameter, lakukan 10 kali validasi silang pada set evaluasi untuk mendapatkan gagasan tentang keakuratan prediktif "nyata" dari model yang dipilih.
Juga jika data Anda bersifat sementara, yang terbaik adalah memilih pemisahan pengembangan / evaluasi pada kode waktu: "Sulit untuk membuat prediksi - terutama tentang masa depan."
sumber
Melaporkan nilai-p ketika Anda melakukan penambangan data (penemuan hipotesis) alih-alih statistik (pengujian hipotesis).
sumber
Menguji hipotesis versus H 1 : μ ≠ 0 (misalnya dalam pengaturan Gaussian)H0:μ=0 H1:μ≠0
untuk membenarkan bahwa dalam suatu model (yaitu campuran " H 0 tidak ditolak" dan " H 0 benar").μ=0 H0 H0
Contoh yang sangat baik dari jenis penalaran (sangat buruk) adalah ketika Anda menguji apakah varians dari dua Gaussians sama (atau tidak) sebelum pengujian apakah rata-rata mereka sama atau tidak dengan asumsi varians yang sama.
Contoh lain terjadi ketika Anda menguji normalitas (versus non normalitas) untuk membenarkan normalitas. Setiap ahli statistik telah melakukan itu dalam kehidupan? itu baaad :) (dan harus mendorong orang untuk memeriksa ketahanan ke non Gaussianity)
sumber
Beberapa kesalahan yang mengganggu saya:
Dengan asumsi penduga tidak bias selalu lebih baik daripada penduga bias.
Menafsirkan / menerapkan korelasi secara tidak benar.
Taksiran titik pelaporan tanpa kesalahan standar.
Menggunakan metode yang mengasumsikan semacam Normalitas Multivariat (seperti Linear Discriminant Analysis) ketika metode yang lebih kuat, berkinerja lebih baik, non / semiparametrik tersedia.
Menggunakan p-value sebagai ukuran kekuatan antara prediktor dan respons, bukan sebagai ukuran seberapa banyak bukti ada beberapa hubungan.
sumber
Dikotomisasi variabel prediktor kontinu baik untuk "menyederhanakan" analisis atau untuk memecahkan "masalah" non-linearitas dalam efek prediktor kontinu.
sumber
Tidak benar-benar menjawab pertanyaan, tetapi ada seluruh buku tentang hal ini:
Phillip I. Bagus, James William Hardin (2003). Kesalahan umum dalam statistik (dan cara menghindarinya). Wiley. ISBN 9780471460688
sumber
menafsirkan
Probability(data | hypothesis)
sebagaiProbability(hypothesis | data)
tanpa penerapan teorema Bayes.sumber
Statistik Ritualisasi.
"Dosa" ini adalah ketika Anda menerapkan apa pun yang diajarkan kepada Anda, terlepas dari kesesuaiannya, karena itu adalah bagaimana segala sesuatu dilakukan. Ini statistik dengan menghafal, satu tingkat di atas membiarkan mesin memilih statistik Anda untuk Anda.
Contohnya adalah pengantar siswa tingkat Statistik mencoba untuk membuat semuanya sesuai dengan tes-t sederhana dan toolkit ANOVA, atau setiap kali seseorang menemukan diri mereka pergi "Oh, saya punya data kategorikal, saya harus menggunakan X" tanpa pernah berhenti untuk melihat data, atau pertimbangkan pertanyaan yang diajukan.
Variasi pada dosa ini melibatkan penggunaan kode yang tidak Anda mengerti untuk menghasilkan keluaran yang hanya Anda mengerti, tetapi ketahuilah "kolom kelima, sekitar 8 baris ke bawah" atau apa pun jawaban yang seharusnya Anda cari.
sumber
Mungkin regresi bertahap dan bentuk pengujian lainnya setelah pemilihan model.
Memilih variabel independen untuk pemodelan tanpa memiliki hipotesis apriori di balik hubungan yang ada dapat menyebabkan kesalahan logika atau korelasi palsu, di antara kesalahan lainnya.
Referensi yang berguna (dari perspektif biologis / biostatistik):
Kozak, M., & Azevedo, R. (2011). Apakah menggunakan pemilihan variabel bertahap untuk membangun model analisis jalur sekuensial masuk akal? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x
Whittingham, MJ, Stephens, P., Bradbury, RB, & Freckleton, RP (2006). Mengapa kita masih menggunakan pemodelan bertahap dalam ekologi dan perilaku? Jurnal ekologi hewan, 75 (5), 1182–9. doi: 10.1111 / j.1365-2656.2006.01141.x
Frank Harrell, Strategi Pemodelan Regresi , Springer 2001.
sumber
Sesuatu yang saya lihat sangat mengejutkan dalam makalah konferensi dan bahkan jurnal membuat banyak perbandingan (misalnya korelasi bivariat) dan kemudian melaporkan semua p <0,05 sebagai "signifikan" (mengabaikan kebenaran atau kesalahan untuk saat itu).
Saya tahu apa yang Anda maksud tentang lulusan psikologi, juga - saya telah menyelesaikan PhD dalam bidang psikologi dan saya masih baru belajar sebenarnya. Ini sangat buruk, saya pikir psikologi perlu mengambil analisis data kuantitatif lebih serius jika kita akan menggunakannya (yang, jelas, kita harus)
sumber
Menjelajahi tetapi berpura-pura menjadi konfirmasi. Ini dapat terjadi ketika seseorang memodifikasi strategi analisis (yaitu model pas, pemilihan variabel dan sebagainya) didorong data atau didorong hasil tetapi tidak menyatakan ini secara terbuka dan kemudian hanya melaporkan "terbaik" (yaitu dengan nilai p terkecil) hasil seolah-olah itu satu-satunya analisis. Ini juga berkaitan dengan titik jika beberapa pengujian yang dilakukan Chris Beeley dan menghasilkan tingkat positif palsu yang tinggi dalam laporan ilmiah.
sumber
Salah satu yang saya lihat cukup sering dan selalu menggiling gigi saya adalah asumsi bahwa efek utama yang signifikan secara statistik dalam satu kelompok dan efek utama yang tidak signifikan secara statistik pada kelompok lain menyiratkan efek yang signifikan x interaksi kelompok.
sumber
Terutama dalam epidemiologi dan kesehatan masyarakat - menggunakan aritmatika alih-alih skala logaritmik ketika melaporkan grafik ukuran relatif hubungan (rasio bahaya, rasio peluang atau rasio risiko).
Informasi lebih lanjut di sini .
sumber
Korelasi menyiratkan sebab-akibat, yang tidak seburuk menerima Hipotesis Null.
sumber
A and B are correlated
biasanya hanya melihatA causes B
tetapi tidakB causes A
... (dan lupakanC
penyebabA
danB
)Analisis data laju (akurasi, dll) menggunakan ANOVA, dengan demikian mengasumsikan bahwa data laju memiliki kesalahan terdistribusi Gaussian ketika sebenarnya didistribusikan secara biner. Dixon (2008) memberikan diskusi tentang konsekuensi dari dosa ini dan eksplorasi pendekatan analisis yang lebih tepat.
sumber
Yang populer saat ini adalah merencanakan interval kepercayaan 95% di sekitar nilai kinerja mentah dalam desain tindakan berulang ketika mereka hanya berhubungan dengan varian efek. Misalnya, sebidang waktu reaksi dalam desain tindakan berulang dengan interval kepercayaan di mana istilah kesalahan berasal dari MSE dari tindakan berulang ANOVA. Interval kepercayaan ini tidak mewakili sesuatu yang masuk akal. Mereka tentu tidak mewakili apa pun tentang waktu reaksi absolut. Anda bisa menggunakan istilah kesalahan untuk menghasilkan interval kepercayaan di sekitar efek tetapi itu jarang dilakukan.
sumber
Sementara saya bisa mengaitkan banyak dengan apa yang dikatakan Michael Lew, meninggalkan nilai p demi rasio kemungkinan masih melewatkan masalah yang lebih umum - yaitu terlalu menekankan hasil probabilistik atas ukuran efek, yang diperlukan untuk memberikan hasil makna substantif. Jenis kesalahan ini datang dalam berbagai bentuk dan ukuran dan menurut saya itu adalah kesalahan statistik yang paling berbahaya. Menggambar pada J. Cohen dan M. Oakes dan yang lainnya, saya telah menulis artikel tentang ini di http://integrativestatistics.com/insidious.htm .
sumber
Gagal menguji asumsi bahwa kesalahan terdistribusi secara normal dan memiliki varians yang konstan di antara perawatan. Asumsi-asumsi ini tidak selalu diuji, sehingga pemasangan model kuadrat-terkecil mungkin sering digunakan ketika sebenarnya tidak sesuai.
sumber
Kursus psikometri intro saya di tingkat sarjana menghabiskan setidaknya dua minggu mengajar bagaimana melakukan regresi bertahap. Apakah ada situasi di mana regresi bertahap adalah ide yang bagus?
sumber
Statistik lama saya prof memiliki "aturan praktis" untuk berurusan dengan pencilan: Jika Anda melihat pencilan di sebar Anda, tutupilah dengan ibu jari Anda :)
sumber
Ini mungkin lebih merupakan jawaban pop-statistik daripada yang Anda cari, tetapi:
Menggunakan mean sebagai indikator lokasi ketika data sangat miring .
Ini tidak selalu menjadi masalah, jika Anda dan audiens Anda tahu apa yang Anda bicarakan, tetapi ini biasanya bukan masalahnya, dan median sering kali memberikan ide yang lebih baik tentang apa yang sedang terjadi.
Contoh favorit saya adalah upah rata-rata, yang biasanya dilaporkan sebagai "upah rata-rata". Tergantung pada ketimpangan pendapatan / kekayaan di suatu negara, ini bisa sangat berbeda dari upah median, yang memberikan indikator yang jauh lebih baik untuk tempat orang berada dalam kehidupan nyata. Misalnya, di Australia, di mana kami memiliki ketimpangan yang relatif rendah, median adalah 10-15% lebih rendah dari rata-rata . Di AS perbedaannya jauh lebih tajam , median kurang dari 70% dari rata-rata, dan kesenjangan meningkat.
Melaporkan upah "rata-rata" (rata-rata) menghasilkan gambaran yang lebih cerah daripada yang dibenarkan, dan juga bisa memberi kesan palsu pada banyak orang bahwa mereka tidak menghasilkan sebanyak orang "normal".
sumber
Bahwa nilai-p adalah probabilitas bahwa hipotesis nol itu benar dan (1-p) adalah probabilitas bahwa hipotesis alternatif itu benar, dari yang gagal menolak hipotesis nol berarti hipotesis alternatif itu salah, dll.
sumber
Dalam nada yang sama dengan @dirkan - Penggunaan nilai p sebagai ukuran formal bukti hipotesis nol menjadi benar. Itu memang memiliki beberapa fitur heuristik yang baik dan secara intuitif baik, tetapi pada dasarnya ukuran bukti yang tidak lengkap karena tidak membuat referensi ke hipotesis alternatif. Sementara data mungkin tidak mungkin di bawah nol (mengarah ke nilai-p kecil), data mungkin bahkan lebih tidak mungkin di bawah hipotesis alternatif.
sumber
Menggunakan diagram lingkaran untuk menggambarkan frekuensi relatif. Lebih lanjut di sini .
sumber
Menggunakan statistik / probabilitas dalam pengujian hipotesis untuk mengukur "kebenaran absolut". Statistik tidak bisa melakukan ini, mereka hanya bisa digunakan dalam memutuskan antara alternatif , yang harus ditentukan dari "di luar" paradigma statistik. Pernyataan seperti "hipotesis nol dibuktikan benar oleh statistik" adalah tidak benar; statistik hanya dapat memberi tahu Anda "hipotesis nol lebih disukai oleh data, dibandingkan dengan hipotesis alternatif". Jika Anda kemudian berasumsi bahwa hipotesis nol atau alternatifnya harus benar, Anda dapat mengatakan "nol terbukti benar", tetapi ini hanya konsekuensi sepele dari asumsi Anda, bukan apa pun yang ditunjukkan oleh data.
sumber
Dan mirip dengan (atau hampir sama dengan) jawaban @ ogrisel , melakukan pencarian Grid dan melaporkan hanya hasil terbaik.
sumber
(Dengan sedikit keberuntungan ini akan menjadi kontroversial.)
Menggunakan pendekatan Neyman-Pearson untuk analisis statistik percobaan ilmiah. Atau, lebih buruk lagi, menggunakan hibrida Neyman-Pearson dan Fisher yang tidak jelas.
sumber
Meminta, dan mungkin mendapatkan Diagram Alir : Hal grafis di mana Anda mengatakan apa tingkat variabel Anda dan jenis hubungan yang Anda cari, dan Anda mengikuti panah ke bawah untuk mendapatkan Tes Nama Merek atau Statistik Nama Merek . Terkadang ditawarkan dengan jalur misterius 'parametrik' dan 'non-parametrik'.
sumber