Apa dosa statistik umum?

227

Saya seorang mahasiswa pascasarjana dalam bidang psikologi, dan ketika saya melanjutkan studi statistik yang semakin mandiri, saya semakin kagum dengan tidak memadainya pelatihan formal saya. Baik pengalaman pribadi dan tangan kedua menunjukkan bahwa kurangnya kekakuan statistik dalam pelatihan sarjana dan pascasarjana agak ada di mana-mana dalam psikologi. Dengan demikian, saya pikir akan berguna bagi pelajar mandiri seperti saya untuk membuat daftar "Dosa Statistik", mentabulasikan praktik statistik yang diajarkan kepada siswa pascasarjana sebagai praktik standar yang pada kenyataannya digantikan oleh yang superior (lebih kuat, atau fleksibel, atau kuat, dll.) metode modern atau terbukti terus terang tidak valid. Mengantisipasi bahwa bidang lain mungkin juga mengalami keadaan yang serupa, saya mengusulkan wiki komunitas di mana kita dapat mengumpulkan daftar dosa statistik lintas disiplin.

Mike Lawrence
sumber
5
Saya sadar bahwa "dosa" mungkin meradang dan bahwa beberapa aspek analisis statistik tidak hitam-putih. Tujuan saya adalah untuk mengajukan kasus-kasus di mana praktik yang diajarkan secara umum jelas tidak pantas.
Mike Lawrence
5
Anda juga dapat menambahkan siswa biologi / ilmu kehidupan ke dalam campuran jika Anda suka;)
nico
1
mungkin menuliskannya kembali sebagai dosa statistik sains kehidupan? ... atau sesuatu yang lebih spesifik ...
John
1
@whuber Ada beberapa jawaban bagus, jadi saya menggabungkan keduanya.
1
Hai @Amanda, bisakah Anda memberi indikasi tentang apa yang dibicarakan? Tidak ada yang suka kemungkinan rick-rolled.
nucky101

Jawaban:

118

Gagal melihat (plot) data.

vqv
sumber
+1 Bagus! Saya terkejut ini belum disebutkan.
Whuber
1
Sangat, sangat penting!
deps_stats
1
Mungkin yang paling umum.
Carlos Cinelli
115

Sebagian besar interpretasi nilai-p adalah dosa! Penggunaan konvensional nilai-p sangat buruk; sebuah fakta yang, menurut pendapat saya, mempertanyakan pendekatan standar untuk pengajaran tes hipotesis dan tes signifikansi.

Haller dan Krause telah menemukan bahwa instruktur statistik hampir sama mungkinnya dengan siswa yang salah mengartikan nilai-p. (Ikuti tes dalam makalah mereka dan lihat bagaimana Anda melakukannya.) Steve Goodman membuat alasan yang baik untuk membuang penggunaan nilai-p (konvensional) yang berpihak pada kemungkinan. Kertas Hubbard juga patut dilihat.

Haller dan Krauss. Misinterpretasi yang penting: Masalah yang dibagikan siswa dengan guru mereka . Metode Penelitian Psikologis (2002) vol. 7 (1) hlm. 1-20 ( PDF )

Hubbard dan Bayarri. Kebingungan tentang Ukuran Bukti (p) versus Kesalahan (α) dalam Pengujian Statistik Klasik . The American Statistician (2003) vol. 57 (3)

Orang baik. Menuju statistik medis berbasis bukti. 1: Kesalahan nilai P. Ann Intern Med (1999) vol. 130 (12) hal. 995-1004 ( PDF )

Lihat juga:

Pembuat Wagen, EJ. Solusi praktis untuk masalah meresapi nilai p. Buletin & Ulasan Psikonomis, 14 (5), 779-804.

untuk beberapa kasus yang jelas di mana bahkan penafsiran "p" nilai nominal secara nominal telah dibuat salah karena pilihan yang dibuat oleh peneliti.

Pembaruan (2016) : Pada tahun 2016, American Statistics Association mengeluarkan pernyataan tentang nilai-p, lihat di sini . Ini, dalam suatu cara, merupakan respons terhadap "larangan nilai-p" yang dikeluarkan oleh jurnal psikologi sekitar setahun sebelumnya.

Michael Lew
sumber
2
@Michael (+1) Saya menambahkan tautan ke abstrak dan PDF yang sudah diformat. Semoga kamu tidak keberatan.
chl
7
+1, tetapi saya ingin membuat komentar kritis. Mengenai garis pembuka, orang bisa saja mengatakan bahwa "hampir semua" (dalam pengertian teoretis ukuran) interpretasi dari setiap konsep yang didefinisikan dengan baik adalah salah, karena hanya satu yang benar. Kedua, apa yang Anda rujuk ketika Anda mengatakan "penggunaan konvensional" dan "pendekatan standar"? Referensi yang samar-samar ini terdengar seperti manusia jerami. Mereka tidak sesuai dengan apa yang dapat ditemukan dalam literatur tentang pendidikan statistik, misalnya.
whuber
4
@ Wouber Lihatlah kertas Goodman. Ini sesuai dengan pengalaman saya di bidang farmakologi. Metode mengatakan "Hasil di mana P <0,05 diambil sebagai signifikan secara statistik" dan kemudian hasilnya disajikan dengan + untuk p <0,05, ++ untuk p <0,01 dan +++ untuk p <0,0001. Pernyataan itu menyiratkan kontrol tingkat kesalahan a la Neyman dan Pearson, tetapi penggunaan berbagai tingkat p menyarankan pendekatan Fisher di mana nilai p adalah indeks kekuatan bukti terhadap hipotesis nol. Seperti yang ditunjukkan Goodman, Anda tidak dapat secara bersamaan mengontrol tingkat kesalahan dan menilai kekuatan bukti.
Michael Lew
8
@Michael Ada alternatif, interpretasi yang lebih murah hati dari pelaporan semacam itu. Sebagai contoh, penulis mungkin sadar bahwa pembaca mungkin ingin menerapkan ambang signifikansi mereka sendiri dan karena itu melakukan penandaan nilai-p untuk membantu mereka. Atau, penulis mungkin menyadari kemungkinan masalah perbandingan ganda dan menggunakan level yang berbeda dalam penyesuaian seperti Bonferroni. Mungkin sebagian dari kesalahan karena penyalahgunaan nilai-p harus diletakkan di kaki pembaca, bukan penulis.
Whuber
4
@ Whuber Saya setuju sepenuhnya, tetapi hanya bahwa apa yang Anda sarankan benar dalam sebagian kecil kasus (versi terbatas 'sepenuhnya'). Ada beberapa jurnal yang menetapkan bahwa nilai p harus dilaporkan pada tingkat bintang satu, dua atau tiga daripada nilai yang tepat, sehingga jurnal-jurnal tersebut berbagi tanggung jawab untuk hasilnya. Namun, baik persyaratan yang dipertimbangkan dengan buruk dan penggunaan nilai-nilai p yang tampaknya naif mungkin merupakan hasil dari kurangnya penjelasan yang jelas tentang perbedaan antara tingkat kesalahan dan bukti dalam beberapa teks statistik pengantar yang ada di rak saya.
Michael Lew
73

Jebakan paling berbahaya yang saya temui ketika bekerja pada model prediktif bukanlah untuk memesan set data uji sejak dini sehingga mendedikasikannya pada evaluasi kinerja "akhir".

Sangat mudah untuk melebih-lebihkan akurasi prediksi model Anda jika Anda memiliki kesempatan untuk entah bagaimana menggunakan data pengujian ketika mengubah parameter, memilih sebelumnya, memilih algoritma pembelajaran, menghentikan kriteria ...

Untuk menghindari masalah ini, sebelum memulai pekerjaan Anda pada dataset baru Anda harus membagi data Anda sebagai:

  • set pengembangan
  • set evaluasi

Kemudian bagi set pengembangan Anda sebagai "set pengembangan pelatihan" dan "set pengembangan pengujian" di mana Anda menggunakan set pengembangan pelatihan untuk melatih berbagai model dengan parameter yang berbeda dan pilih yang terbaik sesuai dengan kinerja yang ada pada set pengembangan pengujian. Anda juga dapat melakukan pencarian kotak dengan validasi silang tetapi hanya pada set pengembangan. Jangan pernah menggunakan set evaluasi sementara pemilihan model tidak 100% dilakukan.

Setelah Anda yakin dengan pemilihan model dan parameter, lakukan 10 kali validasi silang pada set evaluasi untuk mendapatkan gagasan tentang keakuratan prediktif "nyata" dari model yang dipilih.

Juga jika data Anda bersifat sementara, yang terbaik adalah memilih pemisahan pengembangan / evaluasi pada kode waktu: "Sulit untuk membuat prediksi - terutama tentang masa depan."

ogrisel
sumber
5
Saya setuju dengan ini pada prinsipnya tetapi dalam kasus set data kecil (saya sering hanya memiliki 20-40 kasus) penggunaan set evaluasi terpisah tidak praktis. Validasi silang bersarang dapat mengatasi ini tetapi dapat menyebabkan perkiraan pesimistis pada set data kecil
BGreene
11
Secara umum dibutuhkan kumpulan data yang besar untuk pemisahan data agar dapat diandalkan. Itu sebabnya validasi internal yang ketat dengan bootstrap sangat menarik.
Frank Harrell
Terutama ketika set pengembangan adalah data masa lalu dan evaluasi menetapkan data masa depan. Mengapa tidak, setelah semua penyetelan model, melatih model akhir dengan parameter tetap pada seluruh set pengembangan dan memprediksi seluruh set evaluasi dengan itu. Dalam skenario nyata, Anda tidak dapat memvalidasi lintas melalui data masa depan seperti yang Anda gambarkan, sehingga Anda akan menggunakan semua data masa lalu yang relevan.
David Ernst
64

Melaporkan nilai-p ketika Anda melakukan penambangan data (penemuan hipotesis) alih-alih statistik (pengujian hipotesis).

Neil McGuigan
sumber
2
Bisakah Anda (atau seseorang) menguraikan?
antoine-sac
1
lihat en.wikipedia.org/wiki/Data_dredging
Neil McGuigan
Bagaimana dengan nilai-p yang dikoreksi untuk pengujian hipotesis berganda (dengan sedikit rasa metode Bonferroni atau koreksi yang lebih maju)? Saya cenderung berpikir itu baik-baik saja, bahkan dalam konteks penambangan data?
antoine-sac
Saya suka ide umum, tetapi ini adalah distorsi untuk menyamakan statistik dengan pengujian hipotesis ketika yang terakhir adalah bagian dari yang pertama.
rolando2
46

Menguji hipotesis versus H 1 : μ 0 (misalnya dalam pengaturan Gaussian)H0:μ=0H1:μ0

untuk membenarkan bahwa dalam suatu model (yaitu campuran " H 0 tidak ditolak" dan " H 0 benar").μ=0H0H0

Contoh yang sangat baik dari jenis penalaran (sangat buruk) adalah ketika Anda menguji apakah varians dari dua Gaussians sama (atau tidak) sebelum pengujian apakah rata-rata mereka sama atau tidak dengan asumsi varians yang sama.

Contoh lain terjadi ketika Anda menguji normalitas (versus non normalitas) untuk membenarkan normalitas. Setiap ahli statistik telah melakukan itu dalam kehidupan? itu baaad :) (dan harus mendorong orang untuk memeriksa ketahanan ke non Gaussianity)

robin girard
sumber
6
Logika yang sama (mengambil "tidak adanya bukti yang mendukung H1" sebagai "bukti tidak adanya H1") pada dasarnya mendasari semua tes good-of-fit. Alasannya juga sering muncul ketika orang menyatakan "tes itu tidak signifikan, karena itu kita dapat menyimpulkan tidak ada pengaruh faktor X / tidak ada pengaruh variabel Y". Saya kira dosanya tidak terlalu parah jika disertai dengan alasan tentang kekuatan tes (misalnya, estimasi a-priori ukuran sampel untuk mencapai kekuatan tertentu dengan ukuran efek yang relevan tertentu).
caracal
Jika Anda tidak membuat pertimbangan tentang kekuatan, saya akan mengatakan bahwa mengklasifikasi adalah benar ketika tidak ditolak adalah sangat sangat buruk sementara mengklarifikasi H 1 adalah benar sedangkan H 0 ditolak hanya sedikit salah :). H0H1H0
robin girard
Bagus!! Ya, ini membuatku gila ..
jpillow
3
Saya mencoba untuk melek secara statistik dan masih jatuh hati untuk yang satu ini dari waktu ke waktu. Apa saja alternatifnya? Ubah model Anda sehingga nol lama menjadi ? Satu-satunya pilihan lain yang dapat saya pikirkan adalah kekuatan studi Anda cukup bahwa kegagalan untuk menolak nol dalam prakteknya cukup dekat untuk mengkonfirmasi nol. Misalnya, jika Anda ingin memastikan bahwa menambahkan pereaksi ke sel Anda tidak akan mematikan lebih dari 2% dari mereka, daya ke tingkat negatif palsu yang memuaskan. H1
DocBuckets
Pengujian kesetaraan @DocBuckets dengan dua pengujian satu sisi lebih ketat daripada pendekatan berbasis daya. Tetapi Anda perlu menetapkan ukuran efek minimum yang relevan di bawah ini yang dapat Anda katakan tentang kesetaraan praktis.
David Ernst
46

Beberapa kesalahan yang mengganggu saya:

  1. Dengan asumsi penduga tidak bias selalu lebih baik daripada penduga bias.

  2. R2R2

  3. Menafsirkan / menerapkan korelasi secara tidak benar.

  4. Taksiran titik pelaporan tanpa kesalahan standar.

  5. Menggunakan metode yang mengasumsikan semacam Normalitas Multivariat (seperti Linear Discriminant Analysis) ketika metode yang lebih kuat, berkinerja lebih baik, non / semiparametrik tersedia.

  6. Menggunakan p-value sebagai ukuran kekuatan antara prediktor dan respons, bukan sebagai ukuran seberapa banyak bukti ada beberapa hubungan.

HairyBeast
sumber
5
Apakah Anda memecah ini menjadi opsi yang terpisah?
russellpierce
41

Dikotomisasi variabel prediktor kontinu baik untuk "menyederhanakan" analisis atau untuk memecahkan "masalah" non-linearitas dalam efek prediktor kontinu.

Mike Lawrence
sumber
18
Saya tidak berpikir ini benar-benar "dosa" karena hasil yang diperoleh tidak salah. Namun, itu membuang banyak informasi yang berguna sehingga bukan praktik yang baik.
Rob Hyndman
2
Sepanjang garis-garis ini, menggunakan kelompok-kelompok ekstrim merancang ukuran efek lebih-perkiraan sedangkan penggunaan rata-rata atau rata-rata membagi efek ukuran di bawah perkiraan.
russellpierce
2
Ini bahkan bukan dosa jika ada dua atau lebih populasi yang berbeda. Misalkan Anda memiliki kelas atau sub-populasi yang dapat dipisah, maka masuk akal untuk melakukan diskritisasi. Contoh yang sangat sepele: Apakah saya lebih suka menggunakan indikator untuk situs / lokasi / kota / negara atau lat / panjang?
Iterator
3
+1 dan itu menjadi dosa serius ketika mereka mulai memilih cutoff dikotomisasi sehingga mengoptimalkan beberapa jenis perbedaan yang kemudian diuji.
Erik
5
@Iterator Anda mulai mendapatkan alasan sebenarnya untuk menggabungkan (ke dua atau lebih kategori), yang karena seseorang memiliki alasan teoritis apriori untuk percaya bahwa varians secara bermakna dikelompokkan ke dalam kategori-kategori tersebut . Sebagai contoh, kita melakukan ini sepanjang waktu dengan mengasumsikan bahwa kumpulan satu triliun sel atau lebih terdiri dari seorang individu , atau bahwa periode 24 jam yang berdekatan di Bumi ini secara bermakna ditafsirkan sebagai satu kesatuan. Tetapi agregasi sewenang-wenang tidak hanya "membuang" informasi (misalnya kekuatan statistik), tetapi dapat menyebabkan bias (serius) tentang hubungan antar fenomena.
Alexis
41

Tidak benar-benar menjawab pertanyaan, tetapi ada seluruh buku tentang hal ini:

Phillip I. Bagus, James William Hardin (2003). Kesalahan umum dalam statistik (dan cara menghindarinya). Wiley. ISBN 9780471460688

onestop
sumber
6
+1 Saya memastikan untuk membaca buku ini segera setelah keluar. Saya mendapatkan banyak kesempatan untuk membuat kesalahan statistik, jadi saya selalu bersyukur untuk menunjukkannya sebelum saya membuatnya!
Whuber
41

Statistik Ritualisasi.

"Dosa" ini adalah ketika Anda menerapkan apa pun yang diajarkan kepada Anda, terlepas dari kesesuaiannya, karena itu adalah bagaimana segala sesuatu dilakukan. Ini statistik dengan menghafal, satu tingkat di atas membiarkan mesin memilih statistik Anda untuk Anda.

Contohnya adalah pengantar siswa tingkat Statistik mencoba untuk membuat semuanya sesuai dengan tes-t sederhana dan toolkit ANOVA, atau setiap kali seseorang menemukan diri mereka pergi "Oh, saya punya data kategorikal, saya harus menggunakan X" tanpa pernah berhenti untuk melihat data, atau pertimbangkan pertanyaan yang diajukan.

Variasi pada dosa ini melibatkan penggunaan kode yang tidak Anda mengerti untuk menghasilkan keluaran yang hanya Anda mengerti, tetapi ketahuilah "kolom kelima, sekitar 8 baris ke bawah" atau apa pun jawaban yang seharusnya Anda cari.

Fomite
sumber
6
Sayangnya, jika Anda tidak tertarik pada kesimpulan statistik, atau kelangkaan waktu dan / atau sumber daya, ritual itu tampaknya sangat menarik ...
probabilityislogic
Bagi saya, deskripsi Epigrad adalah tentang seseorang yang sangat peduli dengan inferensi dan mengabaikan hal-hal seperti refleksi, penemuan, dan pertimbangan kausalitas.
rolando2
35

Mungkin regresi bertahap dan bentuk pengujian lainnya setelah pemilihan model.

Memilih variabel independen untuk pemodelan tanpa memiliki hipotesis apriori di balik hubungan yang ada dapat menyebabkan kesalahan logika atau korelasi palsu, di antara kesalahan lainnya.

Referensi yang berguna (dari perspektif biologis / biostatistik):

  1. Kozak, M., & Azevedo, R. (2011). Apakah menggunakan pemilihan variabel bertahap untuk membangun model analisis jalur sekuensial masuk akal? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham, MJ, Stephens, P., Bradbury, RB, & Freckleton, RP (2006). Mengapa kita masih menggunakan pemodelan bertahap dalam ekologi dan perilaku? Jurnal ekologi hewan, 75 (5), 1182–9. doi: 10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell, Strategi Pemodelan Regresi , Springer 2001.

Ben Bolker
sumber
32

Sesuatu yang saya lihat sangat mengejutkan dalam makalah konferensi dan bahkan jurnal membuat banyak perbandingan (misalnya korelasi bivariat) dan kemudian melaporkan semua p <0,05 sebagai "signifikan" (mengabaikan kebenaran atau kesalahan untuk saat itu).

Saya tahu apa yang Anda maksud tentang lulusan psikologi, juga - saya telah menyelesaikan PhD dalam bidang psikologi dan saya masih baru belajar sebenarnya. Ini sangat buruk, saya pikir psikologi perlu mengambil analisis data kuantitatif lebih serius jika kita akan menggunakannya (yang, jelas, kita harus)

Chris Beeley
sumber
9
Ini sangat penting. Saya ingat membaca sebuah penelitian tentang apakah Ramadhan buruk bagi bayi yang ibunya puasa. Itu tampak masuk akal (lebih sedikit makanan, berat badan lahir rendah), tetapi kemudian saya melihat lampiran. Ribuan hipotesis, dan beberapa persen di antaranya berada dalam kisaran "signifikan". Anda mendapatkan "kesimpulan" yang aneh seperti "itu buruk bagi anak itu jika Ramadhan adalah bulan ke-2, ke-4 atau ke-6".
Carlos
29

Menjelajahi tetapi berpura-pura menjadi konfirmasi. Ini dapat terjadi ketika seseorang memodifikasi strategi analisis (yaitu model pas, pemilihan variabel dan sebagainya) didorong data atau didorong hasil tetapi tidak menyatakan ini secara terbuka dan kemudian hanya melaporkan "terbaik" (yaitu dengan nilai p terkecil) hasil seolah-olah itu satu-satunya analisis. Ini juga berkaitan dengan titik jika beberapa pengujian yang dilakukan Chris Beeley dan menghasilkan tingkat positif palsu yang tinggi dalam laporan ilmiah.

psj
sumber
26

Salah satu yang saya lihat cukup sering dan selalu menggiling gigi saya adalah asumsi bahwa efek utama yang signifikan secara statistik dalam satu kelompok dan efek utama yang tidak signifikan secara statistik pada kelompok lain menyiratkan efek yang signifikan x interaksi kelompok.

rpierce
sumber
24

Terutama dalam epidemiologi dan kesehatan masyarakat - menggunakan aritmatika alih-alih skala logaritmik ketika melaporkan grafik ukuran relatif hubungan (rasio bahaya, rasio peluang atau rasio risiko).

Informasi lebih lanjut di sini .

Radek
sumber
5
Belum lagi tidak memberi label sama sekali xkcd.com/833
radek
23

Korelasi menyiratkan sebab-akibat, yang tidak seburuk menerima Hipotesis Null.

suncoolsu
sumber
tetapi kadang-kadang ... kadang-kadang arah potensial penyebab memiliki probabilitas yang sangat berbeda. Saya tentu tidak akan berpikir bahwa korelasi antara usia dan tinggi dapat disebabkan oleh tinggi badan ... atau beberapa variabel intervensi. Juga, saya pikir ini adalah salah satu yang pelatihan ilmu perilaku umumnya cukup sensitif.
John
memang, menyimpulkan sesuatu dari A and B are correlatedbiasanya hanya melihat A causes Btetapi tidak B causes A... (dan lupakan Cpenyebab Adan B)
Andre Holzner
12
google menghasilkan $ 65 miliar setahun tidak peduli tentang perbedaannya ...
Neil McGuigan
5
Saya setuju dengan poin Anda dan semuanya valid. Tetapi apakah laba Google menyiratkan: korelasi => penyebab?
suncoolsu
3
Google menghasilkan uang sebanyak itu tanpa mempedulikan penyebab sama sekali. Memang, mengapa begitu? Prediksi adalah hal ...
conjugateprior
23

Analisis data laju (akurasi, dll) menggunakan ANOVA, dengan demikian mengasumsikan bahwa data laju memiliki kesalahan terdistribusi Gaussian ketika sebenarnya didistribusikan secara biner. Dixon (2008) memberikan diskusi tentang konsekuensi dari dosa ini dan eksplorasi pendekatan analisis yang lebih tepat.

Mike Lawrence
sumber
4
Seberapa jauh ini mengurangi kekuatan analisis? Dalam kondisi apa yang paling bermasalah? Dalam banyak kasus penyimpangan dari asumsi ANOVA tidak secara substansial mempengaruhi hasil ke tingkat yang penting.
Michael Lew
Apa alternatif melakukan prosedur ANOVA?
Henrik
@Michael Lew & Henrik: Saya baru saja memperbarui entri ini untuk menyertakan tautan ke Dixon (2008)
Mike Lawrence
2
Namun singkatnya, ini paling bermasalah ketika probabilitas yang diamati rendah atau tinggi karena rentang nilai terbatas dan tidak dapat memenuhi asumsi Gaussian.
russellpierce
Ini hanya seburuk perkiraan normal untuk binomial - harus baik-baik saja, asalkan setiap kasus ditimbang oleh penyebut yang digunakan dalam menghitung laju. Akan mengharapkan itu berkinerja buruk untuk tingkat di bawah 10% dan di atas 90%.
probabilityislogic
18

Yang populer saat ini adalah merencanakan interval kepercayaan 95% di sekitar nilai kinerja mentah dalam desain tindakan berulang ketika mereka hanya berhubungan dengan varian efek. Misalnya, sebidang waktu reaksi dalam desain tindakan berulang dengan interval kepercayaan di mana istilah kesalahan berasal dari MSE dari tindakan berulang ANOVA. Interval kepercayaan ini tidak mewakili sesuatu yang masuk akal. Mereka tentu tidak mewakili apa pun tentang waktu reaksi absolut. Anda bisa menggunakan istilah kesalahan untuk menghasilkan interval kepercayaan di sekitar efek tetapi itu jarang dilakukan.

John
sumber
Apakah ada artikel standar yang dapat dikutip untuk mencegah pengulas dari menuntut praktik yang terlalu umum ini?
russellpierce
Satu-satunya kritik yang saya tahu adalah Blouin & Riopelle (2005) tetapi mereka tidak sampai ke inti permasalahan. Saya biasanya tidak bersikeras untuk tidak menunjukkannya tetapi melakukan sesuatu yang benar seperti pada grafik efek Masson & Loftus (2003, lihat gambar 4, panel kanan ... jika mereka dihapus dari kiri Anda akan melakukannya dengan benar ).
John
Hanya untuk memperjelas, masalah dengan CI itu adalah bahwa mereka murni digunakan untuk alasan yang dapat disimpulkan sehubungan dengan perbedaan antara kondisi dan karena itu lebih buruk bahkan daripada PLSD ... sebenarnya saya lebih suka mereka. Setidaknya mereka jujur.
John
17

Sementara saya bisa mengaitkan banyak dengan apa yang dikatakan Michael Lew, meninggalkan nilai p demi rasio kemungkinan masih melewatkan masalah yang lebih umum - yaitu terlalu menekankan hasil probabilistik atas ukuran efek, yang diperlukan untuk memberikan hasil makna substantif. Jenis kesalahan ini datang dalam berbagai bentuk dan ukuran dan menurut saya itu adalah kesalahan statistik yang paling berbahaya. Menggambar pada J. Cohen dan M. Oakes dan yang lainnya, saya telah menulis artikel tentang ini di http://integrativestatistics.com/insidious.htm .

rolando2
sumber
3
Saya sebenarnya tidak jelas bagaimana rasio kemungkinan (LR) tidak mencapai semua yang dicapai oleh efek, sementara juga menggunakan skala yang mudah ditafsirkan (data mengandung X kali lebih banyak bukti untuk Y daripada untuk Z). Ukuran efek biasanya hanya beberapa bentuk rasio yang dijelaskan untuk variabilitas yang tidak dijelaskan, dan (dalam kasus bersarang) LR adalah rasio variabilitas yang tidak dapat dijelaskan antara model yang memiliki efek dan yang tidak. Bukankah seharusnya ada korelasi yang kuat antara ukuran efek dan LR, dan jika demikian, apa yang hilang dengan beralih ke skala rasio kemungkinan?
Mike Lawrence
Mike - Anda membuat saya tertarik, tetapi apakah poin Anda diperluas untuk mempengaruhi ukuran sesederhana perbedaan rata-rata antar kelompok? Ini dapat dengan mudah ditafsirkan oleh orang awam dan juga dapat diberikan interval kepercayaan.
rolando2
Ah, jadi dengan ukuran efek, maksud Anda ukuran efek absolut, nilai yang tidak berarti bagi dirinya sendiri, tetapi itu dapat dibuat bermakna dengan mentransformasikannya menjadi ukuran efek relatif (dengan membaginya dengan beberapa ukuran variabilitas, seperti yang saya sebutkan), atau dengan menghitung interval kepercayaan untuk ukuran efek absolut. Argumen saya di atas berlaku untuk manfaat LR vs ukuran efek relatif. Mungkin ada kegunaan untuk menghitung CI efek dalam kasus-kasus di mana nilai aktual efeknya menarik (mis. Prediksi), tetapi saya masih mendukung LR sebagai skala yang lebih intuitif untuk membicarakan bukti untuk / terhadap efek.
Mike Lawrence
Saya kira penggunaan LR vs CI kemungkinan akan bervariasi sesuai dengan konteksnya, yang dapat diringkas sebagai berikut: Lebih banyak tahap eksplorasi ilmu pengetahuan, di mana teori secara kasar ditandai oleh ada / tidak adanya fenomena, mungkin lebih suka LR untuk mengukur bukti. Di sisi lain, CI mungkin lebih disukai dalam tahap sains yang lebih maju, di mana teori cukup disempurnakan untuk memungkinkan prediksi yang bernuansa termasuk rentang efek yang diharapkan atau, sebaliknya, ketika berbagai rentang efek magnitudo mendukung teori yang berbeda. Akhirnya, prediksi yang dihasilkan dari model apa pun membutuhkan CI.
Mike Lawrence
0|β|=1|β|>1|β|1β=0β0
15

Gagal menguji asumsi bahwa kesalahan terdistribusi secara normal dan memiliki varians yang konstan di antara perawatan. Asumsi-asumsi ini tidak selalu diuji, sehingga pemasangan model kuadrat-terkecil mungkin sering digunakan ketika sebenarnya tidak sesuai.

jebyrnes
sumber
11
Apa yang tidak pantas tentang estimasi kuadrat terkecil ketika data tidak normal atau heteroskedastik? Ini tidak sepenuhnya efisien, tetapi masih tidak bias dan konsisten.
Rob Hyndman
3
Jika datanya heteroskedastik, Anda dapat berakhir dengan prediksi sampel yang sangat rendah karena model regresi akan berusaha terlalu keras untuk meminimalkan kesalahan pada sampel di area dengan varian tinggi dan tidak cukup keras pada sampel dari area dengan varian rendah. Ini berarti Anda dapat berakhir dengan model yang sangat bias. Ini juga berarti bahwa bar kesalahan pada prediksi akan salah.
Dikran Marsupial
6
Tidak, ini tidak bias, tetapi variansnya lebih besar daripada jika Anda menggunakan metode yang lebih efisien untuk alasan yang Anda jelaskan. Ya, interval prediksi salah.
Rob Hyndman
4
Ya (saya menggunakan bias dalam bahasa sehari-hari daripada pengertian statistik untuk berarti model itu secara sistematis bias terhadap pengamatan di daerah varian tinggi dari ruang fitur - mea culpa!) - akan lebih akurat untuk mengatakan bahwa varian berarti lebih tinggi ada kemungkinan peningkatan mendapatkan model yang buruk menggunakan dataset yang terbatas. Itu sepertinya jawaban yang masuk akal untuk pertanyaan Anda. Saya tidak benar-benar melihat ketidakberpihakan sebagai kenyamanan yang banyak - yang penting adalah model harus memberikan prediksi yang baik pada data yang sebenarnya saya miliki dan seringkali varians lebih penting.
Dikran Marsupial
14

Kursus psikometri intro saya di tingkat sarjana menghabiskan setidaknya dua minggu mengajar bagaimana melakukan regresi bertahap. Apakah ada situasi di mana regresi bertahap adalah ide yang bagus?

Christopher Aden
sumber
6
"Ide bagus" tergantung situasi. Saat Anda ingin memaksimalkan prediksi, itu bukan ide yang buruk - meskipun mungkin akan menyebabkannya terlalu pas. Ada beberapa kasus langka di mana hal itu tidak dapat dihindari - di mana tidak ada teori untuk memandu pemilihan model. Saya tidak akan menghitung regresi bertahap sebagai "dosa" tetapi menggunakannya ketika teori cukup untuk mendorong pemilihan model.
russellpierce
20
Mungkin dosa melakukan tes statistik pada model yang diperoleh melalui regresi bertahap.
Rob Hyndman
3
Tidak masalah jika Anda menggunakan validasi silang, dan jangan memperkirakan. Jangan mempublikasikan nilai-p, karena tidak ada artinya.
Neil McGuigan
Saya sedang mengerjakan proyek yang menggunakan regresi bertahap. Alasannya adalah karena saya memiliki D >> N, di mana D adalah dimensi dan N adalah ukuran sampel (sehingga mengesampingkan menggunakan satu model dengan semua variabel), himpunan bagian dari fitur sangat berkorelasi satu sama lain, saya ingin cara yang berprinsip secara statistik. memilih mungkin 2-3 fitur "terbaik", dan saya tidak bermaksud melaporkan nilai-P, setidaknya tanpa semacam koreksi yang cukup konservatif.
dsimcha
12

Statistik lama saya prof memiliki "aturan praktis" untuk berurusan dengan pencilan: Jika Anda melihat pencilan di sebar Anda, tutupilah dengan ibu jari Anda :)

Neil McGuigan
sumber
Ini mirip dengan Kemenangan yang tidak terlalu mengerikan.
Ari B. Friedman
12

Ini mungkin lebih merupakan jawaban pop-statistik daripada yang Anda cari, tetapi:

Menggunakan mean sebagai indikator lokasi ketika data sangat miring .

Ini tidak selalu menjadi masalah, jika Anda dan audiens Anda tahu apa yang Anda bicarakan, tetapi ini biasanya bukan masalahnya, dan median sering kali memberikan ide yang lebih baik tentang apa yang sedang terjadi.

Contoh favorit saya adalah upah rata-rata, yang biasanya dilaporkan sebagai "upah rata-rata". Tergantung pada ketimpangan pendapatan / kekayaan di suatu negara, ini bisa sangat berbeda dari upah median, yang memberikan indikator yang jauh lebih baik untuk tempat orang berada dalam kehidupan nyata. Misalnya, di Australia, di mana kami memiliki ketimpangan yang relatif rendah, median adalah 10-15% lebih rendah dari rata-rata . Di AS perbedaannya jauh lebih tajam , median kurang dari 70% dari rata-rata, dan kesenjangan meningkat.

Melaporkan upah "rata-rata" (rata-rata) menghasilkan gambaran yang lebih cerah daripada yang dibenarkan, dan juga bisa memberi kesan palsu pada banyak orang bahwa mereka tidak menghasilkan sebanyak orang "normal".

naught101
sumber
Ada diskusi semi-terkait tentang ini yang berlaku untuk analisis tren di sini: tamino.wordpress.com/2012/03/29/…
naught101
2
Ini tidak hanya terkait dengan kemiringan, tetapi merupakan masalah umum bahwa rata-rata, atau ukuran lain dari kecenderungan sentral tidak cukup tanpa mempertimbangkan dispersi. Sebagai contoh, jika median dari dua kelompok adalah sama, tetapi kisaran antar kuartil adalah 100 kali lebih besar untuk satu populasi. Hanya dengan melihat median, Anda akan mengatakan mereka adalah "distribusi populasi yang sama", padahal kenyataannya mereka akan sangat berbeda. Belum lagi beberapa mode menciptakan masalah ...
probabilityislogic
Tetapi, untuk beberapa tujuan rata - rata relevan: upah adalah variabel yang luas , artinya jumlah upah bermakna. Untuk pertanyaan di mana pendapatan upah total dari beberapa (sub) kelompok relevan, berarti adalah hal yang benar: Total dapat dipulihkan dari rata-rata, bukan dari median.
kjetil b halvorsen
@kjetilbhalvorsen: Mengapa tidak menggunakan total saja?
naught101
n
10

Bahwa nilai-p adalah probabilitas bahwa hipotesis nol itu benar dan (1-p) adalah probabilitas bahwa hipotesis alternatif itu benar, dari yang gagal menolak hipotesis nol berarti hipotesis alternatif itu salah, dll.

Dikran Marsupial
sumber
1
1
Menarik, dapatkah Anda memberi saya referensi untuk membacanya?
Dikran Marsupial
2
(ini dia) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] secara pribadi, sementara saya merasa itu menarik, saya bergumul dengan pertanyaan mengapa distribusi posterior rasio kemungkinan adalah kuantitas dari bunga.
probabilityislogic
10

Dalam nada yang sama dengan @dirkan - Penggunaan nilai p sebagai ukuran formal bukti hipotesis nol menjadi benar. Itu memang memiliki beberapa fitur heuristik yang baik dan secara intuitif baik, tetapi pada dasarnya ukuran bukti yang tidak lengkap karena tidak membuat referensi ke hipotesis alternatif. Sementara data mungkin tidak mungkin di bawah nol (mengarah ke nilai-p kecil), data mungkin bahkan lebih tidak mungkin di bawah hipotesis alternatif.

probabilityislogic
sumber
Saya tidak menjawab karena saya tidak mau repot memikirkan satu dan dalam hal ini memeriksa semua yang sudah diberikan untuk memastikan saya tidak mengulanginya! Tapi saya pikir saya bisa membantu. Ada sebuah buku karya Good and Hardin yang berjudul "Kesalahan Umum dalam Statistik dan Cara Menghindarinya." Anda dapat menemukan banyak contoh bagus di sana. Ini adalah buku populer yang sudah memasuki edisi keempat.
Michael Chernick
Juga buku Altman dengan Chapman & Hall / CRC "Statistik Praktis dalam Penelitian Medis" memiliki bab tentang literatur medis di mana banyak dosa statistik terungkap yang terjadi dalam makalah yang diterbitkan.
Michael Chernick
9

Menggunakan diagram lingkaran untuk menggambarkan frekuensi relatif. Lebih lanjut di sini .

Andrej
sumber
2
Akan lebih baik untuk memasukkan beberapa alasan di tempat.
naught101
9

Menggunakan statistik / probabilitas dalam pengujian hipotesis untuk mengukur "kebenaran absolut". Statistik tidak bisa melakukan ini, mereka hanya bisa digunakan dalam memutuskan antara alternatif , yang harus ditentukan dari "di luar" paradigma statistik. Pernyataan seperti "hipotesis nol dibuktikan benar oleh statistik" adalah tidak benar; statistik hanya dapat memberi tahu Anda "hipotesis nol lebih disukai oleh data, dibandingkan dengan hipotesis alternatif". Jika Anda kemudian berasumsi bahwa hipotesis nol atau alternatifnya harus benar, Anda dapat mengatakan "nol terbukti benar", tetapi ini hanya konsekuensi sepele dari asumsi Anda, bukan apa pun yang ditunjukkan oleh data.

probabilityislogic
sumber
9

α=0.05

Dan mirip dengan (atau hampir sama dengan) jawaban @ ogrisel , melakukan pencarian Grid dan melaporkan hanya hasil terbaik.

Andrew
sumber
Saya pikir Anda bermaksud menghubungkan ke komik yang berbeda, meskipun itu komik yang abadi.
rolando2
Mungkin, jika saya ingat dengan cukup baik apa yang ada dalam pikiran saya saat itu: xkcd.com/882
Andrew
8

(Dengan sedikit keberuntungan ini akan menjadi kontroversial.)

Menggunakan pendekatan Neyman-Pearson untuk analisis statistik percobaan ilmiah. Atau, lebih buruk lagi, menggunakan hibrida Neyman-Pearson dan Fisher yang tidak jelas.

Michael Lew
sumber
maaf tidak tahu, tapi apa yang salah dengan konstruksi Neyman-Pearson untuk analisis (hasil) eksperimen ilmiah?
Andre Holzner
@Andre Saya pikir komentar ini mungkin terkait erat dengan yang lain yang ditawarkan oleh @Michael Lew di tempat lain di utas ini ( stats.stackexchange.com/questions/4551/… ).
whuber
8

Meminta, dan mungkin mendapatkan Diagram Alir : Hal grafis di mana Anda mengatakan apa tingkat variabel Anda dan jenis hubungan yang Anda cari, dan Anda mengikuti panah ke bawah untuk mendapatkan Tes Nama Merek atau Statistik Nama Merek . Terkadang ditawarkan dengan jalur misterius 'parametrik' dan 'non-parametrik'.

conjugateprior
sumber