Saya baru saja menemukan kuartet Anscombe (empat dataset yang memiliki statistik deskriptif yang hampir tidak dapat dibedakan tetapi terlihat sangat berbeda ketika diplot) dan saya ingin tahu apakah ada dataset lain yang kurang lebih terkenal yang telah dibuat untuk menunjukkan pentingnya aspek-aspek tertentu analisis statistik.
regression
data-visualization
dataset
Hibernating
sumber
sumber
Jawaban:
Kumpulan data yang bertindak sebagai contoh tandingan terhadap kesalahpahaman populer * memang ada - saya telah membuat banyak sendiri dalam berbagai keadaan, tetapi sebagian besar dari mereka tidak akan menarik bagi Anda, saya yakin.
* (yang dilakukan oleh data Anscombe, karena ini merupakan respons terhadap orang yang beroperasi di bawah kesalahpahaman bahwa kualitas model dapat dilihat dari statistik identik yang Anda sebutkan)
Saya akan menyertakan beberapa di sini yang mungkin lebih menarik daripada sebagian besar yang saya hasilkan:
1) Salah satu contoh (dari beberapa) adalah beberapa contoh distribusi diskrit (dan dengan demikian kumpulan data) yang saya buat untuk melawan pernyataan umum bahwa nol kemiringan momen ketiga menyiratkan simetri. ( Teori Statistik Lanjutan Kendall dan Stuart menawarkan keluarga berkelanjutan yang lebih mengesankan.)
Berikut adalah salah satu contoh distribusi diskrit:
(Dengan demikian, set data untuk sampel balik dalam kasus sampel jelas: )- 4 , - 4 , 1 , 1 , 1 , 5
Seperti yang Anda lihat, distribusi ini tidak simetris, namun kemiringan momen ketiga adalah nol. Demikian pula, seseorang dapat dengan mudah membangun contoh tandingan ke pernyataan yang serupa sehubungan dengan ukuran kemiringan kedua yang paling umum, koefisien kecondongan Pearson kedua ( ).3 ( m e a n - m e di a nσ)
Memang saya juga telah datang dengan distribusi dan / atau set data yang dua ukurannya berlawanan - yang cukup untuk melawan gagasan bahwa kemiringan adalah konsep tunggal, mudah dipahami, daripada gagasan yang agak licin, kita tidak benar-benar tahu bagaimana mengukur secara tepat dalam banyak kasus.
2) Ada satu set data yang dibangun dalam plot Box-and-whisker jawaban ini untuk distribusi multimodal , mengikuti pendekatan Choonpradub & McNeil (2005), yang menunjukkan empat set data yang tampak sangat berbeda dengan boxplot yang sama.
Secara khusus, distribusi miring yang jelas dengan plot box simetris cenderung mengejutkan orang.
3) Ada beberapa koleksi set data counterexample yang saya buat sebagai tanggapan terhadap ketergantungan berlebihan orang pada histogram, terutama dengan hanya beberapa nampan dan hanya pada satu nampan lebar dan nampan asal; yang mengarah pada pernyataan keyakinan yang salah tentang bentuk distribusi. Kumpulan data ini dan contoh tampilan dapat ditemukan di sini
Inilah salah satu contoh dari sana. Ini datanya:
Dan inilah dua histogram:
Itulah 34 pengamatan di atas dalam kedua kasus, hanya dengan breakpoint yang berbeda, satu dengan binwidth dan yang lainnya dengan binwidth . Plot dihasilkan dalam R sebagai berikut:0.81 0.8
4) Saya baru-baru ini membangun beberapa set data untuk menunjukkan intransitivitas dari tes Wilcoxon-Mann-Whitney - yaitu, untuk menunjukkan bahwa seseorang mungkin menolak alternatif satu arah untuk masing-masing dari tiga atau empat pasang set data, A, B, dan C, (dan D dalam empat contoh kasus) sehingga orang menyimpulkan bahwa (yaitu menyimpulkan bahwa B cenderung lebih besar dari A), dan juga untuk C terhadap B , dan A terhadap C (atau D melawan C dan A melawan D untuk 4 contoh kasus); masing-masing cenderung lebih besar (dalam arti bahwa ia memiliki lebih dari peluang bahkan lebih besar) daripada yang sebelumnya dalam siklus.P( B > A ) > 12
Berikut adalah satu set data tersebut, dengan 30 pengamatan di setiap sampel, berlabel A ke D:
Berikut ini contoh tes:
Seperti yang Anda lihat, tes satu sisi menolak nol; nilai-nilai dari A cenderung lebih kecil dari nilai-nilai dari B. Kesimpulan yang sama (pada nilai-p yang sama) berlaku untuk B vs C, C vs D dan D vs A. Siklus penolakan ini, dengan sendirinya, tidak secara otomatis menjadi masalah , jika kita tidak menafsirkannya berarti sesuatu yang tidak. (Ini masalah sederhana untuk mendapatkan nilai p yang jauh lebih kecil dengan sampel yang serupa, tetapi lebih besar.)
"Paradoks" yang lebih besar di sini muncul ketika Anda menghitung interval (satu sisi dalam kasus ini) untuk pergeseran lokasi - dalam setiap kasus 0 dikecualikan (intervalnya tidak identik dalam setiap kasus). Ini membawa kita pada kesimpulan bahwa ketika kita bergerak melintasi kolom data dari A ke B ke C ke D, lokasi bergerak ke kanan, namun hal yang sama terjadi lagi ketika kita kembali ke A.
Dengan versi yang lebih besar dari kumpulan data ini (distribusi nilai yang serupa, tetapi lebih banyak dari mereka), kita bisa mendapatkan signifikansi (satu atau dua ekor) pada tingkat signifikansi yang lebih kecil, sehingga seseorang dapat menggunakan penyesuaian Bonferroni misalnya, dan masih menyimpulkan masing-masing kelompok berasal dari distribusi yang bergeser dari yang berikutnya.
Ini menunjukkan kepada kita, antara lain, bahwa penolakan di Wilcoxon-Mann-Whitney tidak dengan sendirinya secara otomatis membenarkan klaim pergeseran lokasi.
(Meskipun ini bukan kasus untuk data ini, juga memungkinkan untuk membuat set di mana rata-rata sampel konstan, sementara hasil seperti di atas berlaku.)
Ditambahkan dalam edit nanti: Referensi yang sangat informatif dan mendidik tentang hal ini
Brown BM, dan Hettmansperger TP. (2002)
Kruskal-Wallis, beberapa comaprison dan dadu Efron.
Aust & N.ZJ Stat. , 44 , 427–438.
5) Pasangan lain dari counterexamples terkait datang ke sini - di mana ANOVA mungkin signifikan, tetapi semua perbandingan berpasangan tidak (diartikan dua cara yang berbeda di sana, menghasilkan counterexamples yang berbeda).
Jadi ada beberapa set data counterexample yang bertentangan dengan kesalahpahaman yang mungkin ditemui.
Seperti yang mungkin Anda tebak, saya sering membuat contoh tandingan semacam itu secara wajar (seperti halnya banyak orang lain), biasanya ketika diperlukan. Untuk beberapa kesalahpahaman umum ini, Anda dapat mengkarakterisasi contoh tandingan sedemikian rupa sehingga yang baru dapat dihasilkan sesuka hati (meskipun lebih sering, tingkat pekerjaan tertentu dilibatkan).
Jika ada hal-hal tertentu yang Anda mungkin tertarik, saya mungkin dapat menemukan lebih banyak set seperti itu (milik saya atau orang lain), atau mungkin bahkan membangun beberapa.
Salah satu trik yang berguna untuk menghasilkan data regresi acak yang memiliki koefisien yang Anda inginkan adalah sebagai berikut (bagian dalam tanda kurung adalah garis besar kode R):
a) mengatur koefisien yang Anda inginkan tanpa suara (
y = b0 + b1 * x1 + b2 * x2
)b) menghasilkan istilah kesalahan dengan karakteristik yang diinginkan (
n = rnorm(length(y),s=0.4
)c) mengatur regresi noise pada x yang sama (
nfit = lm(n~x1+x2)
)d) tambahkan residu dari itu ke variabel y (
y = y + nfit$residuals
)Selesai (Semuanya sebenarnya dapat dilakukan dalam beberapa baris R)
sumber
Berkenaan dengan menghasilkan set data (misalnya milik Anda sendiri) untuk tujuan serupa, Anda mungkin tertarik pada:
Sejauh dataset yang hanya digunakan untuk menunjukkan fenomena rumit / kontra-intuitif dalam statistik, ada banyak, tetapi Anda perlu menentukan fenomena apa yang ingin Anda tunjukkan. Misalnya, sehubungan dengan menunjukkan paradoks Simpson , dataset kasus bias gender Berkeley sangat terkenal.
Untuk diskusi hebat tentang dataset yang paling terkenal, lihat: Aspek apa dari kumpulan data "Iris" yang membuatnya sangat sukses sebagai contoh / kumpulan data pengajaran / tes .
sumber
Dalam makalah "Mari kita Menempatkan Regresi Sampah-Sampah dan Kemungkinan Sampah-Sampah Dimana Mereka Milik" (C. Achen, 2004) penulis membuat set data sintetis dengan non-linearitas yang dimaksudkan untuk mencerminkan kasus kehidupan nyata ketika data mungkin mengalami kesalahan pengkodean selama pengukuran (misalnya distorsi dalam menetapkan data ke nilai kategorikal, atau prosedur kuantisasi yang salah).
Data sintetis dibuat dari hubungan linier sempurna dengan dua koefisien positif, tetapi begitu Anda menerapkan kesalahan pengkodean non-linier, teknik regresi standar akan menghasilkan koefisien yang bertanda salah dan juga signifikan secara statistik (dan akan menjadi lebih jika Anda bootstrap kumpulan data sintetis yang lebih besar).
Walaupun ini hanya kumpulan data sintetik kecil, makalah ini menyajikan sanggahan besar tentang naif "buang semua yang dapat saya pikirkan di sisi kanan" jenis regresi, menunjukkan bahwa dengan bahkan non-linearitas kecil / halus (yang sebenarnya cukup umum dalam hal-hal seperti kesalahan pengkodean atau kesalahan kuantisasi), Anda bisa mendapatkan hasil yang sangat menyesatkan jika Anda hanya mempercayai output dari analisis tombol-push regresi standar.
sumber