Kumpulan data dibuat untuk tujuan yang serupa dengan kuartet Anscombe

32

Saya baru saja menemukan kuartet Anscombe (empat dataset yang memiliki statistik deskriptif yang hampir tidak dapat dibedakan tetapi terlihat sangat berbeda ketika diplot) dan saya ingin tahu apakah ada dataset lain yang kurang lebih terkenal yang telah dibuat untuk menunjukkan pentingnya aspek-aspek tertentu analisis statistik.

Hibernating
sumber
3
Situs ini harus memiliki beberapa ratus set data seperti itu sekarang, jika tidak lebih, tersebar di seluruh jawabannya. Meskipun tidak ada cara sistematis untuk mencarinya, pandangan cepat pada utas dengan penilaian tertinggi untuk tag populer seperti tag regresi akan muncul banyak: coba pencarian ini .
whuber
2
dari beberapa relevansi langsung blog.revolutionanalytics.com/2017/05/the-datasaurus-dozen.html
Hibernasi

Jawaban:

30

Kumpulan data yang bertindak sebagai contoh tandingan terhadap kesalahpahaman populer * memang ada - saya telah membuat banyak sendiri dalam berbagai keadaan, tetapi sebagian besar dari mereka tidak akan menarik bagi Anda, saya yakin.

* (yang dilakukan oleh data Anscombe, karena ini merupakan respons terhadap orang yang beroperasi di bawah kesalahpahaman bahwa kualitas model dapat dilihat dari statistik identik yang Anda sebutkan)

Saya akan menyertakan beberapa di sini yang mungkin lebih menarik daripada sebagian besar yang saya hasilkan:

1) Salah satu contoh (dari beberapa) adalah beberapa contoh distribusi diskrit (dan dengan demikian kumpulan data) yang saya buat untuk melawan pernyataan umum bahwa nol kemiringan momen ketiga menyiratkan simetri. ( Teori Statistik Lanjutan Kendall dan Stuart menawarkan keluarga berkelanjutan yang lebih mengesankan.)

Berikut adalah salah satu contoh distribusi diskrit:

x-415P(X=x)2/63/61/6

(Dengan demikian, set data untuk sampel balik dalam kasus sampel jelas: )-4,-4,1,1,1,5

Seperti yang Anda lihat, distribusi ini tidak simetris, namun kemiringan momen ketiga adalah nol. Demikian pula, seseorang dapat dengan mudah membangun contoh tandingan ke pernyataan yang serupa sehubungan dengan ukuran kemiringan kedua yang paling umum, koefisien kecondongan Pearson kedua ( ).3(meSebuahn-medsayaSebuahnσ)

Memang saya juga telah datang dengan distribusi dan / atau set data yang dua ukurannya berlawanan - yang cukup untuk melawan gagasan bahwa kemiringan adalah konsep tunggal, mudah dipahami, daripada gagasan yang agak licin, kita tidak benar-benar tahu bagaimana mengukur secara tepat dalam banyak kasus.

2) Ada satu set data yang dibangun dalam plot Box-and-whisker jawaban ini untuk distribusi multimodal , mengikuti pendekatan Choonpradub & McNeil (2005), yang menunjukkan empat set data yang tampak sangat berbeda dengan boxplot yang sama.

masukkan deskripsi gambar di sini

Secara khusus, distribusi miring yang jelas dengan plot box simetris cenderung mengejutkan orang.

3) Ada beberapa koleksi set data counterexample yang saya buat sebagai tanggapan terhadap ketergantungan berlebihan orang pada histogram, terutama dengan hanya beberapa nampan dan hanya pada satu nampan lebar dan nampan asal; yang mengarah pada pernyataan keyakinan yang salah tentang bentuk distribusi. Kumpulan data ini dan contoh tampilan dapat ditemukan di sini

Inilah salah satu contoh dari sana. Ini datanya:

  1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62

Dan inilah dua histogram:

Miring vs bel

Itulah 34 pengamatan di atas dalam kedua kasus, hanya dengan breakpoint yang berbeda, satu dengan binwidth dan yang lainnya dengan binwidth . Plot dihasilkan dalam R sebagai berikut:0.810.8

x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)

4) Saya baru-baru ini membangun beberapa set data untuk menunjukkan intransitivitas dari tes Wilcoxon-Mann-Whitney - yaitu, untuk menunjukkan bahwa seseorang mungkin menolak alternatif satu arah untuk masing-masing dari tiga atau empat pasang set data, A, B, dan C, (dan D dalam empat contoh kasus) sehingga orang menyimpulkan bahwa (yaitu menyimpulkan bahwa B cenderung lebih besar dari A), dan juga untuk C terhadap B , dan A terhadap C (atau D melawan C dan A melawan D untuk 4 contoh kasus); masing-masing cenderung lebih besar (dalam arti bahwa ia memiliki lebih dari peluang bahkan lebih besar) daripada yang sebelumnya dalam siklus.P(B>SEBUAH)>12

Berikut adalah satu set data tersebut, dengan 30 pengamatan di setiap sampel, berlabel A ke D:

       1     2     3     4     5     6     7     8     9    10    11    12
 A  1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 B  3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 C  6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50

      13    14    15    16    17    18    19    20    21    22    23    24
 A  1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 B  3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 C  6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65

      25    26    27    28    29    30
 A  1.42  2.56 16.73 17.01 18.86 19.98
 B  3.44  4.13  6.00 20.85 21.82 22.05
 C  6.57  7.58  8.81  9.08 23.43 24.45
 D 10.29 11.48 12.19 13.09 14.68 15.36

Berikut ini contoh tes:

> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)

    Wilcoxon rank sum test

data:  adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
      -Inf -1.336372
sample estimates:
difference in location 
             -2.500199 

Seperti yang Anda lihat, tes satu sisi menolak nol; nilai-nilai dari A cenderung lebih kecil dari nilai-nilai dari B. Kesimpulan yang sama (pada nilai-p yang sama) berlaku untuk B vs C, C vs D dan D vs A. Siklus penolakan ini, dengan sendirinya, tidak secara otomatis menjadi masalah , jika kita tidak menafsirkannya berarti sesuatu yang tidak. (Ini masalah sederhana untuk mendapatkan nilai p yang jauh lebih kecil dengan sampel yang serupa, tetapi lebih besar.)

"Paradoks" yang lebih besar di sini muncul ketika Anda menghitung interval (satu sisi dalam kasus ini) untuk pergeseran lokasi - dalam setiap kasus 0 dikecualikan (intervalnya tidak identik dalam setiap kasus). Ini membawa kita pada kesimpulan bahwa ketika kita bergerak melintasi kolom data dari A ke B ke C ke D, lokasi bergerak ke kanan, namun hal yang sama terjadi lagi ketika kita kembali ke A.

Dengan versi yang lebih besar dari kumpulan data ini (distribusi nilai yang serupa, tetapi lebih banyak dari mereka), kita bisa mendapatkan signifikansi (satu atau dua ekor) pada tingkat signifikansi yang lebih kecil, sehingga seseorang dapat menggunakan penyesuaian Bonferroni misalnya, dan masih menyimpulkan masing-masing kelompok berasal dari distribusi yang bergeser dari yang berikutnya.

Ini menunjukkan kepada kita, antara lain, bahwa penolakan di Wilcoxon-Mann-Whitney tidak dengan sendirinya secara otomatis membenarkan klaim pergeseran lokasi.

(Meskipun ini bukan kasus untuk data ini, juga memungkinkan untuk membuat set di mana rata-rata sampel konstan, sementara hasil seperti di atas berlaku.)

Ditambahkan dalam edit nanti: Referensi yang sangat informatif dan mendidik tentang hal ini

Brown BM, dan Hettmansperger TP. (2002)
Kruskal-Wallis, beberapa comaprison dan dadu Efron.
Aust & N.ZJ Stat. , 44 , 427–438.

5) Pasangan lain dari counterexamples terkait datang ke sini - di mana ANOVA mungkin signifikan, tetapi semua perbandingan berpasangan tidak (diartikan dua cara yang berbeda di sana, menghasilkan counterexamples yang berbeda).


Jadi ada beberapa set data counterexample yang bertentangan dengan kesalahpahaman yang mungkin ditemui.

Seperti yang mungkin Anda tebak, saya sering membuat contoh tandingan semacam itu secara wajar (seperti halnya banyak orang lain), biasanya ketika diperlukan. Untuk beberapa kesalahpahaman umum ini, Anda dapat mengkarakterisasi contoh tandingan sedemikian rupa sehingga yang baru dapat dihasilkan sesuka hati (meskipun lebih sering, tingkat pekerjaan tertentu dilibatkan).

Jika ada hal-hal tertentu yang Anda mungkin tertarik, saya mungkin dapat menemukan lebih banyak set seperti itu (milik saya atau orang lain), atau mungkin bahkan membangun beberapa.


Salah satu trik yang berguna untuk menghasilkan data regresi acak yang memiliki koefisien yang Anda inginkan adalah sebagai berikut (bagian dalam tanda kurung adalah garis besar kode R):

a) mengatur koefisien yang Anda inginkan tanpa suara ( y = b0 + b1 * x1 + b2 * x2)

b) menghasilkan istilah kesalahan dengan karakteristik yang diinginkan ( n = rnorm(length(y),s=0.4)

c) mengatur regresi noise pada x yang sama ( nfit = lm(n~x1+x2))

d) tambahkan residu dari itu ke variabel y ( y = y + nfit$residuals)

Selesai (Semuanya sebenarnya dapat dilakukan dalam beberapa baris R)

Glen_b
sumber
6
0,0,1,1,1,1,3 adalah contoh tandingan terhadap pernyataan umum yang berarti, median dan mode bertepatan menyiratkan distribusi simetris, meskipun binomial seperti sepertinya lebih baik. (10k)0,1k0,910-k,k=0,...,10
Nick Cox
@Glen_b terima kasih. Sebaliknya, sangat, sangat menarik. Sebagai contoh, saya baru saja menyimpan file bernama sturges.R dengan data Anda x dan baris kode berikut: hist (x, col = "green3", freq = FALSE); hist (x, breaks = "Scott", col = "aquamarine", freq = FALSE); hist (x, breaks = "FD", col = "darkgreen", freq = FALSE) Saya tahu beberapa orang gagal meyakinkan komunitas R untuk tidak menggunakan aturan Sturges sebagai default untuk jumlah sel - contoh Anda mungkin adalah argumen yang lebih meyakinkan daripada catatan teoretis yang tidak dipublikasikan oleh Rob Hyndman.
Hibernasi
@Hibernating Permintaan maaf saya karena kurang jelas - saya memilih yang menarik yang terpikir oleh saya. Seperti yang saya katakan, menghasilkan contoh tandingan muncul secara teratur, tetapi kebanyakan dari mereka tidak akan menarik (di luar audiens langsung mereka). Kadang ada beberapa, jadi saya sebutkan semua yang bisa saya pikirkan. Jika saya akan membangun contoh untuk menunjukkan masalah dengan aturan Sturges, saya akan membuat contoh berbeda dengan itu. (Saya pikir nilai utama contoh adalah dengan jelas menunjukkan bahwa Anda tidak boleh bergantung pada satu aturan sama sekali, dan umumnya harus bersandar pada lebih banyak sampah daripada aturan umum.)
Glen_b -Reinstate Monica
2
@NickCox Counterexample yang lebih kecil untuk "mean = median = mode menyiratkan simetri" adalah -2, -1, 0, 0, 3 yang saya buat untuk pertanyaan ini . Saya menduga adalah yang sekecil mungkin, karena kami menggunakan dua titik data untuk membentuk mode, titik berbeda ketiga akan merusak mean = median, dan saya pikir poin keempat bisa mengembalikan mean = median = mode hanya dengan ditempatkan secara simetris. Bagaimanapun, contoh binomial Anda lebih memuaskan karena tampaknya kurang dibuat-buat! n=5
Silverfish
16

Berkenaan dengan menghasilkan set data (misalnya milik Anda sendiri) untuk tujuan serupa, Anda mungkin tertarik pada:

Sejauh dataset yang hanya digunakan untuk menunjukkan fenomena rumit / kontra-intuitif dalam statistik, ada banyak, tetapi Anda perlu menentukan fenomena apa yang ingin Anda tunjukkan. Misalnya, sehubungan dengan menunjukkan paradoks Simpson , dataset kasus bias gender Berkeley sangat terkenal.

Untuk diskusi hebat tentang dataset yang paling terkenal, lihat: Aspek apa dari kumpulan data "Iris" yang membuatnya sangat sukses sebagai contoh / kumpulan data pengajaran / tes .

gung
sumber
1

Dalam makalah "Mari kita Menempatkan Regresi Sampah-Sampah dan Kemungkinan Sampah-Sampah Dimana Mereka Milik" (C. Achen, 2004) penulis membuat set data sintetis dengan non-linearitas yang dimaksudkan untuk mencerminkan kasus kehidupan nyata ketika data mungkin mengalami kesalahan pengkodean selama pengukuran (misalnya distorsi dalam menetapkan data ke nilai kategorikal, atau prosedur kuantisasi yang salah).

Data sintetis dibuat dari hubungan linier sempurna dengan dua koefisien positif, tetapi begitu Anda menerapkan kesalahan pengkodean non-linier, teknik regresi standar akan menghasilkan koefisien yang bertanda salah dan juga signifikan secara statistik (dan akan menjadi lebih jika Anda bootstrap kumpulan data sintetis yang lebih besar).

Walaupun ini hanya kumpulan data sintetik kecil, makalah ini menyajikan sanggahan besar tentang naif "buang semua yang dapat saya pikirkan di sisi kanan" jenis regresi, menunjukkan bahwa dengan bahkan non-linearitas kecil / halus (yang sebenarnya cukup umum dalam hal-hal seperti kesalahan pengkodean atau kesalahan kuantisasi), Anda bisa mendapatkan hasil yang sangat menyesatkan jika Anda hanya mempercayai output dari analisis tombol-push regresi standar.

Ely
sumber