Dataset Anscombe-like dengan plot kotak dan kumis yang sama (mean / std / median / MAD / min / max)

21

EDIT: Karena pertanyaan ini telah meningkat, ringkasan: menemukan set data yang bermakna dan dapat ditafsirkan berbeda dengan statistik campuran yang sama (rata-rata, median, midrange dan dispersinya yang terkait, dan regresi).

Kuartet Anscombe (lihat Tujuan memvisualisasikan data dimensi tinggi? ) Adalah contoh terkenal dari empat dataset - , dengan rata-rata marginal / standar deviasi yang sama (pada empat dan empat , secara terpisah) dan kesesuaian linear OLS yang sama , regresi dan jumlah kuadrat residu, dan koefisien korelasi . The -jenis statistik (marginal dan sendi) dengan demikian sama, sedangkan dataset sangat berbeda.xx yyxy2R22

Kuartet Anscombe

EDIT (dari komentar OP) Membiarkan ukuran dataset kecil terpisah, izinkan saya mengusulkan beberapa interpretasi. Set 1 dapat dilihat sebagai hubungan linear standar (affine, to be correct) dengan noise terdistribusi. Set 2 menunjukkan hubungan yang bersih yang bisa menjadi puncak dari kecocokan derajat yang lebih tinggi. Set 3 menunjukkan ketergantungan statistik linier yang jelas dengan satu outlier. Set 4 lebih rumit: upaya untuk "memprediksi" dari tampaknya gagal. Desain dapat mengungkapkan fenomena histeresis dengan rentang nilai yang tidak mencukupi, efek kuantisasi ( dapat dikuantifikasi terlalu banyak), atau pengguna telah mengganti variabel dependen dan independen.x x xyxxx

Jadi fitur ringkasan menyembunyikan perilaku yang sangat berbeda. Set 2 bisa lebih baik ditangani dengan polinomial fit. Set 3 dengan metode tahan outlier ( atau sejenisnya), serta Set 4. Orang mungkin bertanya-tanya apakah fungsi biaya lain atau indikator perbedaan dapat diselesaikan, atau setidaknya meningkatkan diskriminasi dataset. EDIT (dari komentar OP): posting blog Regresi Curious menyatakan bahwa:121

Secara kebetulan, saya diberi tahu bahwa Frank Anscombe tidak pernah mengungkapkan bagaimana dia menghasilkan set data ini. Jika Anda pikir itu tugas yang mudah untuk mendapatkan semua statistik ringkasan dan hasil regresi yang sama, maka cobalah!

Dalam Kumpulan Data yang dibangun untuk tujuan yang serupa dengan kuartet Anscombe , beberapa set data menarik diberikan, misalnya dengan histogram berbasis kuantil yang sama. Saya tidak melihat campuran hubungan yang bermakna dan statistik campuran.

Pertanyaan saya adalah: apakah ada bivariat (atau trivariat, untuk menjaga visualisasi) kumpulan data seperti Anscombe sehingga, di samping memiliki statistik jenis sama2 :

  • plot mereka dapat ditafsirkan sebagai hubungan antara dan , seolah-olah seseorang mencari hukum antara pengukuran,yxy
  • mereka memiliki sifat marginal yang sama (lebih kuat) (median dan median penyimpangan absolut yang sama),1
  • mereka memiliki kotak pembatas yang sama: min yang sama, maks (dan karenanya -type statistik mid-range dan mid-span).

Kumpulan data tersebut akan memiliki ringkasan plot "kotak-dan-kumis" yang sama (dengan min, maks, median, median absolut penyimpangan / MAD, rata-rata dan std) pada setiap variabel, dan masih akan sangat berbeda dalam interpretasi.

Akan lebih menarik jika beberapa regresi paling mutlak adalah sama untuk dataset (tapi mungkin aku sudah meminta terlalu banyak). Mereka bisa berfungsi sebagai peringatan ketika berbicara tentang vs kuat tidak regresi yang kuat, dan bantuan keep dalam kutipan pikiran Richard Hamming ini:

Tujuan dari komputasi adalah wawasan, bukan angka

EDIT (dari komentar OP) isu-isu serupa ditangani data Pembangkit dengan Identik Statistik tapi Berbeda Graphics , Sangit Chatterjee & Aykut Firata, Amerika Statistician 2007, atau Cloning Data: menghasilkan dataset dengan persis beberapa yang sama linier fit regresi, J. Aust. N.-Z. Stat. J. 2009.

Dalam Chatterjee (2007), tujuannya adalah untuk menghasilkan pasangan novel dengan cara yang sama dan standar deviasi dari dataset awal, sambil memaksimalkan fungsi objektif "perbedaan / perbedaan" yang berbeda. Seperti fungsi-fungsi ini dapat non-cembung atau non-terdiferensiasi, mereka menggunakan algoritma genetika (GA). Langkah-langkah penting terdiri dalam orto-normalisasi, yang sangat konsisten dengan melestarikan mean dan (unit-) varians. Angka-angka kertas (setengah isi kertas) menempatkan input dan data output GA. Pendapat saya adalah bahwa keluaran GA kehilangan banyak interpretasi intuitif asli.(x,y)

Dan secara teknis, median maupun midrange tidak terpelihara, dan makalah ini tidak menyebutkan prosedur renormalisasi yang akan mempertahankan , dan .1 21

Laurent Duval
sumber
3
Jika Anda hanya setelah set data univariat dengan plot kotak yang sama, saya memberikan satu set dalam jawaban untuk pertanyaan beberapa waktu lalu, berdasarkan pada pengembangan dalam makalah. Tunggu sebentar, aku akan menggali itu. (edit) ... di sini . Mudah membuat lebih banyak kumpulan data dengan properti yang sama ... Saya mengatasinya dalam jawaban lain, di sini .
Glen_b -Reinstate Monica
2
Namun, pada refleksi, saya kira sekarang bahwa Anda tidak setelah set data univariat dengan plot kotak yang sama, tetapi mencari set data bivariat yang dan semua memiliki set yang sama dari dua plot box, dan yang memiliki yang sama garis kuadrat - apakah itu benar? yxy
Glen_b -Reinstate Monica
Penggalian bermanfaat bagi saya, terutama pada bagian skewness. Namun saya memang melihat plot bivariat yang lebih "alami" (atau lebih), dengan ketergantungan antara dan . Kecocokan "kuat" yang serupa akan menjadi nilai tambah. Saya telah mengedit dan semoga mengklarifikasi pertanyaanyxy
Laurent Duval
3
Chatterjee & Firat ( Amerika Statistician , 2007) , terkait dengan di jawaban ini untuk pertanyaan ini , memberikan algoritma genetika yang agak umum Anda harus dapat beradaptasi dengan cara mudah untuk tujuan Anda.
S. Kolassa - Pasang kembali Monica
1
Plot adalah contoh saat populasi menjadi tidak berarti ketika momen distribusi diabaikan. Berarti, standar deviasi, kemiringan, dan momen populasi lainnya tidak sesuai dengan nilai yang diharapkan, standar deviasi, kemiringan dan momen distribusi lainnya yang paling menggambarkan populasi tersebut. Ketika plot di atas dipandang sebagai distribusi nilai x dan nilai y, semuanya berbeda dan karenanya memiliki momen distribusi yang berbeda. Ini lebih buruk bahwa mengabaikan struktur residu, yang mungkin merupakan intinya, tidak dapat diabaikan begitu saja oleh impunitas.
Carl

Jawaban:

1

Untuk menjadi konkret, saya sedang mempertimbangkan masalah membuat dua set data yang masing-masing menunjukkan hubungan tetapi hubungan masing-masing berbeda, dan juga memiliki kurang lebih sama:

  • berarti x
  • berarti y
  • SD x
  • SD y
  • median x
  • median y
  • minimum x
  • minimum y
  • maksimum x
  • maksimal y
  • median deviasi absolut dari median x
  • median deviasi absolut dari median y
  • koefisien dari regresi linier sederhana y pada x

Mungkin ini curang, tetapi salah satu cara untuk membuat masalah ini jauh lebih mudah adalah dengan menggunakan dataset di mana garis yang paling pas adalah x -axis, , dan . Kemudian kita bisa membalik data secara vertikal untuk mendapatkan sesuatu yang sugestif dari distribusi yang jelas berbeda tetapi di mana semua statistik di atas dipertahankan.mnt y = - maks ymeany=0miny=maxy

Pertimbangkan, misalnya,

x019293949596979891y-1-1201211120-12-1

yang memiliki grafik berbentuk V ke atas seperti ini:

grafik

Ganti dengan dan Anda mendapatkan V ke bawah dengan semua statistik yang sama, dan bukan hanya kira-kira, tapi persis.- yy-y

Kodiologis
sumber
Kontribusi yang bagus. Memang, aku jatuh garis horizontal adalah sedikit kecurangan OLS wrt. Flipping adalah ide yang baik, namun jika dataset yang berbeda, mereka tetap sama. Tetapi saya pikir Anda memiliki ide yang bagus, mungkin bentuk "N" dan bentuk "W" dengan cara yang sama bisa menjadi awal dari sebuah jalan
Laurent Duval