Saya tahu bahwa jika saya dapat memiliki dua distribusi dengan mean dan varians yang sama, bentuk yang berbeda, karena saya dapat memiliki N (x, s) dan U (x, s)
Tetapi bagaimana jika min, Q1, median, Q3, dan maks mereka identik?
Dapatkah distribusi terlihat berbeda saat itu, atau akankah mereka diminta untuk mengambil bentuk yang sama?
Logika saya satu-satunya di balik ini adalah jika mereka memiliki ringkasan 5-angka yang sama persis mereka harus mengambil bentuk distribusi yang sama persis.
Jawaban:
Hanya karena ringkasan lima angka itu identik, tidak berarti bahwa distribusinya sama. Ini memberi tahu Anda berapa banyak informasi yang hilang ketika kami menyajikan data secara grafik dalam plot kotak!
Mungkin cara termudah untuk melihat masalahnya adalah bahwa ringkasan lima angka tidak memberi tahu Anda apa pun tentang distribusi nilai antara kuartil minimum dan kuartil rendah, atau antara kuartil bawah dan median, dan sebagainya. Anda tahu bahwa frekuensi antara kuartil minimum dan terendah harus cocok dengan frekuensi antara kuartil rendah dan median (dengan pengecualian yang jelas, misalnya jika kita memiliki data yang terletak di kuartil, atau lebih buruk, jika dua kuartil terikat) tetapi tidak tahu untuk nilai variabel frekuensi mana yang dialokasikan. Kita dapat memiliki situasi seperti ini:
Dua distribusi ini memiliki ringkasan lima angka yang sama, sehingga plot kotak mereka identik, tetapi saya telah memilihX untuk memiliki distribusi yang seragam antara setiap kuartil sedangkan Y memiliki distribusi dengan frekuensi rendah dekat dengan kuartil dan frekuensi tinggi di tengah dua kuartil. Secara efektif distribusiY telah dibentuk dengan mengambil distribusi X dan memindahkan sebagian besar data yang dekat dengan kuartil lebih jauh darinya; Y dan meratakan frekuensi dengan mengalokasikan kembali data dari puncak untuk mengisi palung.
R
kode saya sebenarnya melakukan ini secara terbalik, dimulai dengan distribusi tidak teraturEDIT: Seperti yang dikatakan @Glen_b, ini menjadi lebih jelas ketika Anda melihat distribusi kumulatif. Saya telah menambahkan garis kisi untuk menunjukkan lokasi kuartil, yang sama untuk dua distribusi sehingga CDFs empiris mereka bersinggungan.
Kode r
sumber
Ini paling jelas dijawab dengan mempertimbangkan fungsi distribusi (kumulatif).
Menentukan minimum, maksimum, dan tiga kuartil menentukan dengan tepat 5 poin pada cdf, tetapi cdf di antara titik-titik tersebut dapat berupa fungsi nondecreasing monotonik di antara yang masih melewati titik-titik tersebut:
Dalam gambar, baik CDF merah dan hitam memiliki minimum, maksimum, dan kuartil yang sama, tetapi jelas merupakan distribusi yang berbeda. Jelas sejumlah CDF lain dapat ditentukan yang juga melewati lima poin yang sama.
Faktanya, yang kami lakukan hanyalah membatasi fungsi distribusi kami menjadi empat kotak:
(selama itu juga terus memenuhi persyaratan lain untuk CDF). Itu tidak terlalu banyak pembatasan.
Gagasan yang sama dapat diterapkan pada jumlah sampel - dua CDF empiris yang berbeda mungkin memiliki ringkasan lima angka yang sama.
sumber
Tidak, jelas bukan itu masalahnya. Sebagai contoh penghitung sederhana, bandingkan distribusi seragam kontinu pada[0,3] dengan distribusi seragam diskrit pada {0,1,2,3} .
Contoh terkait adalah kuartet Anscombe yang terkenal, di mana ada 4 dataset dengan 6 properti sampel yang identik (meskipun berbeda dari yang Anda sebutkan) terlihat sangat berbeda. Lihat: http://en.wikipedia.org/wiki/Anscombe%27s_quartet
sumber