Bagaimana cara mengetahui apakah distribusi data saya simetris?

23

Saya tahu bahwa jika median dan rata-rata kira-kira sama maka ini berarti ada distribusi simetris tetapi dalam kasus khusus ini saya tidak yakin. Rata-rata dan median cukup dekat (hanya perbedaan 0,487 m / empedu) yang akan membuat saya mengatakan ada distribusi simetris tetapi melihat boxplot, sepertinya sedikit miring positif (median lebih dekat ke Q1 daripada Q3 sebagaimana dikonfirmasi oleh nilai-nilai).

(Saya menggunakan Minitab jika Anda memiliki saran khusus untuk perangkat lunak ini.)

pengguna72943
sumber
Orthogonal mengomentari detail: unit apa yang m / gall? Itu terlihat seperti meter per galon, dan saya tertarik.
Nick Cox
Ini adalah batasan serius di sini bahwa plot kotak biasanya tidak menunjukkan cara sama sekali!
Nick Cox
Apa itu standar deviasi data Anda? Jika nilai 0,487m / gall jauh lebih kecil dari standar deviasi Anda, maka mungkin Anda memiliki alasan untuk percaya bahwa distribusi Anda bisa simetris. Jika nilai itu jauh lebih besar daripada standar deviasi Anda (atau MAD atau ukuran deviasi apa pun yang Anda lihat) mungkin memeriksa simetri distribusi lebih lanjut adalah kehilangan waktu.
usεr11852 mengatakan Reinstate Monic
1
-70,-63,-56,-49,-42,-35,-28,-21,-14,-7,0,1,4,9,16,25,36,49,64,81,100 adalah sengaja tidak simetris (seragam di bagian bawah tetapi tidak di bagian atas) dan plot kotak akan menempatkan median (sama dengan rata-rata) lebih dekat kuartil atas daripada kuartil bawah tetapi juga lebih dekat minimum daripada maksimum.
Henry
@NickCox bisa juga miligal dengan salah ketik. Itu akan menjadi hampir 500 gal! Atau kurang dari g. (Tentu saja seperti yang disebutkan di atas, tanpa skala dispersi seperti MAD, tidak ada cara untuk mengetahui apa yang bisa menjadi "signifikan".)10 - 4μ10-4
GeoMatt22

Jawaban:

29

Tidak diragukan Anda telah diberitahu sebaliknya, tetapi mean median tidak menyiratkan simetri.=

Ada ukuran skewness berdasarkan median minus rata-rata (skewness Pearson kedua), tetapi bisa 0 ketika distribusinya tidak simetris (seperti ukuran skewness umum lainnya).

Demikian pula, hubungan antara mean dan median tidak selalu menyiratkan hubungan yang sama antara midhinge ( ) dan median. Mereka dapat menyarankan kemiringan yang berlawanan, atau yang satu mungkin sama dengan median sedangkan yang lain tidak.(Q1+Q3)/2

Salah satu cara untuk menyelidiki simetri adalah melalui plot simetri *.

Jika adalah pengamatan terurut dari terkecil hingga terbesar (statistik urutan), dan adalah median, maka plot plot simetri vs , vs , ... dan seterusnya. M Y ( n ) - M M - Y ( 1 ) Y ( n - 1 ) - M M - Y ( 2 )Y(1),Y(2),...,Y(n)M.Y(n)-M.M.-Y(1)Y(n-1)-M.M.-Y(2)

* Minitab dapat melakukan itu . Memang saya meningkatkan plot ini sebagai kemungkinan karena saya telah melihat mereka dilakukan di Minitab.

Berikut ini empat contoh:

Plot simetri
Plot simetri dari tipe di atas untuk sampel dari empat distribusi

(Distribusi sebenarnya adalah (kiri ke kanan, baris pertama lebih dulu) - Laplace, Gamma (bentuk = 0,8), beta (2,2) dan beta (5,2). Kodenya milik Ross Ihaka, dari sini )

Dengan contoh simetris berekor berat, sering kali titik paling ekstrem bisa sangat jauh dari garis; Anda akan kurang memperhatikan jarak dari garis satu atau dua poin saat Anda berada di dekat kanan atas gambar.

Tentu saja ada plot lain (saya sebutkan plot simetri bukan dari rasa advokasi tertentu, tetapi karena saya tahu itu sudah diterapkan di Minitab). Jadi mari kita jelajahi beberapa yang lain.

Berikut adalah skewplot terkait yang disarankan oleh Nick Cox dalam komentar:

Plot kemiringan
Skewness plot seperti yang disarankan oleh Nick Cox dalam komentar

Dalam plot ini, tren naik akan menunjukkan ekor kanan yang biasanya lebih berat daripada kiri dan tren turun akan menunjukkan ekor kiri yang biasanya lebih berat daripada kanan, sementara simetri akan disarankan oleh plot yang relatif datar (walaupun mungkin cukup berisik).

Nick menyarankan bahwa plot ini lebih baik (khususnya "lebih langsung"). Saya cenderung setuju; interpretasi plot tampaknya sedikit lebih mudah, meskipun informasi dalam plot yang sesuai sering sangat mirip (setelah Anda mengurangi kemiringan unit pada set pertama, Anda mendapatkan sesuatu yang sangat mirip dengan set kedua).

[Tentu saja, tak satu pun dari hal-hal ini akan memberi tahu kita bahwa distribusi data yang diambil sebenarnya simetris; kami mendapatkan indikasi seberapa dekat-ke-simetris sampel, dan sejauh itu kita dapat menilai apakah data cukup konsisten dengan diambil dari populasi yang hampir simetris.]

Glen_b -Reinstate Monica
sumber
3
@ user72943 Jika Anda benar-benar puas dengan itu, jangan lupa untuk kembali dan memilih jawaban Glen_b. Anda mungkin ingin menunggu sebentar untuk melihat apakah seseorang mengirimkan jawaban yang lebih baik, tetapi Glen_b akan menerima kredit lebih banyak jika Anda menerima jawabannya.
Wayne
3
+1, tapi berdalih. Saya menemukan plot (kuantil atas kuantil rendah) / 2 versus (kuantil atas kuantil rendah) lebih langsung daripada plot simetri di sini. Untuk statistik urutan baca kuantil jika diinginkan. Situasi referensi adalah distribusi simetris di mana rata-rata pasangan berpasangan semua sama dengan median, sehingga plot distribusi simetris sebagai garis lurus. Asimetri yang sedikit dan ditandai mudah dikenali, seperti (misalnya) perkiraan simetri di tengah dan pengecualian yang ditandai dalam satu atau kedua ekor. -+-
Nick Cox
6
+1 Dalam EDA , John Tukey cukup memplot urutan midranges. Ini adalah nilai-nilai untuk urutan indeks dipilih dengan hati-hati (kira-kira , dan sebagainya) ). Dalam beberapa hal plot ini lebih baik daripada plot simetri sejauh itu menyaring kelebihan detail dan membantu pemirsa fokus pada bagaimana simetri (atau ketiadaan) perubahan ketika seseorang bergerak keluar menjadi ekor. Ini memiliki manfaat tambahan dengan segera dan mudah dihitung setelah ringkasan n-huruf ada di tangan, yang pada gilirannya dapat dibaca langsung dari plot batang-dan-daun. i n / 2 , n / 4 , n / 8(Y(n+1-saya)+Y(saya))/2sayan/2,n/4,n/8
whuber
1
@whuber dan saya sedang berbicara tentang ide dasar yang sama. Perbedaannya adalah antara memplot semua statistik pesanan berpasangan (tidak dalam praktiknya sangat mengganggu) atau memplot beberapa saja.
Nick Cox
1
Referensi di stata-journal.com/sjpdf.html?articlenum=gr0003 dan untuk pengguna Stata dalam dokumentasi untuk skewplot(SSC). Idenya kembali setidaknya untuk saran yang dikaitkan dengan JW Tukey di Wilk, MB dan Gnanadesikan, R. 1968. Probabilitas merencanakan metode untuk analisis data. Biometrika 55: 1-17.
Nick Cox
6

Cara termudah adalah menghitung kemiringan sampel . Ada fungsi di Minitab untuk itu. Distribusi simetris akan memiliki nol kemiringan. Kemiringan nol tidak selalu berarti simetris, tetapi dalam kebanyakan kasus praktis itu tidak akan simetris.

Seperti yang dicatat oleh @NickCox, ada lebih dari satu definisi skewness. Saya menggunakan yang kompatibel dengan Excel , tetapi Anda bisa menggunakan yang lain.

Aksakal
sumber
2
Saya pikir ini perlu dieja. Secara khusus, tidak ada yang namanya "kecondongan". Ada banyak langkah dan bahkan yang tidak biasa sering sama bermanfaat atau menariknya dengan yang umum (misalnya L-momen). Mereka tergoda untuk hal standar saat ketiga sebagai yang ukuran (dan itu default saya, juga) harus mencatat bahwa untuk Karl Pearson, dan untuk banyak penulis lain baik ke abad ke-20, skewness paling sering diukur relatif terhadap mode.
Nick Cox
Koefisien kemiringan apa pun, selain kekurangan banyak daya untuk mendeteksi asimetri (seperti yang Anda ucapkan dengan benar), juga menderita (sangat) tidak kuat, karena didasarkan pada momen sampel ketiga. Juga, karena simetri dapat dilanggar dalam banyak (dan menarik) cara, karakterisasi numerik tunggal simetri adalah pengganti yang buruk untuk diagnostik grafis yang lebih kaya yang dijelaskan dalam literatur analisis data eksplorasi.
whuber
1

Pusatkan data Anda sekitar nol dengan mengurangi mean sampel. Sekarang bagi data Anda menjadi dua bagian, negatif dan positif. Ambil nilai absolut dari titik data negatif. Sekarang lakukan tes Kolmogorov-Smirnov dua sampel dengan membandingkan dua partisi satu sama lain. Buat kesimpulan Anda berdasarkan nilai-p.

soakley
sumber
0

Letakkan pengamatan Anda diurutkan dalam meningkatkan nilai dalam satu kolom, lalu taruh diurutkan dalam penurunan nilai di kolom lainnya.
Kemudian hitung koefisien korelasi (sebut saja Rm) antara dua kolom ini.
Hitung indeks kiral: CHI = (1 + Rm) / 2.
CHI mengambil nilai dalam interval [0..1].
CHI adalah null JIKA dan HANYA JIKA sampel Anda didistribusikan secara simetris.
Tidak perlu momen ketiga.
Teori:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(sebagian besar makalah yang dikutip dalam dua halaman ini dapat diunduh di sana dalam pdf)
Semoga saja membantu, bahkan belakangan ini.

Petitjean
sumber
Bukankah korelasinya, Rm, tentu negatif? Saya tidak melihat bagaimana CHI bisa menjadi 1 kecuali Rm adalah 1, tetapi karena col1 diurutkan meningkat & col2 diurutkan menurun, RM <= 0, artinya CHI akan mengambil nilai dalam [0, .5]. Apakah saya melewatkan sesuatu?
gung - Reinstate Monica
Ya Rm tidak bisa positif dan CHI tidak bisa melebihi 1/2 untuk distribusi variabel acak yang mengambil nilai pada garis nyata. Faktanya, batas atas 1 berasal dari teori umum yang memperkenalkan indeks kiral. Masuk akal untuk distribusi variabel acak yang mengambil nilai dalam ruang yang lebih umum. Teori ini berada di luar cakupan diskusi ini, tetapi disajikan dalam dua halaman web yang saya sebutkan sebelumnya.
Petitjean
Silakan daftar & / atau gabungkan akun Anda (Anda dapat menemukan informasi tentang cara melakukan ini di bagian Akun Saya di pusat bantuan kami ), maka Anda akan dapat mengedit & mengomentari pertanyaan Anda sendiri.
gung - Reinstate Monica