Bagaimana cara menilai kemiringan dari kotak petak?

19

Cara memutuskan kemiringan dengan melihat plot kotak yang dibangun dari data ini:

340, 300, 520, 340, 320, 290, 260, 330

Satu buku mengatakan, "Jika kuartil bawah lebih jauh dari median daripada kuartil atas, maka distribusinya cenderung negatif." Beberapa sumber lain mengatakan kurang lebih sama.

Saya membuat boxplot menggunakan R. Ini seperti yang berikut:

kotak-plot

Saya menganggapnya condong negatif , karena kuartil bawah lebih jauh dari median daripada kuartil atas. Tetapi masalahnya adalah ketika saya menggunakan metode lain untuk menentukan kemiringan:

rata-rata (337.5)> median (325)

Ini menunjukkan data miring positif . Apakah saya melewatkan sesuatu?

JerryW
sumber

Jawaban:

19

Salah satu ukuran skewness didasarkan pada mean-median - koefisien skewness kedua Pearson .

Ukuran kemiringan lainnya didasarkan pada perbedaan kuartil relatif (Q3-Q2) vs (Q2-Q1) yang dinyatakan sebagai rasio

Ketika (Q3-Q2) vs (Q2-Q1) sebaliknya dinyatakan sebagai perbedaan (atau setara median midhinge), yang harus diskalakan untuk membuatnya berdimensi (seperti biasanya diperlukan untuk ukuran skewness), katakan oleh IQR, seperti di sini (dengan menempatkan ).kamu=0,25

Ukuran yang paling umum tentu saja adalah kemiringan momen ketiga .

Tidak ada alasan bahwa ketiga tindakan ini harus konsisten. Salah satu dari mereka bisa berbeda dari dua lainnya.

Apa yang kita anggap "condong" adalah konsep yang agak licin dan tidak jelas. Lihat di sini untuk diskusi lebih lanjut.

Jika kami melihat data Anda dengan qqplot normal:

masukkan deskripsi gambar di sini

[Garis yang ditandai hanya berdasarkan pada 6 poin pertama saja, karena saya ingin membahas penyimpangan dua yang terakhir dari pola di sana.]

Kita melihat bahwa 6 poin terkecil terletak hampir sempurna di telepon.

Kemudian titik ke 7 berada di bawah garis (lebih dekat ke tengah relatif dari titik kedua yang sesuai dari ujung kiri), sedangkan titik kedelapan berada di atas.

Poin ke-7 menunjukkan kemiringan kiri ringan, kemiringan kanan terakhir yang lebih kuat. Jika Anda mengabaikan kedua titik, kesan miring sepenuhnya ditentukan oleh yang lain.

Jika saya harus mengatakan itu salah satu atau yang lain, saya akan menyebutnya "condong ke kanan" tetapi saya juga akan menunjukkan bahwa kesan itu sepenuhnya karena efek dari satu titik yang sangat besar. Tanpa itu benar-benar tidak ada yang bisa dikatakan itu benar miring. (Di sisi lain, tanpa titik ke-7 sebagai gantinya, itu jelas tidak miring.)

Kita harus sangat berhati-hati ketika kesan kita sepenuhnya ditentukan oleh satu titik, dan dapat diputar balik dengan menghilangkan satu titik. Tidak banyak yang bisa dilanjutkan!


Saya mulai dengan premis bahwa apa yang membuat outlier 'outlying' adalah modelnya (apa outlier yang berkaitan dengan satu model mungkin cukup tipikal di bawah model lain).

Saya pikir pengamatan pada persentil atas 0,01 (1/10000) dari normal (3,72 sds di atas rata-rata) sama-sama merupakan pencilan dari model normal karena pengamatan pada 0,01 persentil atas dari distribusi eksponensial adalah dengan model eksponensial. (Jika kita mengubah distribusi dengan probabilitas integralnya sendiri, masing-masing akan pergi ke seragam yang sama)

Untuk melihat masalah dengan menerapkan aturan boxplot ke distribusi kemiringan yang cukup tepat, simulasikan sampel besar dari distribusi eksponensial.

Misalnya jika kita mensimulasikan sampel ukuran 100 dari normal, kita rata-rata kurang dari 1 outlier per sampel. Jika kita melakukannya dengan eksponensial, kita rata-rata sekitar 5. Tetapi tidak ada dasar nyata untuk mengatakan bahwa proporsi yang lebih tinggi dari nilai eksponensial adalah "terluar" kecuali kita melakukannya dengan membandingkan (katakanlah) model normal. Dalam situasi tertentu kita mungkin memiliki alasan khusus untuk memiliki aturan outlier dari beberapa bentuk tertentu, tetapi tidak ada aturan umum, yang membuat kita dengan prinsip-prinsip umum seperti yang saya mulai dengan subbagian ini - untuk memperlakukan setiap model / distribusi pada lampu sendiri. (jika suatu nilai tidak biasa sehubungan dengan suatu model, mengapa menyebutnya sebagai pencilan dalam situasi itu?)


Untuk beralih ke pertanyaan dalam judul :

Meskipun ini adalah instrumen yang cukup kasar (itulah sebabnya saya melihat plot-QQ) ada beberapa indikasi kemiringan dalam plot-kotak - jika ada setidaknya satu titik yang ditandai sebagai pencilan, ada kemungkinan (setidaknya) tiga:

masukkan deskripsi gambar di sini

Dalam sampel ini (n = 100), titik terluar (hijau) menandai ekstrem, dan dengan median menunjukkan kemiringan kiri. Kemudian pagar (biru) menyarankan (bila dikombinasikan dengan median) menyarankan kemiringan yang benar. Kemudian engsel (kuartil, coklat), menyarankan kemiringan kiri bila dikombinasikan dengan median.

Seperti yang kita lihat, mereka tidak harus konsisten. Di mana Anda akan fokus tergantung pada situasi Anda (dan mungkin preferensi Anda).

Namun, peringatan betapa kasarnya boxplot itu. Contoh menjelang akhir di sini - yang mencakup deskripsi tentang cara menghasilkan data - memberikan empat distribusi yang sangat berbeda dengan plot box yang sama:

masukkan deskripsi gambar di sini

Seperti yang Anda lihat ada distribusi yang cukup miring dengan semua indikator kemiringan yang disebutkan di atas menunjukkan simetri sempurna.

-

Mari kita ambil ini dari sudut pandang "jawaban apa yang guru Anda harapkan, mengingat bahwa ini adalah boxplot, yang menandai satu titik sebagai pencilan?".

Kami pergi dengan menjawab pertama "apakah mereka mengharapkan Anda untuk menilai kemiringan tidak termasuk titik itu, atau dengan itu dalam sampel?". Beberapa akan mengecualikannya, dan menilai kemiringan dari apa yang tersisa, seperti yang dilakukan Jsk dalam jawaban lain. Sementara saya telah memperdebatkan aspek pendekatan itu, saya tidak bisa mengatakan itu salah - itu tergantung pada situasinya. Beberapa akan memasukkannya (paling tidak karena mengecualikan 12,5% dari sampel Anda karena aturan yang berasal dari normal tampaknya merupakan langkah besar *).

* Bayangkan distribusi populasi yang simetris kecuali untuk ekor paling kanan (saya membuat satu seperti itu dalam menjawab ini - normal tetapi dengan ekor kanan ekstrim Pareto - tetapi tidak hadir dalam jawaban saya). Jika saya menggambar sampel ukuran 8, seringkali 7 pengamatan berasal dari bagian yang tampak normal dan satu berasal dari ekor atas. Jika kami mengecualikan poin yang ditandai sebagai boxplot-outliers dalam kasus itu, kami mengecualikan poin yang memberi tahu kami bahwa itu sebenarnya miring! Ketika kami melakukannya, distribusi terpotong yang tetap dalam situasi itu condong ke kiri, dan kesimpulan kami akan menjadi kebalikan dari yang benar.

Glen_b -Reinstate Monica
sumber
1
@ Jsk Itu tergantung pada bagaimana Anda ingin mengukur kemiringan. Karena tingkat kemiringan sebagian ditentukan oleh titik-titik terpencil (kecenderungan untuk lebih menyimpang dari satu arah daripada yang lain), menghilangkannya bisa saja meleset dari titik pengukuran kemiringan. Diskusi dan analisis yang lebih rinci ada di posting saya yang diperbarui. Jika Anda tidak yakin, jangan ragu untuk tidak setuju, pertukaran seperti itu seringkali berharga.
Glen_b -Reinstate Monica
1
@ Glen_b Meskipun saya tentu saja menghormati dan memahami sikap yang Anda ambil, saya yakin ada argumen yang masuk akal untuk menilai kemiringan setelah menghapus pencilan yang bertentangan dengan sebelumnya. Setelah menghapus outlier, distribusi bahkan akan tetap condong negatif setelah menghapus titik ke-7 (260). Apakah Anda memeriksa qqplot dan / atau membandingkan nilai tengah dan median?
jsk
1
Mungkin kasusnya cukup lemah setelah melepas yang ke-7, tapi saya tidak melihat alasan untuk membenarkan penilaian miring setelah melepasnya. Ini bukan pencilan, meskipun intinya diambil dengan baik bahwa ukuran kemiringan, tidak peduli bagaimana Anda melihatnya dalam hal ini, didorong oleh titik tunggal.
jsk
1
@ Glen_ b Q3 + 1.5IQR adalah aturan umum yang diajarkan pada level ini untuk mengidentifikasi outlier di ekor atas. Apakah menghapusnya atau tidak adalah masalah lain. Apakah Anda berpendapat bahwa distribusinya benar karena rata-rata lebih besar? Mengapa mengabaikan fakta bahwa Q1 lebih jauh dari Q2 daripada Q3?
jsk
1
Saya ingin menguraikan apa yang ada di dekat permukaan di sini tetapi tidak cukup: sering boxplot memadat terlalu banyak, jadi Anda mungkin perlu melihat semua data juga.
Nick Cox
11

Tidak, Anda tidak melewatkan apa pun: Anda sebenarnya melihat di luar ringkasan sederhana yang disajikan. Data-data ini condong positif dan negatif (dalam arti "kecondongan" menunjukkan beberapa bentuk asimetri dalam distribusi data).

John Tukey menggambarkan cara sistematis untuk mengeksplorasi asimetri dalam kumpulan data melalui "ringkasan N-number" -nya. Boxplot adalah grafik ringkasan 5-angka dan karenanya dapat menerima analisis ini.


Boxplot menampilkan ringkasan 5-nomor: median , dua engsel H +M.H+H-X+X-Tsaya+sayaTsaya+Tsaya-M.=M.+=M.-(Tsaya++Tsaya-)/2saya

Untuk menerapkan ide ini pada plot kotak, cukup gambarkan titik tengah dari setiap pasangan bagian yang sesuai: median (yang sudah ada di sana), titik tengah engsel (ujung kotak, ditunjukkan dengan warna biru), dan titik tengah ekstrem (ditunjukkan dengan warna merah).

Boxplot

Dalam contoh ini, nilai engsel tengah yang lebih rendah dibandingkan dengan median menunjukkan bagian tengah bets sedikit miring negatif (dengan demikian menguatkan penilaian yang dikutip dalam pertanyaan, sementara pada saat yang sama membatasi ruang lingkupnya ke tengah bets). ) sementara (jauh) nilai yang lebih tinggi dari pertengahan-ekstrim menunjukkan ekor dari bets (atau setidaknya yang ekstrem) secara positif condong (walaupun, pada inspeksi lebih dekat, ini disebabkan oleh pencilan tunggal yang tinggi). Meskipun ini hampir merupakan contoh sepele, kekayaan relatif interpretasi ini dibandingkan dengan statistik "skewness" tunggal sudah mengungkapkan kekuatan deskriptif dari pendekatan ini.

Dengan sedikit latihan, Anda tidak perlu menggambar statistik menengah ini: Anda bisa membayangkan di mana mereka berada dan membaca informasi skewness yang dihasilkan langsung dari kotak apa pun.


M.HEDXsaya=1,2,3,4,5. Plot sebelah kiri pada gambar berikutnya adalah plot diagnostik untuk titik tengah dari statistik yang dipasangkan ini. Dari kemiringan yang semakin cepat, jelas bahwa data menjadi semakin miring saat kita menjangkau ke belakang.

Gambar 2

Plot tengah dan kanan menunjukkan hal yang sama untuk akar kuadrat ( data, bukan statistik bilangan menengah!) Dan logaritma (basis-10). Kestabilan relatif dari nilai-nilai akar (perhatikan kisaran vertikal relatif kecil dan tingkat miring di tengah) menunjukkan bahwa bets dari nilai-nilai 219 menjadi sekitar simetris baik di bagian tengah dan di semua bagian ekornya, hampir keluar untuk ekstrem ketika ketinggian diekspresikan kembali sebagai akar kuadrat. Hasil ini adalah dasar yang kuat - hampir menarik - untuk melanjutkan analisis lebih lanjut dari ketinggian ini dalam hal akar kuadratnya.

Antara lain, plot-plot ini mengungkapkan sesuatu yang kuantitatif tentang asimetri data: pada skala asli, plot-plot tersebut segera mengungkapkan berbagai kemiringan data (menimbulkan keraguan besar pada kegunaan menggunakan statistik tunggal untuk mengkarakterisasi kemiringannya), sedangkan pada skala akar kuadrat, datanya mendekati simetris tentang bagian tengahnya - dan oleh karena itu dapat diringkas secara ringkas dengan ringkasan lima angka, atau ekuivalen dengan boxplot. Skewness sekali lagi sangat bervariasi pada skala log, menunjukkan logaritma terlalu "kuat" cara untuk mengekspresikan kembali data ini.

Generalisasi plot kotak ke tujuh, sembilan, dan lebih banyak angka mudah untuk digambarkan. Tukey menyebut mereka "plot skematik." Saat ini banyak plot yang memiliki tujuan yang sama, termasuk standar seperti plot QQ dan hal baru yang relatif seperti "plot kacang" dan "plot biola." (Bahkan histogram rendahan dapat ditekan untuk digunakan untuk tujuan ini.) Dengan menggunakan poin dari plot tersebut, seseorang dapat menilai asimetri secara terperinci dan melakukan evaluasi yang serupa tentang cara mengekspresikan kembali data.

whuber
sumber
7

Berarti kurang dari atau lebih besar dari median adalah jalan pintas yang sering berfungsi untuk menentukan arah kemiringan selama tidak ada outlier. Dalam hal ini, distribusi condong negatif tetapi rata-rata lebih besar dari median karena pencilan.

jsk
sumber
Itu menjelaskan. Buku-buku yang saya baca tidak menyebutkan ini sama sekali!
JerryW
Semoga buku-buku setidaknya menyebutkan bagaimana mean jauh lebih tahan terhadap outlier daripada median!
jsk
Apakah itu dianggap condong negatif tergantung pada bagaimana Anda mengukur kemiringan.
Glen_b -Reinstate Monica
Cukup adil. Ini adalah dataset kecil yang membuatnya sangat menantang untuk menilai kemiringan. Saya kira contoh ini sayangnya dilemparkan ke sana hanya untuk alasan memiliki aturan praktis yang bertentangan untuk menentukan kemiringan
jsk
1
Saya setuju bahwa kumpulan data kecil seperti ini bisa membuatnya menantang, tetapi sangat mungkin untuk membangun distribusi berkelanjutan yang sama-sama menantang.
Glen_b -Reinstate Monica