Bagaimana skala plot biola untuk perbandingan?

Saya mencoba menggambar plot biola dan bertanya-tanya apakah ada praktik terbaik yang diterima untuk penskalaan di seluruh kelompok. Berikut adalah tiga opsi yang saya coba menggunakan mtcarsset data R (Motor Trend Mobil dari 1973, ditemukan di sini ).

Lebar yang Sama

Tampaknya seperti apa yang dilakukan oleh kertas asli * dan apa yang vioplotdilakukan R ( contoh ). Baik untuk membandingkan bentuk.

Plot Biola Area Yang Sama

Area yang Sama

Terasa benar karena setiap plot adalah plot probabilitas, sehingga area masing-masing harus sama dengan 1,0 dalam ruang koordinat. Baik untuk membandingkan kerapatan dalam masing-masing kelompok, tetapi tampaknya lebih tepat jika plot dilapis.

Plot Biola Dengan Lebar Yang Sama

Area Tertimbang

Menyukai area yang sama, tetapi dibobot dengan jumlah pengamatan. 6-silinder menjadi relatif lebih tipis karena ada lebih sedikit dari mobil-mobil itu. Baik untuk membandingkan kepadatan antar kelompok.

Bidang Biola Area Tertimbang

* Petak Biola: Kotak Densitas-Jejak Synergis (DOI: 10.2307 / 2685478)

distributions data-visualization nonparametric xan
sumber

Tujuan plot akan, sebagian besar, menentukan solusi mana yang sesuai. Lalu, apa yang ingin Anda tunjukkan kepada mereka?

whuber

@whuber Pertanyaan bagus, meskipun saya tidak punya jawaban langsung. Saya mencoba memberikan grafik untuk EDA dan saya mencari standar umum yang baik (dan apakah opsi lain cukup berguna untuk ditampilkan).

xan

Saya ingin menyarankan agar Anda mengontrol plot sesuai dengan tujuan Anda daripada menerima beberapa default.

whuber

Saya akan menyarankan bahwa versi "area tertimbang" Anda adalah "Baik untuk membandingkan subkelompok populasi" karena mungkin masuk akal untuk menambahkan lebar untuk mendapatkan bentuk seluruh populasi.

Henry

Saya lebih suka daerah yang sama, untuk menjaga dampak visual dari bentuk distribusi. Kemudian tambahkan grafik dengan termometer yang menunjukkan ukuran sampel, atau cukup gunakan representasi teks dari ukuran sampel di sebelah biola.

Frank Harrell

Jawaban:

Petak kotak digunakan untuk ringkasan skematis dari suatu distribusi. Plot biola hanyalah plot kotak di mana kotak Q1, Q2, dan Q3 digantikan oleh berbagai kuantil. Untuk alasan itu, saya pikir praktik yang diterima adalah menggunakan lebar seragam di seluruh kelompok.

Namun, Anda mengemukakan poin yang baik: bagaimana perbandingan kepadatan antar kelompok? Jawabannya tergantung pada apakah Anda melihat masing-masing kelompok sebagai populasi sendiri atau sebagai subpopulasi.

$\Sigma_i P_i = 1$

Rick
sumber

Plot biola awalnya diperkenalkan dan didefinisikan sebagai plot kotak hibrida dan jejak kerapatan. Google cepat menunjukkan bahwa dalam praktiknya banyak plot yang dipublikasikan sebagai plot biola menghilangkan kotak dan banyak yang tidak menunjukkan kuantil seperti itu. Jadi, definisi terbuka lebar di sini.

Nick Cox

Jujur, saya pikir Anda mendekatinya dari arah yang salah. Ketiga plot dengan jelas memberi tahu Anda informasi yang bernilai - jika tidak, Anda tidak akan mempertimbangkan plot mana yang akan digunakan. Analisis data eksplorasi adalah tentang memahami data Anda. Di mana itu sesuai dengan harapan. Di mana tidak. Bagaimana hal itu dibentuk atas beberapa variabel.

Seluruh titik melakukan EDA sedang mengevaluasi apakah default kami, menjadi distribusi atau kolinearitas mereka asumsi, model statistik yang akan digunakan, dll juga dibenarkan. Dengan demikian, konsep EDA "default" agak cacat.

Lihatlah semuanya - atau setidaknya semua plot yang berhubungan dengan pertanyaan yang ingin Anda tanyakan. Tidak ada alasan untuk mengubah diri Anda menjadi "Yang menarik" dan "Apa yang akan saya abaikan" pada tahap EDA. Dan jika kita hanya memberi makan data melalui default, itu sebenarnya bukan EDA.

Fomite
sumber

+1 untuk pernyataan yang mencerahkan tentang EDA, meskipun masih belum jelas (bagi saya) apakah OP mengejar EDA atau tidak ...

chl

@chl Beberapa komentar OP menyarankan itu yang dia cari. Jika itu hanya "mana yang lebih berguna" jawaban yang saya takuti menjadi lebih ambigu "baik, apa yang ingin Anda tunjukkan?"

Fomite

Ah, saya ketinggalan komentar itu ... Jadi tanggapan Anda bernilai +1 lagi, tapi saya tidak bisa :(

chl

Dan bagaimana dengan bandwidth? Apakah Anda memikirkan hal itu?

Jika Anda menggunakan pengaturan default Perangkat Lunak Anda untuk mendapatkan pdf, kemungkinan besar Anda menggunakan aturan praktis untuk bandwidth optimal dari kernel gaussian. 'Bandwidth optimal' ini kemudian mungkin berbeda untuk setiap subset. Sekarang tanyakan pada diri Anda, apakah bentuknya masih sebanding? Bisa jadi, seseorang menjalankan pengukuran variabel yang sama (estimasi kepadatan kernel) dengan Standar ganda.

Untuk estimasi kerapatan kernel, aturan yang jelas telah dikembangkan untuk mendapatkan bandwidth yang tepat (semacam cross-validation), tetapi untuk plot biola kebanyakan diabaikan. Mungkin penting, ketika ukuran sampel berbeda banyak.

Saya mengalami masalah ini sekarang. Apa yang Anda pikirkan? Bagaimana Anda mengatasinya? Setiap komentar sangat dihargai.

Holger Hoffmann
sumber