Saya mencoba menggambar plot biola dan bertanya-tanya apakah ada praktik terbaik yang diterima untuk penskalaan di seluruh kelompok. Berikut adalah tiga opsi yang saya coba menggunakan mtcars
set data R (Motor Trend Mobil dari 1973, ditemukan di sini ).
Lebar yang Sama
Tampaknya seperti apa yang dilakukan oleh kertas asli * dan apa yang vioplot
dilakukan R ( contoh ). Baik untuk membandingkan bentuk.
Area yang Sama
Terasa benar karena setiap plot adalah plot probabilitas, sehingga area masing-masing harus sama dengan 1,0 dalam ruang koordinat. Baik untuk membandingkan kerapatan dalam masing-masing kelompok, tetapi tampaknya lebih tepat jika plot dilapis.
Area Tertimbang
Menyukai area yang sama, tetapi dibobot dengan jumlah pengamatan. 6-silinder menjadi relatif lebih tipis karena ada lebih sedikit dari mobil-mobil itu. Baik untuk membandingkan kepadatan antar kelompok.
* Petak Biola: Kotak Densitas-Jejak Synergis (DOI: 10.2307 / 2685478)
Jawaban:
Petak kotak digunakan untuk ringkasan skematis dari suatu distribusi. Plot biola hanyalah plot kotak di mana kotak Q1, Q2, dan Q3 digantikan oleh berbagai kuantil. Untuk alasan itu, saya pikir praktik yang diterima adalah menggunakan lebar seragam di seluruh kelompok.
Namun, Anda mengemukakan poin yang baik: bagaimana perbandingan kepadatan antar kelompok? Jawabannya tergantung pada apakah Anda melihat masing-masing kelompok sebagai populasi sendiri atau sebagai subpopulasi.
sumber
Jujur, saya pikir Anda mendekatinya dari arah yang salah. Ketiga plot dengan jelas memberi tahu Anda informasi yang bernilai - jika tidak, Anda tidak akan mempertimbangkan plot mana yang akan digunakan. Analisis data eksplorasi adalah tentang memahami data Anda. Di mana itu sesuai dengan harapan. Di mana tidak. Bagaimana hal itu dibentuk atas beberapa variabel.
Seluruh titik melakukan EDA sedang mengevaluasi apakah default kami, menjadi distribusi atau kolinearitas mereka asumsi, model statistik yang akan digunakan, dll juga dibenarkan. Dengan demikian, konsep EDA "default" agak cacat.
Lihatlah semuanya - atau setidaknya semua plot yang berhubungan dengan pertanyaan yang ingin Anda tanyakan. Tidak ada alasan untuk mengubah diri Anda menjadi "Yang menarik" dan "Apa yang akan saya abaikan" pada tahap EDA. Dan jika kita hanya memberi makan data melalui default, itu sebenarnya bukan EDA.
sumber
Dan bagaimana dengan bandwidth? Apakah Anda memikirkan hal itu?
Jika Anda menggunakan pengaturan default Perangkat Lunak Anda untuk mendapatkan pdf, kemungkinan besar Anda menggunakan aturan praktis untuk bandwidth optimal dari kernel gaussian. 'Bandwidth optimal' ini kemudian mungkin berbeda untuk setiap subset. Sekarang tanyakan pada diri Anda, apakah bentuknya masih sebanding? Bisa jadi, seseorang menjalankan pengukuran variabel yang sama (estimasi kepadatan kernel) dengan Standar ganda.
Untuk estimasi kerapatan kernel, aturan yang jelas telah dikembangkan untuk mendapatkan bandwidth yang tepat (semacam cross-validation), tetapi untuk plot biola kebanyakan diabaikan. Mungkin penting, ketika ukuran sampel berbeda banyak.
Saya mengalami masalah ini sekarang. Apa yang Anda pikirkan? Bagaimana Anda mengatasinya? Setiap komentar sangat dihargai.
sumber