Sambil melakukan beberapa EDA saya memutuskan untuk menggunakan plot kotak untuk menggambarkan perbedaan antara dua tingkat faktor.
Cara ggplot membuat plot kotak cukup memuaskan, tetapi sedikit sederhana (plot pertama di bawah). Sementara meneliti karakteristik plot kotak saya mulai bereksperimen dengan takik.
Saya mengerti takik menampilkan CI di sekitar median, dan bahwa jika dua takik kotak tidak tumpang tindih ada 'bukti kuat' - pada tingkat kepercayaan 95% - bahwa median berbeda.
Dalam kasus saya (plot kedua), takik tidak saling tumpang tindih. Tetapi mengapa bagian bawah kotak di sisi kanan mengambil bentuk aneh itu?
Memplot data yang sama dalam plot biola tidak menunjukkan sesuatu yang tidak biasa tentang kepadatan probabilitas biola yang sesuai.
ggplot2
. Saya suka gagasan untuk memplot poin data individual juga, tapi itu frustrasi sejauh poin dalam kotak gelap dibuat tidak terlihat.Jawaban:
Ini menunjukkan bahwa persentil ke-25 adalah sekitar 21, persentil ke-75 sekitar 30,5. Dan batas bawah dan atas takik sekitar 18 dan 27.
Alasan umum adalah bahwa distribusi Anda miring atau ukuran sampel rendah. Batas takik didasarkan pada:
Jika jarak antara median dan persentil ke-25 dan jarak antara median dan persentil ke-75 sangat berbeda (seperti yang di sebelah kanan) dan / atau ukuran sampel rendah, takik akan lebih lebar. Jika cukup lebar bahwa batas takik lebih ekstrem daripada persentil ke-25 dan ke-75 (alias kotak), maka plot kotak berlekuk akan menampilkan bentuk "luar-dalam" ini.
sumber