Bagaimana menafsirkan plot kotak berlekuk

11

Sambil melakukan beberapa EDA saya memutuskan untuk menggunakan plot kotak untuk menggambarkan perbedaan antara dua tingkat faktor.

Cara ggplot membuat plot kotak cukup memuaskan, tetapi sedikit sederhana (plot pertama di bawah). Sementara meneliti karakteristik plot kotak saya mulai bereksperimen dengan takik.

Saya mengerti takik menampilkan CI di sekitar median, dan bahwa jika dua takik kotak tidak tumpang tindih ada 'bukti kuat' - pada tingkat kepercayaan 95% - bahwa median berbeda.

Dalam kasus saya (plot kedua), takik tidak saling tumpang tindih. Tetapi mengapa bagian bawah kotak di sisi kanan mengambil bentuk aneh itu?

Memplot data yang sama dalam plot biola tidak menunjukkan sesuatu yang tidak biasa tentang kepadatan probabilitas biola yang sesuai.

gbr.1 boxplot

gbr. 2 boxplot berlekuk

RDJ
sumber
1
Dalam kode ggplot Anda, Anda harus menggunakan fill = factor (am) karena saat ini saya digunakan sebagai variabel numerik.
rnso
Itu tempat yang bagus @rnso
RDJ
Adakah yang bisa memposting data asli? Saya kira mereka dari kotak pasir standar untuk ggplot2. Saya suka gagasan untuk memplot poin data individual juga, tapi itu frustrasi sejauh poin dalam kotak gelap dibuat tidak terlihat.
Nick Cox

Jawaban:

18

Dalam kasus saya (plot kedua), takik tidak saling tumpang tindih. Tetapi mengapa bagian bawah kotak di sisi kanan mengambil bentuk aneh itu? Bagaimana saya menjelaskannya?

Ini menunjukkan bahwa persentil ke-25 adalah sekitar 21, persentil ke-75 sekitar 30,5. Dan batas bawah dan atas takik sekitar 18 dan 27.

Alasan umum adalah bahwa distribusi Anda miring atau ukuran sampel rendah. Batas takik didasarkan pada:

median±1.57×IQRn

Jika jarak antara median dan persentil ke-25 dan jarak antara median dan persentil ke-75 sangat berbeda (seperti yang di sebelah kanan) dan / atau ukuran sampel rendah, takik akan lebih lebar. Jika cukup lebar bahwa batas takik lebih ekstrem daripada persentil ke-25 dan ke-75 (alias kotak), maka plot kotak berlekuk akan menampilkan bentuk "luar-dalam" ini.

Penguin_Knight
sumber
1
Terima kasih banyak atas penjelasan terperinci Anda. Izinkan saya bertanya, mengapa batas bawah dan atas takik adalah sekitar 17 dan 24, bukan sekitar 18 dan 27 (di kotak kanan)?
Denis
@Denis, Terima kasih sudah menangkap itu. Saya telah merevisinya.
Penguin_Knight