Bagaimana cara menyajikan plot kotak dengan pencilan ekstrim?

17

Saya bisa menggunakan beberapa panduan tentang penyajian beberapa data.

Plot pertama ini adalah perbandingan case-control untuk sitokin IL-10. Saya secara manual mengatur sumbu y untuk memasukkan 99% data.

IL-10 Dengan sumbu Y Manual

Alasan saya mengatur ini secara manual adalah karena grup kasus memiliki pencilan yang ekstrim. Dengan outlier

Kolaborator saya ragu untuk melakukan penghapusan pencilan ke dataset kami. Saya setuju dengan itu, tetapi mereka lebih suka tidak. Itu akan menjadi solusi yang jelas. Tetapi jika saya akan menyimpan semua data dan tidak menghapus pencilan ini, bagaimana saya bisa menyajikan boxplot ini secara optimal? Sumbu perpecahan? Apakah dapat diterima untuk menggunakan hanya grafik pertama dan perhatikan bahwa itu dibangun untuk memasukkan semua data? (Opsi ini terasa tidak jujur ​​bagi saya). Nasihat apa pun akan bagus.

Alex C
sumber
5
Mengapa tidak menyajikan kedua plot?
Alexis

Jawaban:

24

Saya akan mengatakan bahwa dengan data seperti ini Anda benar-benar perlu menunjukkan hasil pada skala yang diubah. Itu adalah keharusan pertama dan masalah yang lebih penting daripada bagaimana tepatnya menggambar plot kotak.

Tapi saya menggemakan Frank Harrell dalam mendesak sesuatu yang lebih informatif daripada plot kotak minimal, bahkan dengan beberapa poin ekstrim diidentifikasi. Anda memiliki cukup ruang untuk menampilkan lebih banyak informasi. Berikut adalah salah satu dari banyak contoh, kotak hibrida dan plot kuantil. Seperti dalam data Anda, ada dua kelompok yang dibandingkan.

masukkan deskripsi gambar di sini

Saya akan mengambil dua poin ini satu per satu dan mengatakan lebih banyak.

Skala yang diubah

Dalam kasus paling sederhana, semua nilai Anda mungkin positif dan Anda harus terlebih dahulu mencoba menggunakan skala logaritmik.

Jika Anda memiliki angka nol, skala akar kuadrat atau akar kubus masih akan meningkatkan kemiringan ekstrem. Beberapa orang senang dengan log (nilai + konstan), di mana konstanta paling umum adalah 1, sebagai cara mengatasi nol.

Implikasi untuk plot kotak menggunakan skala transformasi adalah halus.

Jika Anda menggunakan konvensi Tukey umum untuk menunjukkan secara individual semua poin di luar kuartil atas + 1,5 IQR atau kuartil rendah - 1,5 IQR, maka batas-batas tersebut harus dihitung pada skala yang diubah. Itu tidak sama dengan menghitung batas-batas itu pada skala asli, lalu mentransformasikannya.

Alih-alih, saya mendukung apa yang tampaknya masih menjadi konvensi minoritas dalam memilih kuantil untuk tujuan kumis. Salah satu dari beberapa keuntungannya adalah bahwa transformasi kuantil = kuantil transformasi, paling tidak cukup dekat untuk keperluan grafis dalam banyak kasus. (Cetakan kecil adalah setiap kali kuantil dihitung dengan interpolasi linier antara statistik pesanan yang berdekatan.)

Konvensi kuantil ini dikemukakan dengan cukup jelas oleh Cleveland (1985). Sebagai catatan, plot kotak yang disempurnakan dengan kotak ke kuartil, kotak yang lebih tipis ke oktaf luar (12,5 dan 87,5% poin) dan plot strip data digunakan dalam geografi dan klimatologi oleh (misalnya) Matthews (1936) dan Grove (1956), di bawah nama "diagram dispersi".

Lebih dari plot kotak

Plot kotak diciptakan kembali oleh Tukey sekitar tahun 1970 dan paling jelas dipromosikan dalam bukunya tahun 1977. Sebagian besar tujuannya adalah untuk mempromosikan grafik yang dapat dengan cepat digambar menggunakan pena (cil) dan kertas dalam eksplorasi informal. Dia juga menyarankan cara mengidentifikasi kemungkinan pencilan. Itu baik-baik saja, tetapi sekarang kita semua memiliki akses ke komputer, tidak ada masalah untuk menggambar grafik yang menunjukkan, jika tidak semua data, maka setidaknya lebih banyak detail. Peran ringkasan plot kotak sangat berharga, tetapi grafik juga dapat menunjukkan struktur halus, kalau-kalau itu menarik atau penting. (Dan apa yang menurut peneliti tidak menarik atau tidak penting mungkin lebih mencolok bagi pembaca mereka.)

Ada banyak ruang untuk ketidaksepakatan yang sopan tentang apa yang paling berhasil, tetapi menurut saya, plot kotak kosong sudah terlalu banyak terjual.

Pengguna stata dapat menemukan lebih banyak pada program yang menggambar angka di pos Statalist ini . Pengguna perangkat lunak lain seharusnya tidak mengalami kesulitan dalam menggambar sesuatu yang baik atau lebih baik (kalau tidak mengapa menggunakan perangkat lunak itu?).

Cleveland, WS 1985. Elemen data grafik. Monterey, CA: Wadsworth.

Grove, AT 1956. Erosi tanah di Nigeria. Dalam Steel, RW dan Fisher, CA (Eds) esai Geografis tentang tanah tropis Inggris. London: George Philip, 79-111.

Matthews, HA 1936. Pandangan baru tentang beberapa curah hujan India yang akrab. Scottish Geographical Magazine 52: 84-97.

Tukey, JW 1977. Analisis data eksplorasi. Membaca, MA: Addison-Wesley.

Nick Cox
sumber
1
Saya belum pernah melihat penjajaran plot kotak dan ECDF seperti ini sebelumnya. Benar-benar keren! Apa pendapat Anda tentang overlay dua ECDF di panel terpisah?
Frank Harrell
2
@ Frank Harrell Terima kasih. Overlay juga merupakan ide bagus. Lihat misalnya stata-journal.com/sjpdf.html?articlenum=gr0018 untuk beberapa contoh dalam pekerjaan saya.
Nick Cox
14

Tidak mengambil apa pun dari jawaban Nick yang luar biasa, yang menurut saya layak dicentang dan didukung - tetapi saya ingin menjelajahi beberapa kemungkinan.

Dengan data yang sangat miring pada beberapa urutan besarnya, merencanakan skala log sering kali cukup terbuka; Perhatikan bahwa Anda masih dapat memiliki tanda centang dan label tanda centang di nilai asli. (Saya setuju dengan poin Nick yang berkaitan dengan transformasi, jadi saya tidak akan memperluas lebih jauh tentang itu.)

Pilihan lain selain transformasi adalah melakukan sesuatu seperti plot kedua Anda, tetapi sertakan indikasi semua nilai yang tidak diplot:

  masukkan deskripsi gambar di sini

Dengan begitu Anda tidak menghapus outlier, hanya menampilkannya secara berbeda.

Namun, saya akan bergabung dengan Frank dan Nick dalam menyarankan menggunakan tampilan yang lebih informatif daripada boxplot biasa - kombinasi boxplot dengan plot kuantil dalam posting Nick tampaknya gagasan yang sangat baik, meskipun orang mungkin plot plot kuantil dengan ringan (atau di bawah , seperti di sini) kotak yang sesuai dan bukan di sampingnya:

  masukkan deskripsi gambar di sini

Jika Anda tidak melakukan hal seperti itu (hanya menggunakan boxplot sederhana, katakanlah), saya sarankan kotak yang jauh lebih sempit.

Glen_b -Reinstate Monica
sumber
3
Melapiskan plot kuantil dan kotak juga menarik. Ini menggarisbawahi bahwa plot kotak adalah pengurangan plot kuantil, meskipun untuk beberapa plot kotak kemudian mungkin tampak berlebihan. Untuk penekanan kuat pada hubungan antara kedua grafik, lihat misalnya Parzen, E. 1979. Pemodelan data statistik nonparametrik. Jurnal Asosiasi Statistik Amerika 74: 105-121
Nick Cox
Apakah Anda memiliki dataset OP? Atau apakah Anda menggores grafik / berpura-pura?
Nick Cox
2
@Nick Hanya berpura-pura, pada dasarnya; Saya secara efektif mengikis titik-titik ekstrem (hanya dengan tangan, ada begitu sedikit), dan kemudian menghasilkan nilai di bawah kuartil atas dengan mengambil sampel dari 3 seragam antara nilai yang diketahui (3 kuartil dan minimum), dan antara kuartil atas dan akhir dari kumis atas dengan eksponensial, kemudian menambahkan titik ekstrem di (supaya boxplots saya akan terlihat serupa). Setidaknya itulah inti dari gagasan itu. Poin ekstrem tidak akan akurat, sehingga nilai yang dicetak pada plot saya lebih seperti contoh.
Glen_b -Reinstate Monica
@ Glen_b Saya bisa mengajukan pertanyaan terpisah jika Anda mau, tetapi metode apa yang Anda gunakan untuk overlay plot quantile dengan boxplot?
Tavrock
@ Rockrock Sudah dua setengah tahun sejak saya menulis itu, jadi saya kira. Yang jelas harus dilakukan adalah panggilan pointsuntuk menampilkan nilai-nilai kuantil (kelihatannya seperti sesuatu di sepanjang garis xs=sort(x); points(ppoints(xs),xs)setelah boxplot, tetapi pada pemeriksaan dekat poin-poinnya berada di bawah boxplot, sehingga mungkin telah plot kemudian boxplot dengan add = TRUE atau itu mungkin boxplot, lalu poin kemudian boxplot di atas ... mungkin
Glen_b -Reinstate Monica