Saya dari latar belakang ekonomi dan biasanya dalam disiplin statistik ringkasan variabel dilaporkan dalam tabel. Namun, saya ingin merencanakannya.
Saya bisa memodifikasi plot kotak untuk memungkinkannya menampilkan mean, standar deviasi, minimum dan maksimum tetapi saya tidak ingin melakukannya karena plot kotak secara tradisional digunakan untuk menampilkan median dan Q1 dan Q3.
Semua variabel saya memiliki skala yang berbeda. Akan lebih bagus jika seseorang bisa menyarankan cara yang berarti di mana saya bisa memplot statistik ringkasan ini. Saya dapat bekerja dengan R atau Stata.
r
data-visualization
boxplot
Ridhima
sumber
sumber
R
perintah maka pertanyaan ini di luar topik di sini. Tapi sepertinya Anda bertanya terutama tentang seperti apa plot yang akan terlihat dan kedua tentang cara membuatnya. Jika demikian, saya sarankan menghapus "dengan R" dari judul Anda dan mungkin menyatakan, di tubuh, bahwa Anda telahR
tersedia.Jawaban:
Ada alasan mengapa boxplot Tukey bersifat universal, dapat diterapkan pada data yang berasal dari distribusi yang berbeda, dari Gaussian ke Poisson, dll. normalitas. Namun, mean dan SD lebih rentan terhadap outlier, dan mereka harus ditafsirkan sehubungan dengan distribusi yang mendasarinya. Solusi di bawah ini lebih cocok untuk data normal atau log-normal. Anda dapat menelusuri pilihan langkah-langkah yang kuat di sini , dan menjelajahi paket WRS R di sini .
Selain itu dengan menambahkan
+ geom_jitter()
atau+ geom_point()
ke kode di atas Anda dapat secara bersamaan memvisualisasikan nilai data mentah.Terima kasih kepada @Roland karena menunjukkan plot biola . Ini memiliki keuntungan dalam memvisualisasikan kepadatan probabilitas pada saat yang sama dengan statistik ringkasan:
Kedua contoh ditunjukkan di bawah ini.
sumber
Ada banyak sekali kemungkinan.
Salah satu opsi yang saya lihat digunakan yang menghindari kebingungan dengan boxplots (dengan asumsi Anda memiliki median atau data asli tersedia) adalah untuk plot boxplot dan menambahkan simbol yang menandai rata-rata (mudah-mudahan dengan legenda untuk membuat ini eksplisit). Versi boxplot yang menambahkan penanda untuk nilai tengah disebutkan, misalnya dalam Frigge et al (1989) [1]:
Plot kiri menunjukkan simbol + sebagai penanda rata-rata dan plot kanan menggunakan segitiga di tepi, mengadaptasi penanda rata-rata dari plot balok-dan-titik tumpu Doane & Tracy [2].
Lihat juga pos SO ini dan yang ini
Jika Anda tidak memiliki (atau benar-benar tidak ingin menunjukkan) median plot baru akan diperlukan dan kemudian akan baik untuk secara visual berbeda dari boxplot.
Mungkin kira-kira seperti ini:
Jika angka Anda berada pada skala yang sangat berbeda, tetapi semuanya positif, Anda dapat mempertimbangkan bekerja dengan log, atau Anda mungkin melakukan kelipatan kecil dengan skala yang berbeda (tetapi ditandai dengan jelas)
Kode (saat ini tidak terlalu bagus 'kode', tetapi saat ini hanya mengeksplorasi ide, ini bukan tutorial tentang menulis kode R baik):
[1] Frigge, M., DC Hoaglin, dan B. Iglewicz (1989),
"Beberapa implementasi dari plot kotak."
Ahli Statistik Amerika , 43 (Feb): 50-54.
[2] Doane DP dan RL Tracy (2000),
"Menggunakan Layar Beam dan Fulcrum untuk Menggali Data"
American Statistician , 54 (4): 289–290, November
sumber