Di bidang saya, cara yang biasa untuk memplot data berpasangan adalah sebagai serangkaian segmen garis miring tipis, menimpanya dengan median dan CI median untuk dua kelompok:
Namun, plot semacam ini menjadi lebih sulit dibaca karena jumlah titik data menjadi sangat besar (dalam kasus saya yang saya miliki di urutan 10.000 pasang):
Mengurangi alpha sedikit membantu, tapi itu masih tidak bagus. Saat mencari solusi saya menemukan makalah ini , dan memutuskan untuk mencoba menerapkan 'plot garis paralel'. Sekali lagi, ini bekerja sangat baik untuk sejumlah kecil titik data:
Tetapi bahkan lebih sulit untuk membuat plot seperti ini terlihat bagus ketika sangat besar:
Saya kira saya dapat secara terpisah menunjukkan distribusi untuk dua kelompok, misalnya dengan plot kotak atau biola, dan plot garis dengan errorbar di atas menunjukkan dua median / CI, tapi saya benar-benar tidak suka ide itu, karena tidak akan menyampaikan sifat data yang dipasangkan.
Saya juga tidak terlalu tertarik pada ide plot sebar 2D: Saya lebih suka representasi yang lebih kompak, dan idealnya satu di mana nilai-nilai untuk dua kelompok diplot sepanjang sumbu yang sama. Demi kelengkapan, berikut adalah data yang tampak seperti pencar 2D:
Adakah yang tahu cara yang lebih baik untuk merepresentasikan data berpasangan dengan ukuran sampel yang sangat besar? Bisakah Anda menautkan saya ke beberapa contoh?
Edit
Maaf, saya jelas belum melakukan pekerjaan yang cukup baik dalam menjelaskan apa yang saya cari. Ya, plot pencar 2D berfungsi, dan ada banyak cara untuk meningkatkan kerapatan poin - saya bisa mewarnai kode titik-titik menurut perkiraan kepadatan kernel, saya bisa membuat histogram 2D , Saya dapat memplot kontur di atas titik-titik dll, dll.
Namun, saya pikir ini berlebihan untuk pesan yang saya coba sampaikan. Saya tidak benar-benar peduli untuk menunjukkan kerapatan 2D titik per se - yang perlu saya lakukan adalah menunjukkan bahwa nilai untuk 'bar' umumnya lebih besar daripada 'titik', dalam cara yang sesederhana dan sejelas mungkin. , dan tanpa kehilangan sifat penting pasangan data. Idealnya saya ingin memplot nilai-nilai berpasangan untuk dua kelompok di sepanjang sumbu yang sama daripada ortogonal, karena ini membuatnya lebih mudah untuk membandingkannya secara visual.
Mungkin tidak ada pilihan yang lebih baik daripada sebaran plot, tetapi saya ingin tahu apakah ada alternatif yang mungkin berhasil.
bar
pada horizontal dandot
pada sumbu vertikal sebagai sebaran?Jawaban:
Mengingat bagaimana saya memahami tujuan Anda, saya hanya akan menghitung perbedaan berpasangan (
bars - dots
), lalu plot perbedaan-perbedaan ini dalam plot histogram atau estimasi kepadatan kernel. Anda juga dapat menambahkan kombinasi (1) garis vertikal yang sesuai dengan nol perbedaan (2) pilihan persentil apa pun.Ini akan menyoroti bagian mana dari data yang telah
bars
melebihidots
, dan umumnya apa perbedaan yang diamati.(Saya berasumsi bahwa Anda tidak tertarik menampilkan nilai mentah aktual
bars
dandots
dalam plot yang sama.)Seseorang juga dapat memplot kepercayaan atau interval kredibel posterior untuk menunjukkan apakah perbedaan ini signifikan. (H / T @MrMeritology!)
sumber
Secara grafis Anda dapat menunjukkan garis-garis seperti yang Anda tunjukkan, dengan faktor alfa yang dikurangi (*), mungkin berkurang lebih lanjut dengan hanya menunjukkan sampel garis acak. Maka Anda bisa mewarnai garis sesuai dengan kemiringan ...
Untuk plot Bland-Altman, yang disebutkan dalam komentar oleh Nick Cox, lihat misalnya untuk Perjanjian antara metode dengan beberapa pengamatan per individu atau lihat melalui tag plot-altland bland .
(*) Faktor alfa di sini adalah parameter grafis yang membuat titik-titik dalam plot transparan, sehingga titik-titik yang diplot pertama tidak sepenuhnya terselubung dengan kemudian overplotting.
sumber
Saya lebih suka plot pencar 2D. Saya akan menggambar garis referensi dalam abu-abu muda untuk lebih kontras di wilayah yang ramai. Untuk mengurangi keramaian, gambar marker tanpa batas, kurangi alfa, kurangi ukuran marker.
Yang mengatakan, jika Anda lebih tertarik pada pasangan tipikal daripada pada sayap distribusi, coba garis-plot jumlah kumulatif dari jumlah kumulatif
dots
versusbars
. Plotnya masih 2D tetapi dengan tinta jauh lebih sedikit. Untuk menyimpan juga area plot, Anda dapat memutar jejak sebesar 45 ° sehingga frame berfungsi sebagai arah referensi.Plot itu juga akan menunjukkan tren dalam data. Jika proses diketahui stasioner, urutkan pasangan dengan, misalnya, rata-rata geometriknya
sqrt(bars*dots)
,.sumber
Saya akan merekomendasikan merencanakan garis-garis seperti yang Anda miliki untuk median dan kuartil, atau persentil sebanyak yang Anda inginkan dalam hal ini. Median bisa tetap lebih tebal / lebih dapat dilihat daripada garis persentil lainnya. Ini akan membantu menjaga kemampuan untuk melihat bagaimana data berperilaku di seluruh distribusi tanpa mengurangi kesederhanaan dan keakraban plot yang saat ini digunakan di bidang Anda.
Juga, dengan ukuran sampel yang tinggi, tren rata-rata atau median dengan bar kesalahan kemungkinan akan cukup karena Anda akan benar-benar menikmati teorema limit pusat. Bidang biomedis juga bergantung pada plot garis berpasangan tersebut, tetapi hal ini sering terjadi karena ukuran sampel dapat berada di urutan 10-20, sehingga penting untuk memvisualisasikan titik leverage potensial.
sumber
Saran pertama saya adalah sebar plot.
Jika 10.000 titik yang tersebar tidak merata di plot Anda masih merupakan awan yang tidak jelas, pertimbangkan peta panas. Warna piksel pada x = 10,5, y = 11,5 akan menunjukkan berapa kali nilai antara 10,45 dan 10,55 dipetakan ke nilai antara 11,45 dan 11,55: 0 = putih = RGB (255,255,255), 1 = biru = RGB (0, 0,255), 2 = RGB (1,0254), ... 256 dan di atas = RGB (255,0,0) = merah
sumber