Apa cara yang baik untuk secara grafis mewakili sejumlah besar titik data berpasangan?

9

Di bidang saya, cara yang biasa untuk memplot data berpasangan adalah sebagai serangkaian segmen garis miring tipis, menimpanya dengan median dan CI median untuk dua kelompok:

masukkan deskripsi gambar di sini

Namun, plot semacam ini menjadi lebih sulit dibaca karena jumlah titik data menjadi sangat besar (dalam kasus saya yang saya miliki di urutan 10.000 pasang):

masukkan deskripsi gambar di sini

Mengurangi alpha sedikit membantu, tapi itu masih tidak bagus. Saat mencari solusi saya menemukan makalah ini , dan memutuskan untuk mencoba menerapkan 'plot garis paralel'. Sekali lagi, ini bekerja sangat baik untuk sejumlah kecil titik data:

masukkan deskripsi gambar di sini

Tetapi bahkan lebih sulit untuk membuat plot seperti ini terlihat bagus ketika sangat besar:N

masukkan deskripsi gambar di sini

Saya kira saya dapat secara terpisah menunjukkan distribusi untuk dua kelompok, misalnya dengan plot kotak atau biola, dan plot garis dengan errorbar di atas menunjukkan dua median / CI, tapi saya benar-benar tidak suka ide itu, karena tidak akan menyampaikan sifat data yang dipasangkan.

Saya juga tidak terlalu tertarik pada ide plot sebar 2D: Saya lebih suka representasi yang lebih kompak, dan idealnya satu di mana nilai-nilai untuk dua kelompok diplot sepanjang sumbu yang sama. Demi kelengkapan, berikut adalah data yang tampak seperti pencar 2D:

masukkan deskripsi gambar di sini

Adakah yang tahu cara yang lebih baik untuk merepresentasikan data berpasangan dengan ukuran sampel yang sangat besar? Bisakah Anda menautkan saya ke beberapa contoh?

Edit

Maaf, saya jelas belum melakukan pekerjaan yang cukup baik dalam menjelaskan apa yang saya cari. Ya, plot pencar 2D berfungsi, dan ada banyak cara untuk meningkatkan kerapatan poin - saya bisa mewarnai kode titik-titik menurut perkiraan kepadatan kernel, saya bisa membuat histogram 2D , Saya dapat memplot kontur di atas titik-titik dll, dll.

Namun, saya pikir ini berlebihan untuk pesan yang saya coba sampaikan. Saya tidak benar-benar peduli untuk menunjukkan kerapatan 2D titik per se - yang perlu saya lakukan adalah menunjukkan bahwa nilai untuk 'bar' umumnya lebih besar daripada 'titik', dalam cara yang sesederhana dan sejelas mungkin. , dan tanpa kehilangan sifat penting pasangan data. Idealnya saya ingin memplot nilai-nilai berpasangan untuk dua kelompok di sepanjang sumbu yang sama daripada ortogonal, karena ini membuatnya lebih mudah untuk membandingkannya secara visual.

Mungkin tidak ada pilihan yang lebih baik daripada sebaran plot, tetapi saya ingin tahu apakah ada alternatif yang mungkin berhasil.

ali_m
sumber
1
Sudahkah Anda mencoba memplot nilai yang sesuai barpada horizontal dan dotpada sumbu vertikal sebagai sebaran?
Hingga Hoffmann
@TillHoffmann Ya, saya menyebutkan itu di akhir pertanyaan saya. Ini mungkin pilihan terbaik yang saya miliki saat ini, tetapi saya lebih suka representasi yang lebih ringkas, dan idealnya yang mewakili nilai-nilai kedua kelompok di sepanjang sumbu yang sama (mungkin saya sedang menuntut terlalu banyak ...). Saya akan menambahkan scatterplot ke pertanyaan saya.
ali_m
maaf, saya melewatkannya. Bagaimana Anda menghasilkan data sintetis Anda saat ini?
Hingga Hoffmann
2
Bisakah Anda menjelaskan apa yang Anda maksud dengan representasi "kompak"? Plot sebaran jelas lebih unggul dari yang lain dalam hal menunjukkan hubungan serta data yang tidak biasa secara individu di area kecil; itu hanya tumbuh lebih baik dengan meningkatnya ukuran dataset. (10.000 tidak besar untuk sebaran.) Anda menyebutkan begitu banyak grafik yang berbeda sehingga tidak mungkin untuk menyimpulkan apa yang sebenarnya Anda butuhkan. Tolong beri tahu kami tujuan visualisasi Anda: informasi seperti apa yang Anda harapkan untuk Anda pelajari atau sampaikan kepada orang lain? Seberapa akurat dan cepat Anda bermaksud untuk dipahami dan dipahami?
whuber
1
@whuber Maaf karena tidak jelas. Apa yang saya harapkan adalah cara untuk merepresentasikan data sedemikian rupa sehingga nilai-nilai untuk kedua kelompok diplot sepanjang sama, bukan sumbu ortogonal (karena mereka berada di plot 'garis miring' dan 'garis paralel'). Pesannya sangat sederhana - bahwa nilai untuk 'bar' umumnya lebih tinggi daripada untuk 'titik'. Di luar itu, saya tidak terlalu peduli mewakili kepadatan distribusi, meskipun saya ingin menyampaikan bahwa ada banyak pasangan dalam sampel.
ali_m

Jawaban:

7

Mengingat bagaimana saya memahami tujuan Anda, saya hanya akan menghitung perbedaan berpasangan ( bars - dots), lalu plot perbedaan-perbedaan ini dalam plot histogram atau estimasi kepadatan kernel. Anda juga dapat menambahkan kombinasi (1) garis vertikal yang sesuai dengan nol perbedaan (2) pilihan persentil apa pun.

Ini akan menyoroti bagian mana dari data yang telah barsmelebihi dots, dan umumnya apa perbedaan yang diamati.

(Saya berasumsi bahwa Anda tidak tertarik menampilkan nilai mentah aktual barsdan dotsdalam plot yang sama.)

Seseorang juga dapat memplot kepercayaan atau interval kredibel posterior untuk menunjukkan apakah perbedaan ini signifikan. (H / T @MrMeritology!)

Sean Easter
sumber
Menambahkan ke jawaban ini: Anda juga dapat merencanakan interval kepercayaan untuk perbedaan pasangan yang secara visual akan menunjukkan apakah perbedaan itu signifikan atau tidak.
MrMeritology
yB=μ+offset(yA)+Δ(yAy¯A
2

yB-ySEBUAHySEBUAH

yB=μ+mengimbangi(ySEBUAH)+Δ(ySEBUAH-y¯SEBUAH)+ϵ
+Δ2(ySEBUAH-y¯SEBUAH)2

Secara grafis Anda dapat menunjukkan garis-garis seperti yang Anda tunjukkan, dengan faktor alfa yang dikurangi (*), mungkin berkurang lebih lanjut dengan hanya menunjukkan sampel garis acak. Maka Anda bisa mewarnai garis sesuai dengan kemiringan ...

Untuk plot Bland-Altman, yang disebutkan dalam komentar oleh Nick Cox, lihat misalnya untuk Perjanjian antara metode dengan beberapa pengamatan per individu atau lihat melalui tag .

(*) Faktor alfa di sini adalah parameter grafis yang membuat titik-titik dalam plot transparan, sehingga titik-titik yang diplot pertama tidak sepenuhnya terselubung dengan kemudian overplotting.

kjetil b halvorsen
sumber
1
-
1

Saya lebih suka plot pencar 2D. Saya akan menggambar garis referensi dalam abu-abu muda untuk lebih kontras di wilayah yang ramai. Untuk mengurangi keramaian, gambar marker tanpa batas, kurangi alfa, kurangi ukuran marker.

Yang mengatakan, jika Anda lebih tertarik pada pasangan tipikal daripada pada sayap distribusi, coba garis-plot jumlah kumulatif dari jumlah kumulatif dotsversus bars. Plotnya masih 2D tetapi dengan tinta jauh lebih sedikit. Untuk menyimpan juga area plot, Anda dapat memutar jejak sebesar 45 ° sehingga frame berfungsi sebagai arah referensi.

Plot itu juga akan menunjukkan tren dalam data. Jika proses diketahui stasioner, urutkan pasangan dengan, misalnya, rata-rata geometriknya sqrt(bars*dots),.

Rainald62
sumber
0

Saya akan merekomendasikan merencanakan garis-garis seperti yang Anda miliki untuk median dan kuartil, atau persentil sebanyak yang Anda inginkan dalam hal ini. Median bisa tetap lebih tebal / lebih dapat dilihat daripada garis persentil lainnya. Ini akan membantu menjaga kemampuan untuk melihat bagaimana data berperilaku di seluruh distribusi tanpa mengurangi kesederhanaan dan keakraban plot yang saat ini digunakan di bidang Anda.

Juga, dengan ukuran sampel yang tinggi, tren rata-rata atau median dengan bar kesalahan kemungkinan akan cukup karena Anda akan benar-benar menikmati teorema limit pusat. Bidang biomedis juga bergantung pada plot garis berpasangan tersebut, tetapi hal ini sering terjadi karena ukuran sampel dapat berada di urutan 10-20, sehingga penting untuk memvisualisasikan titik leverage potensial.

Moose
sumber
0

Saran pertama saya adalah sebar plot.

Jika 10.000 titik yang tersebar tidak merata di plot Anda masih merupakan awan yang tidak jelas, pertimbangkan peta panas. Warna piksel pada x = 10,5, y = 11,5 akan menunjukkan berapa kali nilai antara 10,45 dan 10,55 dipetakan ke nilai antara 11,45 dan 11,55: 0 = putih = RGB (255,255,255), 1 = biru = RGB (0, 0,255), 2 = RGB (1,0254), ... 256 dan di atas = RGB (255,0,0) = merah

Dirk Horsten
sumber
Itu pada dasarnya memberi saya jenis representasi yang sama dengan sebaran 2D, kecuali dengan resolusi kurang. Saya mungkin akhirnya melakukan sesuatu seperti ini, tetapi saya idealnya berharap untuk representasi yang lebih kompak yang memplot nilai-nilai untuk kedua kelompok di sepanjang sumbu yang sama, daripada sumbu ortogonal.
ali_m
1
Melihat plot pencar Anda, saya melihat Anda kehilangan banyak informasi di tengah "titik tinta" Anda. Anda perlu melakukan sesuatu, baik dengan menerapkan transformasi (logaritma?) Atau dengan peta kesehatan yang saya sarankan.
Dirk Horsten
Maaf! Saran Anda benar-benar masuk akal - saya hanya belum melakukan pekerjaan yang cukup baik dalam menjelaskan apa yang saya cari. Ya, plot dua dimensi (sebar, peta panas, plot kontur, dll.) Akan berfungsi dengan baik dalam merepresentasikan kepadatan titik sampel, tetapi saya pikir itu lebih banyak informasi daripada yang sebenarnya perlu saya tampilkan. Yang perlu saya lakukan adalah menunjukkan bahwa nilai untuk 'bar' umumnya lebih tinggi daripada untuk 'titik'. Saya mencari cara paling sederhana untuk menunjukkan ini sambil menjaga sifat data yang dipasangkan.
ali_m
Apakah diagonal pada plot catter tidak menunjukkan arah yang cukup baik?
Dirk Horsten
Tidak, tapi mungkin saya punya harapan yang tidak masuk akal :-)
ali_m