Apa cara terbaik untuk memvisualisasikan hubungan antara variabel diskrit dan kontinu?

19

Apa cara terbaik untuk menunjukkan hubungan antara:

  • variabel kontinu dan diskrit,
  • dua variabel diskrit?

Sejauh ini saya telah menggunakan sebar plot untuk melihat hubungan antara variabel kontinu. Namun dalam kasus variabel diskrit, titik data diakumulasikan pada interval tertentu. Dengan demikian garis yang paling cocok mungkin bias.

pemula
sumber
4
Untuk kasus diskrit-diskrit, jawaban untuk pertanyaan yang agak terkait di sini , tentang memplot data kategoris yang dipesan dapat membantu (meskipun mungkin tanpa kotak dalam kasus Anda). Saya benar-benar tidak yakin bagaimana menurut Anda 'bias' ini muncul; itu akan memengaruhi kesan visual dari titik data (mengarah ke penggunaan mengharapkan garis untuk pergi ke suatu tempat selain di mana seharusnya) tetapi tidak data aktual itu sendiri. Bisakah Anda menjelaskan alasan Anda di sini?
Glen_b -Reinstate Monica

Jawaban:

26

Bawah: Plot asli mungkin menyesatkan karena sifat diskrit dari variabel membuat poin tumpang tindih:

masukkan deskripsi gambar di sini

Salah satu cara untuk mengatasinya adalah dengan memperkenalkan transparansi pada simbol data:

masukkan deskripsi gambar di sini

Cara lain adalah dengan menggeser lokasi simbol dengan lembut untuk membuat noda. Teknik ini disebut "jittering:"

masukkan deskripsi gambar di sini

Kedua solusi akan tetap memungkinkan Anda untuk menyesuaikan garis lurus untuk menilai linearitas.

Kode R untuk referensi Anda:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)
Penguin_Knight
sumber
1
Jawaban bagus. Bagaimana dengan plot bubble-scatter dengan jumlah instance variabel? Saya mencoba menggunakan teknik-teknik ini pada kumpulan data besar dan itu semua terlalu lama merender alfanya.
Astaga
14

Saya akan menggunakan boxplots untuk menampilkan hubungan antara variabel diskrit dan kontinu. Anda dapat membuat plot kotak vertikal atau horizontal dengan perangkat lunak statistik standar, sehingga mudah untuk divisualisasikan sebagai IV atau DV. Itu ini dimungkinkan untuk menggunakan sebar dengan variabel diskrit dan kontinu, hanya menetapkan nomor telepon ke variabel diskrit (misalnya, 1 & 2), dan jitter nilai-nilai (catatan atas tanah di sebelah kanan disini ).

Mengenai komentar Anda bahwa garis yang paling cocok mungkin bias, itu tergantung pada apa yang Anda miliki. Misalnya, jika Anda memiliki variabel diskrit dengan dua level sebagai IV Anda, dan variabel kontinu sebagai DV Anda, Anda bisa menggambar garis melalui dua cara dan ini tidak akan bias. (Kami biasanya akan menganggap situasi ini sesuai untuk uji-t, tetapi sebenarnya ini adalah bentuk - yaitu, kasus sederhana - regresi, lihat jawaban saya di sini .) Di sisi lain, jika Anda memiliki diskrit variabel dengan dua level sebagai DV Anda, regresi standar (OLS) akan menjadi tidak sesuai (regresi logistik akan dipanggil) dan garis yang paling cocok akan menjadi bias, tetapi Anda dapat memasukkan (& memplot) garis kerendahan sebagai bagian dari inisial Anda eksplorasi data.

Untuk memvisualisasikan hubungan antara dua variabel diskrit, saya akan menggunakan plot mosaik . Anda juga bisa menggunakan plot saringan , plot asosiasi , atau plot tekanan dinamis dengan beberapa pemrograman.

gung - Pasang kembali Monica
sumber
8

Ketika mempertimbangkan hubungan antara variabel hasil biner dan prediktor terus menerus, saya akan menggunakan halus loess (dengan deteksi outlier dimatikan, misalnya, dalam R lowess(x, y, iter=0).

Dalam rilis selanjutnya dari Hmiscpaket R Anda dapat dengan mudah membuat latticegrafik tunggal yang menempatkan kurva seperti itu ke tampilan multipanel untuk banyak prediktor, misalnya

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)
Frank Harrell
sumber
1

Jika Anda tidak puas dengan plot pencar sederhana, Anda mungkin ingin menambahkan frekuensi titik data pada setiap nilai variabel diskrit. Cara melakukan ini tergantung pada program statistik yang Anda gunakan. Berikut adalah contoh untuk Stata. Anda juga dapat menerapkan ini pada plot sebar dari dua variabel kategori. Kalau tidak, plot kotak atau bagan bilah yang dilapis mungkin baik-baik saja tetapi ini benar-benar tergantung pada bagaimana Anda ingin menyajikan variabel-variabel ini.

Andy
sumber
1

Saya menemukan makalah yang berlaku pada hubungan antara dua variabel biner di http://www.boekboek.com/xb130929113026 - di sini, dalam artikel itu ditunjukkan dan terbukti bahwa kekuatan hubungan antara dua variabel biner dapat dinyatakan sebagai sebagian kecil dari asosiasi yang sempurna. Jadi menjadi mungkin dan lebih disukai untuk menyatakan: hubungan antara variabel A dan variabel B misalnya 50%, bukannya menyatakan secara kontemporer: OR = 9 (tidak mudah untuk diartikan) atau risiko realtive = 2 (sementara risiko relatif dianggap juga menjadi ukuran hubungan meskipun sebenarnya itu adalah fungsi asosiasi, prevalensi atau kejadian dan positif).

Erik
sumber