Apa cara terbaik untuk menunjukkan hubungan antara:
- variabel kontinu dan diskrit,
- dua variabel diskrit?
Sejauh ini saya telah menggunakan sebar plot untuk melihat hubungan antara variabel kontinu. Namun dalam kasus variabel diskrit, titik data diakumulasikan pada interval tertentu. Dengan demikian garis yang paling cocok mungkin bias.
Jawaban:
Bawah: Plot asli mungkin menyesatkan karena sifat diskrit dari variabel membuat poin tumpang tindih:
Salah satu cara untuk mengatasinya adalah dengan memperkenalkan transparansi pada simbol data:
Cara lain adalah dengan menggeser lokasi simbol dengan lembut untuk membuat noda. Teknik ini disebut "jittering:"
Kedua solusi akan tetap memungkinkan Anda untuk menyesuaikan garis lurus untuk menilai linearitas.
Kode R untuk referensi Anda:
sumber
Saya akan menggunakan boxplots untuk menampilkan hubungan antara variabel diskrit dan kontinu. Anda dapat membuat plot kotak vertikal atau horizontal dengan perangkat lunak statistik standar, sehingga mudah untuk divisualisasikan sebagai IV atau DV. Itu ini dimungkinkan untuk menggunakan sebar dengan variabel diskrit dan kontinu, hanya menetapkan nomor telepon ke variabel diskrit (misalnya, 1 & 2), dan jitter nilai-nilai (catatan atas tanah di sebelah kanan disini ).
Mengenai komentar Anda bahwa garis yang paling cocok mungkin bias, itu tergantung pada apa yang Anda miliki. Misalnya, jika Anda memiliki variabel diskrit dengan dua level sebagai IV Anda, dan variabel kontinu sebagai DV Anda, Anda bisa menggambar garis melalui dua cara dan ini tidak akan bias. (Kami biasanya akan menganggap situasi ini sesuai untuk uji-t, tetapi sebenarnya ini adalah bentuk - yaitu, kasus sederhana - regresi, lihat jawaban saya di sini .) Di sisi lain, jika Anda memiliki diskrit variabel dengan dua level sebagai DV Anda, regresi standar (OLS) akan menjadi tidak sesuai (regresi logistik akan dipanggil) dan garis yang paling cocok akan menjadi bias, tetapi Anda dapat memasukkan (& memplot) garis kerendahan sebagai bagian dari inisial Anda eksplorasi data.
Untuk memvisualisasikan hubungan antara dua variabel diskrit, saya akan menggunakan plot mosaik . Anda juga bisa menggunakan plot saringan , plot asosiasi , atau plot tekanan dinamis dengan beberapa pemrograman.
sumber
Ketika mempertimbangkan hubungan antara variabel hasil biner dan prediktor terus menerus, saya akan menggunakan halus loess (dengan deteksi outlier dimatikan, misalnya, dalam R
lowess(x, y, iter=0)
.Dalam rilis selanjutnya dari
Hmisc
paket R Anda dapat dengan mudah membuatlattice
grafik tunggal yang menempatkan kurva seperti itu ke tampilan multipanel untuk banyak prediktor, misalnyasumber
Jika Anda tidak puas dengan plot pencar sederhana, Anda mungkin ingin menambahkan frekuensi titik data pada setiap nilai variabel diskrit. Cara melakukan ini tergantung pada program statistik yang Anda gunakan. Berikut adalah contoh untuk Stata. Anda juga dapat menerapkan ini pada plot sebar dari dua variabel kategori. Kalau tidak, plot kotak atau bagan bilah yang dilapis mungkin baik-baik saja tetapi ini benar-benar tergantung pada bagaimana Anda ingin menyajikan variabel-variabel ini.
sumber
Saya menemukan makalah yang berlaku pada hubungan antara dua variabel biner di http://www.boekboek.com/xb130929113026 - di sini, dalam artikel itu ditunjukkan dan terbukti bahwa kekuatan hubungan antara dua variabel biner dapat dinyatakan sebagai sebagian kecil dari asosiasi yang sempurna. Jadi menjadi mungkin dan lebih disukai untuk menyatakan: hubungan antara variabel A dan variabel B misalnya 50%, bukannya menyatakan secara kontemporer: OR = 9 (tidak mudah untuk diartikan) atau risiko realtive = 2 (sementara risiko relatif dianggap juga menjadi ukuran hubungan meskipun sebenarnya itu adalah fungsi asosiasi, prevalensi atau kejadian dan positif).
sumber