Saya punya tiga variabel:
- jarak (kontinu, kisaran tak terbatas negatif hingga tak terhingga positif)
- isLand (kategori diskrit / Boolean, rentang variabel 1 atau 0)
- penghuni (kategori diskrit, rentang variabel 0-7)
Saya ingin menjawab pertanyaan statistik berikut:
- Bagaimana cara membandingkan distribusi yang memiliki variabel kategorikal dan kontinu. Sebagai contoh, saya ingin menentukan apakah distribusi data jarak vs penghuni bervariasi tergantung pada nilai isLand.
- Dengan dua dari tiga variabel, dapatkah saya memprediksi yang ketiga menggunakan beberapa persamaan?
- Bagaimana saya bisa menentukan independensi dengan lebih dari dua variabel?
categorical-data
continuous-data
Elpezmuerto
sumber
sumber
occupants
apa yang Anda dapatkan adalah variabel ordinal, jadi saya tidak akan menganggapnya sebagai kategori. Apalagi dengan 8 nilai, itu hampir terus menerus.Jawaban:
Saya akan merekomendasikan membaca tentang model logistik atau log-linear pada khususnya, dan metode analisis data kategorikal secara umum. Catatan pada kursus berikut cukup bagus untuk memulai: Analisis Data Diskrit . Buku teks oleh Agresti cukup bagus. Anda mungkin juga mempertimbangkan Kleinbaum untuk memulai dengan cepat.
sumber
dist ~ occ | isLand
menggunakan Lattice, atau melihatcoplot()
fungsi dalamvcd
paket - ini untuk tujuan eksplorasi; pertanyaan 2 meminta model prediksi; tergantung pada variabel yang Anda anggap sebagai hasil Anda, itu mungkin regresi logistik (misalnya jika Y = isLand), regresi linier (misalnya jika Y = jarak), atau secara langsung model log-linear yang memberikan Anda kategorikan pengukuran kontinu; pertanyaan 3 jelas merupakan model log-linear seperti yang disarankan oleh @ars.Untuk menguji hubungan antara faktor kontinu dan kategoris, awal yang baik adalah dengan menggunakan plot kotak berdampingan, kontinu di sebelah kiri, kategoris di bagian bawah. Apakah caranya berbeda? Gunakan ANOVA untuk memeriksa.
Untuk menguji hubungan antara faktor-faktor kategorikal, awal yang baik adalah dengan menggunakan plot mosaik, serta tabel kontingensi. Anda dapat mengelompokkannya terlebih dahulu lalu membuat plot terpisah.
Untuk memprediksi penghuni, regresi logistik ordinal mungkin adalah cara terbaik untuk pergi.
Untuk memprediksi island, regresi logistik (binomial) harus melakukan triknya.
Untuk memprediksi jarak, regresi OLS akan bekerja.
sumber