Analisis data variabel kontinu dan Kategorikal

9

Saya punya tiga variabel:

  • jarak (kontinu, kisaran tak terbatas negatif hingga tak terhingga positif)
  • isLand (kategori diskrit / Boolean, rentang variabel 1 atau 0)
  • penghuni (kategori diskrit, rentang variabel 0-7)

Saya ingin menjawab pertanyaan statistik berikut:

  • Bagaimana cara membandingkan distribusi yang memiliki variabel kategorikal dan kontinu. Sebagai contoh, saya ingin menentukan apakah distribusi data jarak vs penghuni bervariasi tergantung pada nilai isLand.
  • Dengan dua dari tiga variabel, dapatkah saya memprediksi yang ketiga menggunakan beberapa persamaan?
  • Bagaimana saya bisa menentukan independensi dengan lebih dari dua variabel?
Elpezmuerto
sumber
1
Saya akan merekomendasikan Anda untuk membagi ini menjadi tiga pertanyaan terpisah.
Shane
Sebenarnya, sekarang saya membaca ini sedikit lebih dekat, saya melihat bahwa jawaban untuk masing-masing sangat erat terkait.
Shane
Saya merasa bahwa inti dari pertanyaan ini adalah membandingkan dua distribusi yang berbeda, dan kebetulan saya membuat daftar tiga cara berbeda untuk melakukannya.
Elpezmuerto
Untuk occupantsapa yang Anda dapatkan adalah variabel ordinal, jadi saya tidak akan menganggapnya sebagai kategori. Apalagi dengan 8 nilai, itu hampir terus menerus.
Mike Dunlavey

Jawaban:

5

Saya akan merekomendasikan membaca tentang model logistik atau log-linear pada khususnya, dan metode analisis data kategorikal secara umum. Catatan pada kursus berikut cukup bagus untuk memulai: Analisis Data Diskrit . Buku teks oleh Agresti cukup bagus. Anda mungkin juga mempertimbangkan Kleinbaum untuk memulai dengan cepat.

ars
sumber
Saya sebenarnya memiliki buku teks Agresti di meja saya sekarang dan saya telah menggunakannya. Masalahnya adalah saya tidak tahu metodologi spesifik apa yang harus saya gunakan.
Elpezmuerto
2
@Elpezmuerto Sangat singkat, untuk melengkapi jawaban @ars, pertanyaan 1 dapat dijawab dengan plot kondisional atau teralis, mis. Seperti dist ~ occ | isLandmenggunakan Lattice, atau melihat coplot()fungsi dalam vcdpaket - ini untuk tujuan eksplorasi; pertanyaan 2 meminta model prediksi; tergantung pada variabel yang Anda anggap sebagai hasil Anda, itu mungkin regresi logistik (misalnya jika Y = isLand), regresi linier (misalnya jika Y = jarak), atau secara langsung model log-linear yang memberikan Anda kategorikan pengukuran kontinu; pertanyaan 3 jelas merupakan model log-linear seperti yang disarankan oleh @ars.
chl
1
@Elpezmuerto @ars Berkat karya Laura Thompson, buku Agresti juga tersedia di R, j.mp/9fXheu :-)
chl
2
@ chl: itu temuan yang bagus! Terima kasih. @ Elpezmuerto: Ada serangkaian contoh di Agresti tentang kepiting - Saya cukup yakin ada variabel kontinu (ukuran kepiting?) Bersama dengan warna (kisaran) dan boolean (tidak bisa mengingat). Jadi cukup dekat dengan kasus Anda - mungkin instruktif untuk membaca contoh-contoh yang mencakup setidaknya 2 bab (satu bab adalah regresi logistik saya percaya).
ars
@ars Ini adalah esp. bab 4 dan 5, dengan lebar dan berat karapas sebagai variabel kontinu dan kondisi tulang belakang sebagai variabel kategoris (ordinal) lainnya, digunakan dalam Poisson dan regresi Logistik :)
chl
2
  1. Untuk menguji hubungan antara faktor kontinu dan kategoris, awal yang baik adalah dengan menggunakan plot kotak berdampingan, kontinu di sebelah kiri, kategoris di bagian bawah. Apakah caranya berbeda? Gunakan ANOVA untuk memeriksa.

  2. Untuk menguji hubungan antara faktor-faktor kategorikal, awal yang baik adalah dengan menggunakan plot mosaik, serta tabel kontingensi. Anda dapat mengelompokkannya terlebih dahulu lalu membuat plot terpisah.

  3. Untuk memprediksi penghuni, regresi logistik ordinal mungkin adalah cara terbaik untuk pergi.

  4. Untuk memprediksi island, regresi logistik (binomial) harus melakukan triknya.

  5. Untuk memprediksi jarak, regresi OLS akan bekerja.

Neil McGuigan
sumber