Data Dasar : Saya memiliki ~ 1.000 orang yang ditandai dengan penilaian: '1,' [baik] '2,' [tengah] atau '3' [buruk] - ini adalah nilai yang saya coba prediksi untuk orang-orang di masa depan . Selain itu, saya memiliki beberapa informasi demografis: jenis kelamin (kategorikal: M / F), usia (angka: 17-80), dan ras (kategorikal: hitam / kaukasia / latino).
Saya terutama punya empat pertanyaan:
Saya awalnya mencoba menjalankan dataset yang dijelaskan di atas sebagai analisis regresi berganda. Tetapi saya baru-baru ini belajar bahwa karena ketergantungan saya adalah faktor yang teratur dan bukan variabel kontinu, saya harus menggunakan regresi logistik ordinal untuk sesuatu seperti ini. Saya awalnya menggunakan sesuatu seperti
mod <- lm(assessment ~ age + gender + race, data = dataset)
, bisakah orang mengarahkan saya ke arah yang benar?Dari sana, dengan asumsi saya mendapatkan koefisien yang saya rasa nyaman, saya mengerti bagaimana cara memasukkan nilai numerik untuk x1, x2, dll. - tetapi bagaimana saya akan berurusan dengan ras, misalnya, di mana ada beberapa respons: hitam / kaukasia / latino? Jadi jika itu memberitahu saya koefisien kaukasia adalah 0,289 dan seseorang yang saya coba prediksi adalah kaukasia, bagaimana cara saya menghubungkannya kembali karena nilainya tidak numerik?
Saya juga memiliki nilai acak yang hilang - beberapa untuk ras, beberapa untuk jenis kelamin, dll. Apakah saya harus melakukan sesuatu tambahan untuk memastikan ini tidak memiringkan apa pun? (Saya perhatikan ketika dataset saya dimuat ke R-Studio, ketika data yang hilang dimuat sebagai
NA
, R mengatakan sesuatu seperti(162 observations deleted due to missingness)
- tetapi jika mereka dimuat sebagai kosong, itu tidak melakukan apa-apa.)Dengan asumsi semua ini berhasil dan saya memiliki data baru dengan jenis kelamin, usia, dan ras yang ingin saya prediksi - apakah ada cara yang lebih mudah di R untuk menjalankan semua itu melalui apa pun rumus saya dengan koefisien baru ternyata, daripada melakukannya secara manual? (Jika pertanyaan ini tidak sesuai di sini, saya dapat membawanya kembali ke forum R.)
latino
, dan boneka untuk dua lainnya. Nilai 1 untukcaucasian
boneka menunjukkan responden Kaukasia, serupa untukblack
variabel boneka. Nilai 0 untuk keduanya menunjukkan responden Latin. Masuk akal?