Saya memiliki data anggur dari sini yang terdiri dari 11 variabel independen numerik dengan peringkat dependen terkait dengan setiap entri dengan nilai antara 0 dan 10. Ini membuatnya menjadi dataset yang bagus untuk menggunakan model regresi untuk menyelidiki hubungan antara variabel dan yang terkait peringkat. Namun, apakah regresi linier sesuai, atau lebih baik menggunakan regresi logistik multinomial / teratur?
Regresi logistik tampaknya lebih baik diberikan kategori tertentu, yaitu bukan variabel dependen kontinu tetapi (1) ada 11 kategori (agak terlalu banyak?) Dan (2) setelah diperiksa, hanya ada data untuk 6-7 dari kategori tersebut, yaitu sisanya 5-4 kategori tidak memiliki contoh dalam dataset.
Di sisi lain, regresi linier harus secara linear memperkirakan peringkat antara 0-10 yang tampaknya lebih dekat dengan apa yang saya coba cari tahu; namun variabel dependen tidak kontinu dalam dataset.
Mana pendekatan yang lebih baik? Catatan: Saya menggunakan R untuk analisis
Edit, alamat beberapa poin yang disebutkan dalam jawaban:
- Tidak ada tujuan bisnis karena ini sebenarnya untuk kursus universitas. Tugasnya adalah untuk menganalisis dataset pilihan mana yang menurut saya cocok.
- Distribusi peringkat tampak normal (histogram / qq-plot). Nilai aktual dalam dataset adalah antara 3-8 (meskipun secara teknis 0-10).
sumber
Saya bukan spesialis regresi logistik, tetapi saya akan mengatakan bahwa Anda ingin menggunakan multinomial karena variabel dependen diskrit Anda.
Regresi linier dapat menghasilkan koefisien yang dapat diekstrapolasi dari batas-batas yang mungkin dari variabel dependen Anda (yaitu peningkatan variabel independen akan menyebabkan variabel dependen keluar dari batas Anda untuk koefisien regresi yang diberikan).
Regresi multinomial akan memberikan probabilitas yang berbeda untuk hasil yang berbeda dari variabel dependen Anda (yaitu koefisien regresi Anda akan memberi Anda bagaimana mereka meningkatkan probabilitas mereka untuk memberikan skor yang lebih baik, tanpa skor yang keluar dari batas).
sumber
Kemungkinan lain adalah menggunakan Hutan Acak. Ada dua cara untuk mengukur "pentingnya" variabel di bawah Hutan Acak:
Hutan Acak juga dapat menerima jenis visualisasi data yang disebut "plot ketergantungan sebagian". Lihat tutorial mendalam ini untuk detail lebih lanjut.
Ketergantungan sebagian dan kepentingan permutasi tidak khusus untuk model Hutan Acak, tetapi popularitas mereka tumbuh seiring dengan popularitas Hutan Acak karena seberapa efisiennya menghitungnya untuk model Hutan Acak.
sumber