Saya mendapat revisi untuk makalah penelitian saya baru-baru ini dan berikut ini adalah komentar pengulas di makalah saya:
hasil yang diperoleh dari satu model tidak cukup meyakinkan terutama regresi linier biasanya memiliki kekurangan dalam menangani outlier. Saya menyarankan penulis juga mencoba regresi logistik dan membandingkan hasil yang sesuai dengan hasil saat ini. Jika pengamatan serupa diperoleh, hasilnya akan lebih solid.
Apakah komentar pengulas benar? Apakah regresi logistik lebih baik daripada regresi linier berganda?
Masalahnya adalah bahwa variabel dependen saya tidak kategorikal, ini adalah variabel skala. Apa yang bisa saya lakukan sekarang? Apa metode regresi lain yang Anda rekomendasikan untuk mengevaluasi model saya?
Skor adalah variabel dependen dalam tabel berikut. Kemutakhiran, frekuensi, masa kerja dan skor terakhir adalah variabel independen.
Saya sudah diekstrak variabel-variabel ini dari sebuah situs dan saya berhipotesis bahwa ini variabel independen memiliki pengaruh yang signifikan pada skor . Oleh karena itu, saya mewakili model-model berikut:
Omong-omong, nilai R kuadrat untuk model linier ini adalah 0,316! Peninjau juga mengomentari nilai ini juga:
maka hasilnya tidak meyakinkan karena tidak ada indikator pada kualitas koefisien yang dipelajari. R ^ 2 kecil tidak dapat menunjukkan kinerja yang baik karena modelnya mungkin terlalu pas.
Apakah 0,316 sangat rendah untuk R kuadrat? Dalam makalah sebelumnya saya sering melihat nilai yang sama.
Jawaban:
orm
rms
sumber
Anda juga dapat mencoba model probit / logit yang dipesan dengan menetapkan nilai 1, 2,3, dan 4 untuk skor pada 1, ....., 4 persentil masing-masing.
sumber
Anda dapat mendikotomise (mengkonversi ke variabel biner) skor. Jika skor dari 0 hingga 100 maka Anda dapat menetapkan 0 untuk skor apa pun yang kurang dari 50 dan 1 jika tidak. Saya belum pernah mendengar bahwa ini cara yang baik untuk berurusan dengan outlier. Ini mungkin hanya menyembunyikan outlier karena tidak mungkin membedakan skor yang sangat tinggi atau rendah. Ini tidak masuk akal bagi saya, tetapi Anda bisa mencobanya.
Saya tidak akan berpura-pura tahu banyak tentang statistik tetapi menurut saya, berdasarkan komentarnya, resensi ini mungkin tahu lebih sedikit.
sumber
Dimungkinkan untuk menerapkan regresi logistik bahkan untuk variabel dependen kontinu. Masuk akal, jika Anda ingin memastikan bahwa prediksi
score
selalu ada di dalam[0, 100]
(saya menilai dari tangkapan layar Anda bahwa itu dalam skala 100 poin).Untuk mencapainya, cukup bagi skor Anda dengan 100, dan jalankan regresi logistik dengan
[0,1]
variabel target berbasis ini, seperti dalam pertanyaan ini - Anda dapat melakukannya, misalnya, denganR
, menggunakansumber