Salah satu cara untuk menemukan akurasi model regresi logistik menggunakan 'glm' adalah dengan menemukan plot AUC. Bagaimana cara memeriksa yang sama untuk model regresi yang ditemukan dengan variabel respon kontinu (keluarga = 'gaussian')?
Metode apa yang digunakan untuk memeriksa seberapa baik model regresi saya cocok dengan data?
r
regression
generalized-linear-model
pengguna1140126
sumber
sumber
r-squared
tag dangoodness-of-fit
tag ..Jawaban:
Saya akan menyarankan pencarian singkat tentang " diagnostik model regresi linier " sebagai permulaan. Tetapi di sini ada beberapa yang saya sarankan Anda periksa:
Pastikan asumsi dipenuhi dengan memuaskan
Gunakan scatterplot atau komponen plus plot sisa untuk menguji hubungan linear antara prediktor independen dan variabel dependen.
Buat plot dengan residual terstandarisasi dibandingkan nilai prediksi dan pastikan tidak ada titik ekstrem dengan residu sangat tinggi, dan sebaran residu sebagian besar sama di sepanjang nilai prediksi, serta sebaran sebagian besar sama di atas dan di bawah rata-rata residu, nol.
Anda juga dapat mengubah sumbu y ke residual . Plot ini membantu mengidentifikasi varian yang tidak sama.2
Periksa kembali desain penelitian untuk memastikan asumsi independensi masuk akal.
Ambil varians inflation factor (VIF) atau statistik toleransi untuk memeriksa kemungkinan collinearity.
Periksa titik-titik pengaruh potensial
Periksa perubahan dalam statistik dan AdjustedR2 R2
Periksa interaksi yang diperlukan
Terapkan model Anda ke kumpulan data lain dan periksa kinerjanya
sumber
plot.lm
dapat memberi Anda sebagian besar plot diagnostik yang disebutkan oleh Penguin_Knight.Saya suka memvalidasi silang model regresi saya untuk melihat seberapa baik mereka menggeneralisasi data baru. Metrik pilihan saya adalah kesalahan absolut rata - rata pada data yang divalidasi silang, tetapi kesalahan rata-rata akar kuadrat lebih umum dan sama-sama bermanfaat.
Saya tidak menganggap R2 sebagai metrik yang baik tentang seberapa baik model Anda cocok dengan data pelatihan, karena hampir semua metrik kesalahan yang dihitung pada data pelatihan akan cenderung terlalu pas. Jika Anda harus menghitung R2 pada set pelatihan, saya sarankan menggunakan R2 yang disesuaikan .
sumber
Anda dapat menggunakan untuk memeriksa seberapa baik model Anda cocok dengan data pelatihan. Ini akan memberi tahu Anda berapa persen varian dalam data yang dijelaskan oleh model.R2
Saya sarankan menggunakan RMSE (root mean square error) dari prediksi Anda pada set tes Anda bila dibandingkan dengan nilai aktual. Ini adalah metode standar pelaporan kesalahan prediksi variabel kontinu.
sumber
Saya terbiasa memeriksa bentuk fungsional penaksir parameter saya dengan memplot estimasi non-parametrik (misalnya, regresi kernel) atau semi-parametrik dan membandingkannya dengan kurva yang dipasang parametrik. Saya pikir ini pada langkah pertama seringkali lebih cepat (dan mungkin lebih berwawasan) daripada memasukkan istilah interaksi atau istilah pesanan lebih tinggi.
Paket R np menyediakan banyak fungsi non-parametrik dan semi-parametrik yang bagus, dan Vignette-nya ditulis dengan baik: http://cran.r-project.org/web/packages/np/vignettes/np.pdf
sumber