Jadi saya bekerja dengan model regresi logistik di R. Meskipun saya masih baru dalam statistik, saya merasa seperti saya mendapatkan sedikit pemahaman untuk model regresi sekarang, tetapi masih ada sesuatu yang mengganggu saya:
Melihat gambar yang ditautkan, Anda melihat ringkasan R yang dicetak untuk contoh model yang saya buat. Model ini mencoba untuk memprediksi, apakah email dalam dataset akan dibuat kembali atau tidak (variabel biner isRefound
) dan dataset berisi dua variabel yang terkait erat isRefound
, yaitu next24
dan next7days
- ini juga biner dan memberi tahu apakah sebuah email akan diklik di berikutnya 24 jam / 7 hari berikutnya dari titik saat ini dalam log.
Nilai p tinggi harus menunjukkan, bahwa dampak variabel ini terhadap prediksi model cukup acak, bukan? Berdasarkan hal ini saya tidak mengerti mengapa ketepatan prediksi model turun di bawah 10% ketika dua variabel ini tidak dimasukkan dalam rumus perhitungan. Jika variabel-variabel ini menunjukkan signifikansi yang rendah, mengapa mengeluarkan mereka dari model memiliki dampak yang begitu besar?
Salam dan terima kasih sebelumnya, Rickyfox
EDIT:
Pertama saya dihapus hanya next24, yang seharusnya menghasilkan dampak rendah karena itu cukup kecil. Seperti yang diharapkan, sedikit berubah - tidak akan mengunggah foto untuk itu.
Menghapus 7 hari ke depan yang berdampak besar pada model: AIC 200k ke atas, presisi turun ke 16% dan mengingat kembali ke 73%
sumber
isRefound ~ day + next24
dan menghilangkan semua variabel lain?Jawaban:
Pada dasarnya, sepertinya Anda mengalami masalah multikolinieritas. Ada banyak materi yang tersedia tentang ini, mulai dari situs web ini atau di wikipedia.
Secara singkat, dua prediktor tampaknya benar-benar terkait dengan hasil Anda, tetapi mereka juga mungkin sangat berkorelasi satu sama lain (perhatikan bahwa dengan lebih dari dua variabel, masih mungkin memiliki masalah multikolinieritas tanpa korelasi bivariat yang kuat). Ini tentu saja masuk akal: Semua email yang diklik dalam 24 jam juga telah diklik dalam 7 hari (menurut definisi) dan sebagian besar email mungkin belum diklik sama sekali (tidak dalam 24 jam dan tidak dalam 7 hari).
Salah satu cara ini menunjukkan dalam output yang Anda sajikan adalah melalui kesalahan / CI standar yang sangat besar untuk koefisien yang relevan (dilihat dari fakta bahwa Anda menggunakan bigglm dan bahkan koefisien kecil sangat signifikan, tampaknya ukuran sampel Anda harus lebih dari cukup. untuk mendapatkan perkiraan yang baik). Hal-hal lain yang dapat Anda lakukan untuk mendeteksi jenis masalah ini: Lihatlah korelasi berpasangan, hapus hanya satu variabel yang dicurigai (seperti yang disarankan oleh @Nick Sabbe), uji signifikansi untuk kedua variabel secara bersama-sama.
Lebih umum, nilai-p tinggi tidak berarti bahwa efeknya kecil atau acak tetapi hanya bahwa tidak ada bukti bahwa koefisien berbeda dari 0. Ini juga bisa sangat besar, Anda tidak tahu (baik karena sampel ukurannya terlalu kecil atau karena ada masalah lain dengan model).
sumber