Saya sedang mengerjakan model regresi logistik. Saya memeriksa ringkasan model yang dibangun di atas 5 variabel independen yang mana tidak signifikan dengan nilai-P 0,74. Saya ingin tahu bahwa kita langsung menghapus variabel atau apakah ada cara lain untuk memeriksa signifikansi itu ?
Seorang senior saya menyarankan untuk melakukan transformasi logaritmik dari variabel tidak signifikan & mencari korelasi itu. Apakah itu diperhitungkan untuk memeriksa signifikansi itu.
model <- glm(Buy ~ a_score + b_score+ c_score+lb+p, data = history, family = binomial)
Semua variabel keluar menjadi signifikan dengan 2 atau 3 bintang terpisah dari a_score yang ditunjukkan tidak signifikan.
Jawaban:
Pertama-tama saya ingin bertanya: Apa tujuan model? Jika Anda hanya tertarik untuk memprediksi apakah pelanggan akan membeli, maka uji hipotesis statistik sebenarnya bukan masalah utama Anda. Sebaliknya, Anda harus memvalidasi model Anda secara eksternal melalui produk validasi / tes pada data yang tidak terlihat.
Sebaliknya, jika Anda tertarik untuk memeriksa faktor-faktor mana yang berkontribusi terhadap kemungkinan pembelian seorang pelanggan, maka tidak perlu menghapus variabel-variabel yang gagal menolak nol (terutama secara bertahap). Agaknya, Anda memasukkan variabel dalam model Anda karena Anda berpikir (dari pengalaman masa lalu atau pendapat ahli) bahwa itu memainkan peran penting dalam pelanggan memutuskan apakah mereka akan membeli. Bahwa variabel gagal untuk menolak nol tidak membuat model Anda buruk, itu hanya berarti bahwa sampel Anda tidak mendeteksi efek dari variabel itu. Tidak apa-apa.
sumber
Lihat halaman bantuan untuk
step()
,drop1()
danadd1()
. Ini akan membantu Anda untuk menambah / menghapus variabel berdasarkan AIC. Namun, semua metode semacam itu agak cacat dalam ketergantungan jalurnya. Cara yang lebih baik adalah dengan menggunakan fungsi-fungsi dalam paket penalti atau glmnet untuk melakukan regresi laso.sumber
Apa korelasi antara variabel independen? Ini kurang penting untuk prediksi murni, tetapi jika Anda ingin mendapatkan beberapa informasi inferensial, penting agar variabel independen tidak cukup berkorelasi. Biasanya, ketika Anda menggunakan regresi logistik dalam lingkungan bisnis, informasi inferensial tentang variabel yang digunakan bersama dengan prediksi yang baik adalah yang dicari oleh para pemangku kepentingan.
Selain itu, alasan lain yang baik untuk menghapus variabel adalah karena kekikiran model. Beberapa alasan untuk ini adalah untuk keperluan tinjauan internal, peraturan hukum, dan kemudahan implementasi. Ini mengarah pada itu sangat diinginkan untuk menemukan set variabel terkecil yang memberikan informasi bisnis yang baik dan prediksi yang baik. Misalnya, jika Anda mengembangkan model kredit, setiap variabel harus ditinjau secara hukum, setiap variabel harus tersedia dan segera mengembalikan nilai ketika dipanggil untuk menilai pinjaman, dan para pemangku kepentingan (yang biasanya tidak berpengalaman dalam membangun model) cenderung untuk tidak ingin melihat model rumit yang sarat dengan variabel.
Mungkin juga bermanfaat untuk mencoba hutan acak untuk mendapatkan beberapa gagasan tentang variabel penting dan juga untuk memeriksa kekuatan prediksi dengan dan tanpa semua variabel.
Akhirnya, Anda harus memiliki alasan kuat untuk mentransformasikan variabel. Melemparkan setiap transformasi terhadap variabel hingga Anda menemukan satu yang memberi Anda hasil yang Anda inginkan adalah cara yang baik untuk mendapatkan model pakaian yang berkinerja buruk pada data baru.
sumber