Saya memiliki masalah klasifikasi biner dari beberapa fitur. Apakah koefisien regresi logistik (teratur) memiliki makna yang dapat ditafsirkan?
Saya pikir mereka bisa menunjukkan ukuran pengaruhnya, mengingat fitur-fiturnya dinormalisasi sebelumnya. Namun, dalam masalah saya koefisien tampaknya tergantung sensitif pada fitur yang saya pilih. Bahkan tanda koefisien berubah dengan set fitur yang berbeda dipilih sebagai input.
Apakah masuk akal untuk memeriksa nilai koefisien dan apa cara yang benar untuk menemukan koefisien yang paling bermakna dan menyatakan artinya dalam kata-kata ? Apakah beberapa model yang sesuai dan tanda koefisiennya salah - bahkan jika mereka cocok dengan data?
(Korelasi tertinggi yang saya miliki antara fitur hanya 0,25, tetapi yang pasti memainkan peran?)
sumber
Jawaban:
Koefisien dari output memang memiliki arti, meskipun itu tidak terlalu intuitif untuk kebanyakan orang dan tentu saja tidak bagi saya. Itulah sebabnya orang mengubahnya menjadi rasio odds. Namun, log rasio odds adalah koefisien; ekuivalen, koefisien eksponensial adalah rasio odds.
Koefisien yang paling berguna untuk memasukkan ke dalam rumus yang memberikan probabilitas diprediksi berada di setiap tingkat variabel dependen.
misalnya di
R
Estimasi parameter untuk usia adalah 1,64. Apa artinya ini? Nah, jika Anda menggabungkannya dengan estimasi parameter untuk intersep (-21,24) Anda bisa mendapatkan formula yang memprediksi kemungkinan menarche:
sumber
Menafsirkan langsung koefisien itu sulit dan bisa menyesatkan. Anda tidak memiliki jaminan tentang bagaimana bobot ditugaskan di antara variabel.
Contoh cepat, mirip dengan situasi yang Anda jelaskan: Saya telah mengerjakan model interaksi pengguna dengan situs web. Model itu mencakup dua variabel yang mewakili jumlah "klik" selama jam pertama dan selama jam kedua sesi pengguna. Variabel-variabel ini sangat berkorelasi satu sama lain. Jika kedua koefisien untuk variabel tersebut positif maka kita dapat dengan mudah menyesatkan diri kita sendiri dan percaya bahwa mungkin koefisien yang lebih tinggi menunjukkan kepentingan "lebih tinggi". Namun, dengan menambahkan / menghapus yang lainvariabel kita dapat dengan mudah berakhir dengan model di mana variabel pertama memiliki tanda positif dan negatif lainnya. Alasan kami akhirnya adalah bahwa karena ada beberapa korelasi yang signifikan (walaupun rendah) antara sebagian besar pasangan variabel yang tersedia, kami tidak dapat memiliki kesimpulan yang aman tentang pentingnya variabel menggunakan koefisien (senang belajar dari masyarakat jika interpretasi ini benar).
Jika Anda ingin mendapatkan model yang lebih mudah diinterpretasikan, satu ide adalah menggunakan Lasso (minimalisasi norma L1). Itu mengarah ke solusi jarang adalah variabel yang kurang berkorelasi satu sama lain. Namun, pendekatan itu tidak akan dengan mudah memilih kedua variabel dari contoh sebelumnya - satu akan menjadi nol bobot.
Jika Anda hanya ingin menilai pentingnya variabel tertentu, atau set variabel, saya akan merekomendasikan untuk menggunakan langsung beberapa pendekatan pemilihan fitur. Pendekatan semacam itu mengarah pada wawasan yang jauh lebih bermakna dan bahkan peringkat global akan pentingnya variabel berdasarkan beberapa kriteria.
sumber
Koefisien pasti memiliki arti. Dalam beberapa paket perangkat lunak model dapat diarahkan dengan salah satu dari dua cara untuk menghasilkan salah satu dari dua jenis koefisien. Misalnya, di Stata, seseorang dapat menggunakan perintah Logistic atau perintah logit; dalam menggunakan satu, model memberikan koefisien tradisional, sedangkan dalam menggunakan yang lain, model memberikan rasio odds.
Anda mungkin menemukan bahwa yang satu jauh lebih berarti bagi Anda daripada yang lain.
Tentang pertanyaan Anda bahwa "... koefisien tampaknya tergantung sensitivitas ...".
Apakah Anda mengatakan bahwa hasilnya tergantung pada variabel apa yang Anda masukkan ke dalam model?
Jika demikian, ya, ini adalah fakta kehidupan ketika melakukan analisis regresi. Alasan untuk ini adalah bahwa analisis regresi melihat sekelompok angka dan mengelompokkannya dengan cara otomatis.
Hasilnya tergantung pada bagaimana variabel terkait satu sama lain dan pada variabel apa yang tidak diukur. Ini adalah seni dan juga sains.
Selain itu, jika model memiliki terlalu banyak prediktor dibandingkan dengan ukuran sampel, tanda-tanda dapat berputar dengan cara yang gila - saya pikir ini mengatakan bahwa model ini menggunakan variabel yang memiliki efek kecil untuk "menyesuaikan" perkiraannya dari mereka. yang memiliki efek besar (seperti kenop volume kecil untuk membuat kalibrasi kecil). Ketika ini terjadi, saya cenderung tidak mempercayai variabel dengan efek kecil.
Di sisi lain, mungkin tanda-tanda awalnya berubah, ketika Anda menambahkan prediktor baru, karena Anda semakin dekat dengan kebenaran kausal.
Sebagai contoh, mari kita bayangkan bahwa Greenland Brandy mungkin buruk untuk kesehatan seseorang tetapi pendapatan baik untuk kesehatan seseorang. Jika pendapatan dihilangkan, dan lebih banyak orang kaya minum Brandy, maka model tersebut dapat "mengambil" pengaruh pendapatan yang dihilangkan dan "mengatakan" bahwa alkohol itu baik untuk kesehatan Anda.
Tidak ragu tentang itu, itu adalah fakta kehidupan bahwa koefisien tergantung pada variabel lain yang disertakan. Untuk mempelajari lebih lanjut, lihat "bias variabel yang dihilangkan" dan "hubungan palsu". Jika Anda belum menemukan ide-ide ini sebelumnya, cobalah untuk menemukan pengantar kursus statistik yang memenuhi kebutuhan Anda - ini dapat membuat perbedaan besar dalam melakukan model.
sumber