Akhir-akhir ini, saya harus membaca beberapa makalah di bidang ekonomi (bidang yang saya tidak terlalu kenal). Satu hal yang saya perhatikan adalah bahwa bahkan ketika variabel responnya biner, model regresi linier yang dipasang menggunakan OLS ada di mana-mana. Karena itu pertanyaan saya adalah:
Mengapa regresi linier lebih disukai daripada misalnya regresi logistik di bidang ekonomi? Apakah ini sekadar praktik biasa atau ini merupakan prosedur yang dianjurkan secara aktif (dalam makalah, oleh guru, dll.)?
Harap dicatat bahwa saya tidak bertanya mengapa menggunakan regresi linier dengan respons biner mungkin merupakan ide yang buruk, atau apa metode alternatifnya. Sebaliknya, saya bertanya mengapa orang menggunakan regresi linier dalam pengaturan ini karena saya tahu jawaban untuk dua pertanyaan ini.
sumber
Jawaban:
Posting blog ini oleh pada blog ekonometrik Dave Giles 'sebagian besar menguraikan kelemahan dari Linear Probability Model (LPM).
Namun , ia memasukkan daftar pendek alasan mengapa peneliti memilih untuk menggunakannya:
Saya tidak tahu bahwa LPM adalah yang paling umum digunakan dibandingkan dengan logit atau probit tetapi beberapa alasan di atas masuk akal bagi saya.
sumber
Saya memiliki pertanyaan serupa ketika membaca makalah dari yang lain. Dan mengajukan banyak pertanyaan terkait hal ini, seperti yang ada di komunitas Education Data Mining ini: Mengapa menggunakan kuadrat kerugian pada probabilitas alih-alih kerugian logistik?
Di sini saya akan menyajikan banyak pendapat pribadi.
Saya merasa fungsi kerugian tidak terlalu penting dalam banyak kasus penggunaan praktis. Beberapa peneliti mungkin tahu lebih banyak tentang kuadrat kerugian dan membangun sistemnya, ia masih bekerja dan menyelesaikan masalah dunia nyata. Para peneliti mungkin tidak pernah tahu kehilangan logistik atau kehilangan engsel, dan ingin mencobanya. Lebih lanjut, mereka mungkin tidak tertarik untuk menemukan model matematika yang optimal, tetapi ingin menyelesaikan masalah nyata yang tidak ada yang berusaha untuk memecahkannya sebelumnya.
Ini adalah contoh lain: jika Anda memeriksa jawaban atas pertanyaan saya, semuanya mirip. Apa dampak dari memilih fungsi kerugian yang berbeda dalam klasifikasi untuk memperkirakan kerugian 0-1
Lebih banyak pemikiran: penelitian pembelajaran mesin mungkin menghabiskan banyak waktu pada model apa yang akan dipilih, dan bagaimana mengoptimalkan model. Ini karena peneliti pembelajaran mesin mungkin tidak memiliki kemampuan untuk mengumpulkan lebih banyak data / mendapatkan lebih banyak tindakan. Dan pekerjaan seorang peneliti pembelajaran mesin adalah mendapatkan matematika yang lebih baik, tidak memecahkan masalah dunia nyata tertentu dengan lebih baik.
Di sisi lain, di dunia nyata, jika datanya lebih baik, itu mengalahkan semua hal. Jadi, memilih jaringan saraf atau hutan acak mungkin tidak terlalu penting. Semua model ini mirip dengan seseorang yang ingin menggunakan pembelajaran mesin sebagai alat untuk memecahkan masalah dunia nyata. Seseorang yang tidak tertarik mengembangkan matematika atau alat mungkin menghabiskan lebih banyak waktu untuk menggunakan pengetahuan domain spesifik untuk membuat sistem lebih baik.
Seperti yang saya sebutkan di komentar. Dan jika seseorang ceroboh dengan matematika, ia masih dapat membangun sesuatu yang berfungsi.
sumber