Meminimalkan bias dalam pemodelan penjelas, mengapa? (Galit Shmueli "Untuk Menjelaskan atau Memprediksi")

15

Pertanyaan ini merujuk pada makalah Galit Shmueli "Untuk Menjelaskan atau Memprediksi" .

Secara khusus, di bagian 1.5, "Penjelasan dan Prediksi Berbeda", Profesor Shmueli menulis:

Dalam pemodelan penjelas fokusnya adalah pada meminimalkan bias untuk mendapatkan representasi paling akurat dari teori yang mendasarinya.

Ini membingungkan saya setiap kali saya membaca koran. Dalam hal apa meminimalkan bias dalam estimasi memberikan representasi paling akurat dari teori yang mendasarinya?

Saya juga menyaksikan ceramah Profesor Shmueli di sini , disampaikan pada JMP Discovery Summit 2017, dan dia menyatakan:

... hal-hal yang seperti model susut, ansambel, Anda tidak akan pernah melihatnya. Karena model-model tersebut, dengan desain, memperkenalkan bias untuk mengurangi bias / varians keseluruhan. Itu sebabnya mereka tidak akan ada di sana, tidak masuk akal secara teoritis untuk melakukan itu. Mengapa Anda ingin model Anda bias secara sengaja?

Ini tidak benar-benar menjelaskan pertanyaan saya, hanya menyatakan kembali klaim yang tidak saya mengerti.

Jika teori memiliki banyak parameter, dan kami memiliki sedikit data untuk memperkirakannya, kesalahan estimasi akan didominasi oleh varians. Mengapa tidak tepat untuk menggunakan prosedur estimasi bias seperti regresi ridge (menghasilkan estimasi bias varian yang lebih rendah) dalam situasi ini?

Matthew Drury
sumber
1
Pertanyaan bagus! +1 Saya mengajukan pertanyaan terkait di stats.stackexchange.com/questions/204386/…
Adrian
@Adrian Itu pertanyaan yang bagus, pertanyaan bagus. Saya juga ingin melihat jawaban menyeluruh untuk yang itu!
Matthew Drury

Jawaban:

6

Ini memang pertanyaan besar, yang memerlukan tur ke dunia penggunaan model statistik dalam penelitian ekonometrik dan ilmu sosial (dari apa yang saya lihat, ahli statistik terapan dan penambang data yang melakukan pekerjaan deskriptif atau prediksi biasanya tidak berurusan dengan bias dari formulir ini). Istilah "bias" yang saya gunakan dalam artikel itu adalah apa yang para ekonometris dan ilmuwan sosial anggap sebagai bahaya serius untuk menyimpulkan hubungan sebab akibat dari studi empiris. Ini merujuk pada perbedaan antara model statistik Anda dan model teoritis kausal yang mendasari itu . Istilah terkait adalah "spesifikasi model", topik yang banyak diajarkan dalam ekonometrik karena pentingnya "menentukan model regresi Anda dengan benar" (berkenaan dengan teori) ketika tujuan Anda adalah penjelasan sebab akibat. Lihatartikel Wikipedia tentang Spesifikasi untuk deskripsi singkat. Masalah kesalahan spesifikasi utama adalah di bawah spesifikasi , yang disebut "Bias Variabel yang Dihilangkan" (OPM), di mana Anda menghilangkan variabel penjelas dari regresi yang seharusnya ada (menurut teori) - ini adalah variabel yang berkorelasi dengan variabel dependen dan dengan setidaknya satu dari variabel penjelas. Lihat deskripsi rapi ini ) yang menjelaskan apa implikasi dari tipe bias ini. Dari sudut pandang teori, OVB membahayakan kemampuan Anda untuk menyimpulkan kausalitas dari model.

Dalam lampiran makalah saya To Explain or To Predict? ada contoh yang menunjukkan bagaimana model yang kurang spesifik ("salah") terkadang memiliki daya prediksi yang lebih tinggi. Tapi sekarang mudah-mudahan Anda bisa melihat mengapa itu bertentangan dengan tujuan "model penjelasan sebab akibat yang baik".

Galit Shmueli
sumber
2
Saya pikir masih ada banyak kebingungan tentang model prediktif vs penjelasan. Saya mewawancarai seorang ilmuwan data di sebuah perusahaan asuransi besar dan bertanya apakah mereka membangun model prediksi atau penjelasan dalam timnya. Dia berkata "itu tidak terlalu penting" - Saya tidak berpikir dia tahu bedanya.
RobertF