Saya punya pertanyaan filosofis tentang bias variabel yang dihilangkan.
Kami memiliki model regresi yang khas (model populasi)
Maka kita tahu bahwa, jika kita menghilangkan salah satu variabel utama, , ini mungkin bias estimasi . Ini akan mempengaruhi, setidaknya, efek yang diperkirakan dari sisa variabel, dan juga tes hipotesis tentang , karena nilai yang diprediksi tidak dapat diandalkan.
Masalahnya, kita tidak tahu variabel mana yang ada dalam model populasi yang sebenarnya. Sebagai gantinya, kami memiliki banyak kandidat yang darinya kami harus menganalisis dan menemukan subset yang paling tepat. Proses pemilihan variabel ini menggunakan perkiraan OLS dan tes hipotesis lagi. Berdasarkan itu, kami menolak atau memasukkan variabel yang berbeda. Tetapi karena setiap model kandidat menghilangkan variabel yang relevan (Anda tidak akan pernah dapat menemukan model yang benar), bukankah keputusan ini didasarkan pada hasil yang bias? Lalu mengapa kita harus mempercayai mereka?
(Saya sedang memikirkan metode stepwise maju, misalnya, di mana Anda memilih satu variabel lalu menambahkan sisanya. Anda membandingkan model melakukan inferensi, dan saya berpikir bahwa variabel yang dihilangkan dapat mengganggu segalanya.)
Saya tidak pernah terlalu khawatir tentang topik ini sampai saya mulai memikirkannya, dan saya yakin saya salah di suatu tempat.
sumber
samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.
itulah yang benar-benar apa yang Anda maksudkan atau lakukan beberapa kalimat Anda terputus. Anda juga salah mengeja dalam judul pertanyaan.Jawaban:
Masalah utama di sini adalah sifat bias variabel yang dihilangkan . Negara Wikipedia:
Sangat penting untuk memperhatikan kriteria kedua. Beta Anda hanya akan bias dalam kondisi tertentu. Secara khusus, jika ada dua variabel yang berkontribusi terhadap respons yang berkorelasi satu sama lain, tetapi Anda hanya memasukkan salah satu dari mereka, maka (pada dasarnya) efek keduanya akan dikaitkan dengan variabel yang dimasukkan, menyebabkan bias dalam estimasi parameter itu. Jadi mungkin hanya beberapa beta Anda yang bias, belum tentu semuanya.
Kemungkinan lain yang mengganggu adalah bahwa jika sampel Anda tidak mewakili populasi (yang jarang benar-benar), dan Anda menghilangkan variabel yang relevan, bahkan jika itu tidak berkorelasi dengan variabel lain, ini dapat menyebabkan pergeseran vertikal yang bias estimasi Anda dari mencegat. Misalnya, bayangkan sebuah variabel,Z , meningkatkan tingkat respons, dan bahwa sampel Anda diambil dari bagian atas Z distribusi, tetapi Z tidak termasuk dalam model Anda. Kemudian, estimasi respons rata-rata populasi Anda (dan intersepsi) akan menjadi bias tinggi terlepas dari kenyataan ituZ tidak berkorelasi dengan variabel lain. Selain itu, ada kemungkinan bahwa ada interaksi antaraZ dan variabel dalam model Anda. Ini juga dapat menyebabkan bias tanpaZ dikorelasikan dengan variabel Anda (saya membahas ide ini dalam jawaban saya di sini .)
Sekarang, mengingat bahwa dalam keadaan setimbang, semuanya pada akhirnya berkorelasi dengan semua yang ada di dunia, kita mungkin menemukan ini semua sangat mengganggu. Memang, ketika melakukan penelitian observasional, yang terbaik adalah selalu menganggap bahwa setiap variabel adalah endogen .
Namun, ada batas untuk ini (lih . Ketimpangan Cornfield ). Pertama, melakukan percobaan yang benar memecah korelasi antara variabel fokus (pengobatan) dan variabel penjelas yang relevan, tetapi tidak teramati. Ada beberapa teknik statistik yang dapat digunakan dengan data pengamatan untuk menjelaskan pembaur yang tidak teramati tersebut (secara prototipe: regresi variabel instrumental , tetapi juga yang lain).
Mengesampingkan kemungkinan-kemungkinan ini (mereka mungkin memang mewakili sebagian kecil pendekatan pemodelan), apa prospek jangka panjang untuk sains? Ini tergantung pada besarnya bias, dan volume penelitian eksplorasi yang dilakukan. Sekalipun jumlahnya agak tidak aktif, mereka mungkin sering berada di lingkungan itu, dan cukup dekat sehingga hubungan dapat ditemukan. Kemudian, dalam jangka panjang, peneliti dapat menjadi lebih jelas tentang variabel mana yang relevan. Memang, pemodel kadang-kadang secara eksplisit menukar bias yang meningkat untuk penurunan varians dalam distribusi sampling dari parameter mereka (cf, jawaban saya di sini ). Dalam jangka pendek, ada baiknya selalu mengingat kutipan terkenal dari Box:
Ada juga pertanyaan filosofis yang berpotensi lebih dalam di sini: Apa artinya perkiraan itu bias? Apa yang seharusnya menjadi jawaban yang 'benar'? Jika Anda mengumpulkan beberapa data pengamatan tentang hubungan antara dua variabel (hubungi merekaX & Y ), yang Anda dapatkan pada akhirnya adalah korelasi marjinal antara kedua variabel tersebut. Ini hanya angka 'salah' jika Anda berpikir Anda melakukan sesuatu yang lain, dan mendapatkan hubungan langsung sebagai gantinya. Demikian juga, dalam sebuah studi untuk mengembangkan model prediksi, yang Anda pedulikan adalah apakah, di masa depan, Anda akan dapat secara akurat menebak nilai yang tidak diketahui.Y dari yang dikenal X . Jika Anda bisa, tidak masalah jika itu (sebagian) karenaX berkorelasi dengan Z yang berkontribusi pada nilai yang dihasilkan Y . Anda ingin dapat memprediksiY , dan kamu bisa.
sumber