Asumsi dasar menggunakan model regresi untuk inferensi adalah bahwa "semua prediktor yang relevan" telah dimasukkan dalam persamaan prediksi. Alasannya adalah bahwa kegagalan untuk memasukkan faktor dunia nyata yang penting mengarah pada koefisien bias dan dengan demikian kesimpulan yang tidak akurat (yaitu, bias variabel dihilangkan).
Tetapi dalam praktik penelitian, saya belum pernah melihat orang termasuk sesuatu yang menyerupai "semua prediktor yang relevan." Banyak fenomena memiliki banyak penyebab penting, dan akan sangat sulit, jika bukan tidak mungkin, untuk memasukkan semuanya. Contoh off-the-cuff adalah memodelkan depresi sebagai hasil: Tidak ada yang membangun apa pun dekat dengan model yang mencakup "semua variabel yang relevan": misalnya, sejarah orang tua, sifat kepribadian, dukungan sosial, pendapatan, interaksi mereka, dll., dll ...
Selain itu, menyesuaikan model yang rumit seperti itu akan menyebabkan perkiraan yang sangat tidak stabil kecuali jika ada ukuran sampel yang sangat besar.
Pertanyaan saya sangat sederhana: Apakah asumsi / saran untuk "memasukkan semua prediktor yang relevan" hanya sesuatu yang kita "katakan" tetapi tidak pernah benar-benar berarti? Jika tidak, lalu mengapa kita memberikannya sebagai saran pemodelan yang sebenarnya?
Dan apakah ini berarti bahwa sebagian besar koefisien mungkin menyesatkan? (misalnya, studi tentang faktor kepribadian dan depresi yang hanya menggunakan beberapa prediktor). Dengan kata lain, seberapa besar masalah ini untuk kesimpulan ilmu kita?
Jawaban:
Anda benar - kami jarang realistis dalam mengatakan "semua prediktor yang relevan". Dalam prakteknya kita bisa puas dengan termasuk prediktor yang menjelaskan sumber utama dari variasi dalam . Dalam kasus khusus dalam menarik kesimpulan tentang faktor risiko atau pengobatan dalam penelitian observasional, ini jarang cukup baik. Untuk itu, penyesuaian untuk perancu perlu sangat agresif, termasuk variabel yang mungkin terkait dengan hasil dan mungkin terkait dengan pilihan pengobatan atau dengan faktor risiko yang Anda coba publikasikan.Y
Tertarik bahwa dengan model linier normal, kovariat yang dihilangkan, terutama jika ortogonal untuk memasukkan kovariat, dapat dianggap sebagai hanya memperbesar istilah kesalahan. Dalam model nonlinier (logistik, Cox, banyak lainnya) penghilangan variabel dapat membiaskan efek dari semua variabel yang termasuk dalam model (misalnya, karena ketidakberpisahan rasio odds, misalnya).
sumber
Ya, Anda harus memasukkan semua "variabel yang relevan", tetapi Anda harus pintar tentang hal itu. Anda harus memikirkan cara-cara untuk membangun eksperimen yang akan mengisolasi dampak fenomena Anda dari hal-hal yang tidak terkait, yang merupakan banyak penelitian di dunia nyata (sebagai lawan ruang kelas). Sebelum Anda masuk ke statistik, Anda harus melakukan angkat berat di domain Anda, bukan dalam statistik.
Saya mendorong Anda untuk tidak bersikap sinis tentang memasukkan semua variabel yang relevan, karena itu bukan hanya tujuan yang mulia tetapi juga karena itu sering mungkin. Kami tidak mengatakan ini hanya untuk mengatakannya. Kami benar-benar bersungguh-sungguh. Faktanya, merancang eksperimen dan studi yang mampu memasukkan semua variabel yang relevan adalah yang membuat sains benar-benar menarik, dan berbeda dari "eksperimen" pelat ketel mekanis.
Untuk memotivasi pernyataan saya, saya akan memberi Anda sebuah contoh tentang bagaimana Galileo mempelajari akselerasi. Berikut uraiannya tentang percobaan yang sebenarnya (dari halaman web ini ):
Perhatikan bagaimana dia mengukur waktu. Ini sangat kasar sehingga mengingatkan saya bagaimana hari ini ilmu tidak alami mengukur variabel mereka, pikirkan "kepuasan pelanggan" atau "utilitas". Dia menyebutkan bahwa kesalahan pengukuran berada dalam sepersepuluh dari satuan waktu, btw.
Apakah dia memasukkan semua variabel yang relevan? Iya, dia melakukannya. Sekarang, Anda harus memahami bahwa semua benda saling tertarik oleh gravitasi. Jadi, secara teori untuk menghitung gaya yang tepat pada bola Anda harus menambahkan setiap benda di alam semesta ke persamaan. Selain itu, jauh lebih penting dia tidak termasuk ketahanan permukaan, hambatan udara, momentum sudut dll. Apakah ini semua berdampak pada pengukurannya? Iya. Namun, mereka tidak relevan dengan apa yang dia pelajari karena dia dapat mengurangi atau menghilangkan dampaknya dengan mengisolasi dampak dari properti yang dia pelajari.
sumber
Agar asumsi model regresi tetap berlaku, semua prediktor yang relevan harus dimasukkan. Tetapi tidak ada asumsi dalam analisis statistik yang sempurna dan banyak praktik statistik didasarkan pada "Cukup Dekat".
Dengan Desain percobaan dan pengacakan yang tepat, efek dari istilah yang tidak termasuk dalam model seringkali dapat diabaikan (diasumsikan sama dengan kemungkinan pengacakan). Tetapi, regresi biasanya digunakan ketika pengacakan penuh tidak memungkinkan untuk memperhitungkan semua variabel yang mungkin tidak termasuk dalam model, sehingga pertanyaan Anda menjadi penting.
Cukup banyak setiap model regresi yang cocok mungkin kehilangan beberapa prediktor potensial, tetapi "Saya tidak tahu" tanpa klarifikasi lebih lanjut tidak akan memungkinkan statistik yang bekerja tetap bekerja, jadi kami mencoba yang terbaik dan kemudian mencoba mencari tahu seberapa besar perbedaannya antara asumsi dan kenyataan akan mempengaruhi hasil kami. Dalam beberapa kasus perbedaan dari asumsi membuat perbedaan sangat kecil dan kami tidak terlalu khawatir tentang perbedaan, tetapi dalam kasus lain itu bisa sangat serius.
Salah satu opsi ketika Anda tahu bahwa mungkin ada prediktor yang tidak termasuk dalam model yang akan relevan adalah melakukan analisis sensitivitas. Ini mengukur seberapa besar bias yang mungkin terjadi berdasarkan hubungan potensial dengan variabel yang tidak terukur. Kertas ini:
memberikan beberapa alat (dan contoh) dari analisis sensitivitas.
sumber