Misalkan kita diberi satu set data formulir dan . Kami diberi tugas untuk memprediksi berdasarkan nilai . Kami memperkirakan dua regresi di mana: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y
Kami juga memperkirakan regresi yang memprediksi nilai berdasarkan nilai , yaitu: ( x 1 , ⋯ , x n - 1 ) x n = f 3 ( x 1 , ⋯ , x n - 1 )
Misalkan sekarang kita diberi nilai , maka kita akan memiliki dua metode berbeda untuk memprediksi :y
Yang mana yang lebih baik secara umum?
Saya menduga bahwa persamaan pertama akan lebih baik karena menggunakan informasi dari dua bentuk titik data sedangkan persamaan kedua menggunakan informasi dari hanya titik data yang memiliki nilai prediktor . Pelatihan statistik saya terbatas dan karenanya saya ingin mencari nasihat profesional.
Juga, secara umum, apa pendekatan terbaik terhadap data yang memiliki informasi yang tidak lengkap? Dengan kata lain, bagaimana kita bisa mengekstrak informasi paling dari data yang tidak memiliki nilai-nilai dalam semua dimensi?
Jawaban:
+1, saya pikir ini adalah pertanyaan yang sangat menarik dan dinyatakan dengan jelas. Namun, informasi lebih lanjut akan membantu kita memikirkan situasi ini.
Misalnya, apa hubungan antara dan ? Sangat mungkin bahwa tidak ada satu, dalam hal ini, regresi tidak menawarkan keuntungan relatif terhadap regresi . (Sebenarnya, itu pada kerugian yang sangat sedikit, dalam arti bahwa kesalahan standar akan sedikit lebih besar, dan dengan demikian beta mungkin sedikit lebih jauh, rata-rata, dari nilai sebenarnya.) Jika ada pemetaan fungsi ke , kemudian, menurut definisi, ada informasi nyata di sana, dan regresi akan lebih baik dalam situasi awal. y ( 1 ) ( 2 ) x n y ( 1 )xn y (1) (2) xn y (1)
Selanjutnya, apa sifat hubungan antara dan ? Apakah ada satu? Misalnya, ketika kami melakukan eksperimen, (biasanya) kami mencoba menetapkan jumlah unit studi yang sama untuk setiap kombinasi nilai dari variabel penjelas. (Pendekatan ini menggunakan kelipatan produk Cartesian dari tingkat IV, dan disebut desain 'faktorial penuh'; ada juga kasus di mana tingkat sengaja dikacaukan untuk menyimpan data, yang disebut desain ' faktorial fraksional '). variabel penjelas bersifat ortogonal, regresi ketiga Anda akan menghasilkan secara mutlak, tepat 0. Di sisi lain, dalam penelitian observasional kovariat hampir selalux n x n ( 1 ) ( 2 )(x1,⋯,xn−1) xn berkorelasi. Semakin kuat korelasinya, semakin sedikit informasi yang ada di . Fakta-fakta ini akan memodulasi manfaat relatif dari regresi dan regresi . xn (1) (2)
Namun, (sayangnya mungkin) ini lebih rumit dari itu. Salah satu konsep penting, tetapi sulit, dalam regresi berganda adalah multikolinieritas . Jika Anda mencoba memperkirakan regresi , Anda akan menemukan bahwa Anda memiliki multikolinieritas yang sempurna, dan perangkat lunak Anda akan memberi tahu Anda bahwa matriks desain tidak dapat dibalik. Jadi, sementara regresi mungkin menawarkan keuntungan relatif terhadap regresi , regresi tidak akan. ( 1 ) ( 2 ) ( 4 )(4) (1) (2) (4)
Pertanyaan yang lebih menarik (dan yang Anda tanyakan) adalah bagaimana jika Anda menggunakan regresi untuk membuat prediksi tentang menggunakan estimasi hasil nilai dari prediksi regresi ? (Yaitu, Anda tidak memperkirakan regresi —Anda memasukkan output dari persamaan prediksi yang diperkirakan dalam regresi ke dalam model prediksi .) Masalahnya adalah Anda tidak benar-benar mendapatkan yang baru informasi di sini. Informasi apa pun yang ada dalam nilai prediktor pertama untuk setiap pengamatan sudah digunakan secara optimal oleh regresiy x n ( 3 ) ( 4 ) ( 3 ) ( 4 ) n - 1 ( 2 )(1) y xn (3) (4) (3) (4) n−1 (2) , jadi tidak ada untungnya.
Dengan demikian, jawaban untuk pertanyaan pertama Anda adalah Anda sebaiknya menggunakan regresi agar prediksi Anda dapat menghemat pekerjaan yang tidak perlu. Perhatikan bahwa saya telah menangani ini dengan cara yang cukup abstrak, daripada menangani situasi konkret yang Anda gambarkan di mana seseorang memberikan Anda dua set data (Saya tidak bisa membayangkan ini terjadi). Sebagai gantinya, saya memikirkan pertanyaan ini sebagai mencoba memahami sesuatu yang cukup mendalam tentang sifat regresi. Apa yang terjadi pada kesempatan tertentu, meskipun, adalah bahwa beberapa pengamatan memiliki nilai pada semua prediktor, dan beberapa pengamatan lainnya (dalam dataset yang sama) kehilangan beberapa nilai pada beberapa prediktor. Ini sangat umum ketika berhadapan dengan data longitudinal. Dalam situasi seperti itu, Anda ingin menyelidiki beberapa imputasi .(2)
sumber