Regresi berganda dengan variabel prediktor yang hilang

9

Misalkan kita diberi satu set data formulir dan . Kami diberi tugas untuk memprediksi berdasarkan nilai . Kami memperkirakan dua regresi di mana: ( y , x 1 , x 2 , , x n - 1 ) y x y(y,x1,x2,,xn)(y,x1,x2,,xn1)yx

(1)y=f1(x1,,xn1,xn)(2)y=f2(x1,,xn1)

Kami juga memperkirakan regresi yang memprediksi nilai berdasarkan nilai , yaitu: ( x 1 , , x n - 1 ) x n = f 3 ( x 1 , , x n - 1 )xn(x1,,xn1)

(3)xn=f3(x1,,xn1)

Misalkan sekarang kita diberi nilai , maka kita akan memiliki dua metode berbeda untuk memprediksi :y(x1,,xn1)y

(4)y=f1(x1,,xn1,f3(x1,,xn1))(5)y=f2(x1,,xn1)

Yang mana yang lebih baik secara umum?

Saya menduga bahwa persamaan pertama akan lebih baik karena menggunakan informasi dari dua bentuk titik data sedangkan persamaan kedua menggunakan informasi dari hanya titik data yang memiliki nilai prediktor . Pelatihan statistik saya terbatas dan karenanya saya ingin mencari nasihat profesional.n1

Juga, secara umum, apa pendekatan terbaik terhadap data yang memiliki informasi yang tidak lengkap? Dengan kata lain, bagaimana kita bisa mengekstrak informasi paling dari data yang tidak memiliki nilai-nilai dalam semua dimensi?n

Xiaowen Li
sumber
Memperkirakan dengan aktual vs memperkirakan dengan perkiraan - Anda memutuskan :)
PhD
Benarkah sesederhana itu?
Xiaowen Li
Jawabannya mungkin, itu tergantung. Berapa banyak data yang hilang? Berapa banyak data yang Anda miliki secara keseluruhan? Berapa banyak prediktor yang Anda miliki?
Joel W.

Jawaban:

6

+1, saya pikir ini adalah pertanyaan yang sangat menarik dan dinyatakan dengan jelas. Namun, informasi lebih lanjut akan membantu kita memikirkan situasi ini.

Misalnya, apa hubungan antara dan ? Sangat mungkin bahwa tidak ada satu, dalam hal ini, regresi tidak menawarkan keuntungan relatif terhadap regresi . (Sebenarnya, itu pada kerugian yang sangat sedikit, dalam arti bahwa kesalahan standar akan sedikit lebih besar, dan dengan demikian beta mungkin sedikit lebih jauh, rata-rata, dari nilai sebenarnya.) Jika ada pemetaan fungsi ke , kemudian, menurut definisi, ada informasi nyata di sana, dan regresi akan lebih baik dalam situasi awal. y ( 1 ) ( 2 ) x n y ( 1 )xny(1)(2)xny(1)

Selanjutnya, apa sifat hubungan antara dan ? Apakah ada satu? Misalnya, ketika kami melakukan eksperimen, (biasanya) kami mencoba menetapkan jumlah unit studi yang sama untuk setiap kombinasi nilai dari variabel penjelas. (Pendekatan ini menggunakan kelipatan produk Cartesian dari tingkat IV, dan disebut desain 'faktorial penuh'; ada juga kasus di mana tingkat sengaja dikacaukan untuk menyimpan data, yang disebut desain ' faktorial fraksional '). variabel penjelas bersifat ortogonal, regresi ketiga Anda akan menghasilkan secara mutlak, tepat 0. Di sisi lain, dalam penelitian observasional kovariat hampir selalux n x n ( 1 ) ( 2 )(x1,,xn1)xnberkorelasi. Semakin kuat korelasinya, semakin sedikit informasi yang ada di . Fakta-fakta ini akan memodulasi manfaat relatif dari regresi dan regresi . xn(1)(2)

Namun, (sayangnya mungkin) ini lebih rumit dari itu. Salah satu konsep penting, tetapi sulit, dalam regresi berganda adalah multikolinieritas . Jika Anda mencoba memperkirakan regresi , Anda akan menemukan bahwa Anda memiliki multikolinieritas yang sempurna, dan perangkat lunak Anda akan memberi tahu Anda bahwa matriks desain tidak dapat dibalik. Jadi, sementara regresi mungkin menawarkan keuntungan relatif terhadap regresi , regresi tidak akan. ( 1 ) ( 2 ) ( 4 )(4)(1)(2)(4)

Pertanyaan yang lebih menarik (dan yang Anda tanyakan) adalah bagaimana jika Anda menggunakan regresi untuk membuat prediksi tentang menggunakan estimasi hasil nilai dari prediksi regresi ? (Yaitu, Anda tidak memperkirakan regresi —Anda memasukkan output dari persamaan prediksi yang diperkirakan dalam regresi ke dalam model prediksi .) Masalahnya adalah Anda tidak benar-benar mendapatkan yang baru informasi di sini. Informasi apa pun yang ada dalam nilai prediktor pertama untuk setiap pengamatan sudah digunakan secara optimal oleh regresiy x n ( 3 ) ( 4 ) ( 3 ) ( 4 ) n - 1 ( 2 )(1)yxn(3)(4)(3)(4)n1(2), jadi tidak ada untungnya.

Dengan demikian, jawaban untuk pertanyaan pertama Anda adalah Anda sebaiknya menggunakan regresi agar prediksi Anda dapat menghemat pekerjaan yang tidak perlu. Perhatikan bahwa saya telah menangani ini dengan cara yang cukup abstrak, daripada menangani situasi konkret yang Anda gambarkan di mana seseorang memberikan Anda dua set data (Saya tidak bisa membayangkan ini terjadi). Sebagai gantinya, saya memikirkan pertanyaan ini sebagai mencoba memahami sesuatu yang cukup mendalam tentang sifat regresi. Apa yang terjadi pada kesempatan tertentu, meskipun, adalah bahwa beberapa pengamatan memiliki nilai pada semua prediktor, dan beberapa pengamatan lainnya (dalam dataset yang sama) kehilangan beberapa nilai pada beberapa prediktor. Ini sangat umum ketika berhadapan dengan data longitudinal. Dalam situasi seperti itu, Anda ingin menyelidiki beberapa imputasi . (2)

gung - Pasang kembali Monica
sumber
Terima kasih Gung untuk jawaban terperinci Anda dan Anda membantu memodifikasi kata-kata dari pertanyaan saya. Saya akan merespons setelah saya sepenuhnya menafsirkan jawaban Anda. Sekadar informasi, ini adalah studi observasional tentang harga bola lampu. termasuk jam hidup, luminositas, dan suhu warna bohlam. Informasi dikumpulkan dari pengecer yang biasanya tidak memberikan segalanya, yang mengakibatkan hilangnya prediksi. Namun demikian, kami berusaha memanfaatkan informasi yang kami kumpulkan. xn
Xiaowen Li
1
OK, saya pikir ini hanya tentang memahami regresi. Saya akan melihat ke beberapa imputasi.
gung - Reinstate Monica
Terima kasih Gung atas wawasan Anda. Anda benar bahwa tidak ada informasi baru yang diperoleh dengan menggunakan persamaan 4. Imputasi ternyata persis seperti yang saya butuhkan. Dan Anda benar, saya mengalami beberapa collinearity, memberi saya nilai p yang sangat besar untuk koefisien. Kemudian saya dihadapkan dengan pilihan baik mengurangi jumlah variabel mendapatkan nilai p lebih kecil untuk koefisien, atau mendapatkan lebih besar dan p lebih besar. Saya kira hidup dipenuhi dengan kompromi. r2
Xiaowen Li
Sekali lagi terima kasih atas diskusi abstrak Anda tentang regresi. Statistik bisa sangat menarik jika kita melihatnya sebagai metode untuk menemukan kebenaran. Saya akan memeriksanya lagi setelah saya selesai dengan set data saya :)
Xiaowen Li
Anda harus memeriksa imputasi fraksional parametrik. Ini adalah pekerjaan yang dilakukan oleh Jae Kwang Kim di Iowa State yang mungkin sempurna untuk situasi ini. Lihat biomet.oxfordjournals.org/content/98/1/119.abstract
StatsStudent