Mengapa Daniel Wilks (2011) mengatakan bahwa regresi komponen utama “akan menjadi bias”?

Dalam Metode Statistik dalam Ilmu Atmosfer , Daniel Wilks mencatat bahwa regresi linier berganda dapat menyebabkan masalah jika ada hubungan yang sangat kuat di antara para prediktor (edisi ke-3, halaman 559-560):

Patologi yang dapat terjadi dalam regresi linier berganda adalah bahwa seperangkat variabel prediktor yang memiliki korelasi timbal balik yang kuat dapat menghasilkan perhitungan hubungan regresi yang tidak stabil.

(...)

Dia kemudian memperkenalkan regresi komponen utama:

Pendekatan untuk memperbaiki masalah ini adalah pertama-tama mengubah prediktor ke komponen utama mereka, korelasi di antaranya adalah nol.

Sejauh ini baik. Tapi selanjutnya, dia membuat beberapa pernyataan yang tidak dia jelaskan (atau setidaknya tidak cukup detail untuk saya mengerti):

Jika semua komponen utama dipertahankan dalam regresi komponen utama, maka tidak ada yang diperoleh dari kuadrat terkecil konvensional yang sesuai dengan set prediktor penuh.

(..) dan:

Dimungkinkan untuk menyatakan kembali regresi komponen utama dalam hal prediktor asli, tetapi hasilnya secara umum akan melibatkan semua variabel prediktor asli bahkan jika hanya satu atau beberapa prediktor komponen utama telah digunakan. Regresi yang dilarutkan ini akan menjadi bias, meskipun seringkali variansnya jauh lebih kecil, sehingga menghasilkan UMK yang lebih kecil secara keseluruhan.

Saya tidak mengerti dua poin ini.

Tentu saja, jika semua komponen utama dipertahankan, kami menggunakan informasi yang sama seperti ketika kami menggunakan prediktor di ruang asalnya. Namun, masalah hubungan timbal balik dihapus dengan bekerja di ruang komponen utama. Kita mungkin masih memiliki overfitting, tetapi apakah itu satu-satunya masalah? Kenapa tidak ada yang didapat?

Kedua, bahkan jika kita memotong komponen utama (mungkin untuk pengurangan kebisingan dan / atau untuk mencegah overfitting), mengapa dan bagaimana hal ini mengarah pada regresi dilarutkan yang bias? Bias dengan cara apa?

Sumber buku: Daniel S. Wilks, Metode Statistik dalam Ilmu Atmosfer, edisi ketiga, 2011. International Geophysics Series Volume 100, Academic Press.

regression pca bias gerrit
sumber

(+1) Dalam kutipan kedua, "akan bias" tidak mengikuti secara logis: lebih baik pernyataan yang lebih ringan seperti "cenderung bias." Saya menduga alasan di balik itu mungkin sesuatu seperti "karena PCR memaksakan hubungan linier di antara estimasi parameter, estimasi tersebut akan cenderung berbeda dari estimasi OLS; dan karena estimasi OLS tidak bias, itu berarti estimasi PCR akan bias." Secara intuitif ini adalah heuristik yang baik tetapi tidak sepenuhnya benar.

whuber

mungkinkah dikatakan bahwa "PCR akan bias" jika (a) titik data tidak menempati manifold dimensi linier yang lebih rendah atau sama dari jumlah PC yang dipilih dan (b) titik data tidak sepenuhnya tidak berkorelasi? atau bagaimana?

Soren Havelund Welling

Jawaban:

Apa yang terjadi ketika semua PC digunakan?

Jika semua PC digunakan, maka koefisien regresi yang dihasilkan akan identik dengan yang diperoleh dengan regresi OLS, sehingga prosedur ini sebaiknya tidak disebut "regresi komponen utama". Ini adalah regresi standar, hanya dilakukan secara tidak langsung.

$Z$ $Z$ $X$ $X_i$

Jadi tidak ada yang didapat.

Apa yang terjadi ketika hanya beberapa PC yang digunakan?

$\hat \beta_\mathrm{PCR}$ $\hat \beta_\mathrm{OLS}$ $\hat \beta$

Ini adalah contoh dari trade-off bias-varians . Lihat Mengapa susut bekerja? untuk diskusi umum lebih lanjut.

$y$ $y$ $y$

Mengapa menggunakan PC dengan varian tinggi adalah ide yang bagus?

Ini bukan bagian dari pertanyaan, tetapi Anda mungkin tertarik pada utas berikut untuk bacaan lebih lanjut: Bagaimana komponen utama dapat mempertahankan daya prediksi pada variabel dependen (atau bahkan mengarah ke prediksi yang lebih baik)?

amuba kata Reinstate Monica
sumber

Y

$Y$

Y

$Y$

@whuber, Memang. Saya telah menulis ulang paragraf itu, semoga lebih masuk akal sekarang. Terima kasih.

Amoeba berkata Reinstate Monica

Hmm benar. Pada dasarnya bias berarti beberapa titik lebih setara daripada yang lain, yang persis apa yang kita inginkan jika kita ingin mengurangi pengaruh kebisingan dan pencilan (yang saya belum yakin apakah PCA adalah alat terbaik untuk).

gerrit

@ kritik Anda menulis seolah-olah bias sama saja dengan pembobotan, tetapi mereka adalah hal-hal yang terpisah. Bias dalam konteks ini mengacu pada perbedaan antara nilai yang diharapkan dari estimasi koefisien dan nilai sebenarnya.

Whuber

Model mengandaikan tanggapan adalah variabel acak. Ini membuat koefisien estimasi - menggunakan prosedur apa pun - variabel acak juga. Nilai yang diharapkan ditentukan untuk variabel acak apa saja. Menurut definisi, bias adalah perbedaan antara nilai yang diharapkan dan nilai sebenarnya. Estimasi koefisien OLS memiliki bias nol. Bias beberapa prosedur lain masih bisa nol. Logika kutipan adalah bahwa prosedur yang linier, seperti OLS, tetapi memaksakan hubungan di antara koefisien, tentu akan menjadi bias. Kesimpulan itu benar dalam banyak kasus, tetapi tidak semua.

whuber