Dalam Metode Statistik dalam Ilmu Atmosfer , Daniel Wilks mencatat bahwa regresi linier berganda dapat menyebabkan masalah jika ada hubungan yang sangat kuat di antara para prediktor (edisi ke-3, halaman 559-560):
Patologi yang dapat terjadi dalam regresi linier berganda adalah bahwa seperangkat variabel prediktor yang memiliki korelasi timbal balik yang kuat dapat menghasilkan perhitungan hubungan regresi yang tidak stabil.
(...)
Dia kemudian memperkenalkan regresi komponen utama:
Pendekatan untuk memperbaiki masalah ini adalah pertama-tama mengubah prediktor ke komponen utama mereka, korelasi di antaranya adalah nol.
Sejauh ini baik. Tapi selanjutnya, dia membuat beberapa pernyataan yang tidak dia jelaskan (atau setidaknya tidak cukup detail untuk saya mengerti):
Jika semua komponen utama dipertahankan dalam regresi komponen utama, maka tidak ada yang diperoleh dari kuadrat terkecil konvensional yang sesuai dengan set prediktor penuh.
(..) dan:
Dimungkinkan untuk menyatakan kembali regresi komponen utama dalam hal prediktor asli, tetapi hasilnya secara umum akan melibatkan semua variabel prediktor asli bahkan jika hanya satu atau beberapa prediktor komponen utama telah digunakan. Regresi yang dilarutkan ini akan menjadi bias, meskipun seringkali variansnya jauh lebih kecil, sehingga menghasilkan UMK yang lebih kecil secara keseluruhan.
Saya tidak mengerti dua poin ini.
Tentu saja, jika semua komponen utama dipertahankan, kami menggunakan informasi yang sama seperti ketika kami menggunakan prediktor di ruang asalnya. Namun, masalah hubungan timbal balik dihapus dengan bekerja di ruang komponen utama. Kita mungkin masih memiliki overfitting, tetapi apakah itu satu-satunya masalah? Kenapa tidak ada yang didapat?
Kedua, bahkan jika kita memotong komponen utama (mungkin untuk pengurangan kebisingan dan / atau untuk mencegah overfitting), mengapa dan bagaimana hal ini mengarah pada regresi dilarutkan yang bias? Bias dengan cara apa?
Sumber buku: Daniel S. Wilks, Metode Statistik dalam Ilmu Atmosfer, edisi ketiga, 2011. International Geophysics Series Volume 100, Academic Press.
sumber
Jawaban:
Apa yang terjadi ketika semua PC digunakan?
Jika semua PC digunakan, maka koefisien regresi yang dihasilkan akan identik dengan yang diperoleh dengan regresi OLS, sehingga prosedur ini sebaiknya tidak disebut "regresi komponen utama". Ini adalah regresi standar, hanya dilakukan secara tidak langsung.
Jadi tidak ada yang didapat.
Apa yang terjadi ketika hanya beberapa PC yang digunakan?
Ini adalah contoh dari trade-off bias-varians . Lihat Mengapa susut bekerja? untuk diskusi umum lebih lanjut.
Mengapa menggunakan PC dengan varian tinggi adalah ide yang bagus?
Ini bukan bagian dari pertanyaan, tetapi Anda mungkin tertarik pada utas berikut untuk bacaan lebih lanjut: Bagaimana komponen utama dapat mempertahankan daya prediksi pada variabel dependen (atau bahkan mengarah ke prediksi yang lebih baik)?
sumber