Bagaimana cara menggunakan komponen utama sebagai prediktor dalam GLM?

9

Bagaimana saya menggunakan output dari analisis komponen utama (PCA) dalam model linier umum (GLM), dengan asumsi PCA digunakan untuk pemilihan variabel untuk GLM?

Klarifikasi: Saya ingin menggunakan PCA untuk menghindari penggunaan variabel yang berhubungan dalam GLM. Namun, PCA memberi saya output seperti .2*variable1+.5*variable3dll. Saya terbiasa menempatkan variabel 1 dan 3 ke dalam GLM. Jadi karena PCA memberi saya kombinasi linear, haruskah saya misalnya memasukkan itu ke dalam GLM sebagai variabel baru (untuk memperhitungkan variasi sistematis dalam respon oleh variabel 1 dan 3)?

ciel
sumber

Jawaban:

12

Adalah mungkin dan kadang-kadang tepat untuk menggunakan subset dari komponen utama sebagai variabel penjelas dalam model linier daripada variabel asli. Koefisien yang dihasilkan kemudian harus ditransformasikan kembali untuk diterapkan pada variabel asli. Hasilnya bias tetapi mungkin lebih unggul daripada teknik yang lebih mudah.

PCA memberikan satu set komponen utama yang merupakan kombinasi linear dari variabel asli. Jika Anda memilikik variabel asli yang masih Anda miliki k komponen utama pada akhirnya, tetapi mereka telah diputar k-dimensi ruang sehingga mereka ortogonal untuk (yaitu tidak berkorelasi dengan) satu sama lain (ini paling mudah untuk dipikirkan hanya dengan dua variabel).

Trik untuk menggunakan hasil PCA dalam model linier adalah bahwa Anda membuat keputusan untuk menghilangkan sejumlah komponen utama. Keputusan ini didasarkan pada kriteria yang mirip dengan proses pemilihan variabel seni hitam "biasa" untuk model bangunan.

Metode ini digunakan untuk menangani multi-collinearity. Hal ini cukup umum dalam regresi linier dengan respons Normal dan fungsi tautan identitas dari prediktor linier ke respons; tetapi kurang umum dengan model linier umum. Setidaknya ada satu artikel tentang masalah di web.

Saya tidak mengetahui adanya implementasi perangkat lunak yang ramah pengguna. Akan cukup mudah untuk melakukan PCA dan menggunakan komponen utama yang dihasilkan sebagai variabel penjelas Anda dalam model linier umum; dan kemudian menerjemahkan kembali ke skala aslinya. Memperkirakan distribusi (varians, bias dan bentuk) dari estimator Anda yang telah melakukan ini akan sulit; output standar dari model linier umum Anda akan salah karena mengasumsikan Anda berurusan dengan pengamatan asli. Anda bisa membuat bootstrap di sekitar seluruh prosedur (gabungan PCA dan glm), yang layak untuk R atau SAS.

Peter Ellis
sumber
5

Jawaban saya bukan untuk pertanyaan awal, tetapi komentar tentang pendekatan Anda.

Pertama menerapkan PCA, kemudian menjalankan model linier umum tidak dianjurkan. Alasannya adalah PCA akan memilih variabel penting oleh "varians variabel" tetapi tidak "bagaimana variabel berkorelasi dengan target prediksi". Dengan kata lain, "pilih variabel" dapat benar-benar menyesatkan, yang memilih variabel tidak penting.

Berikut ini adalah contohnya: kiri menunjukkan masa depan x1adalah penting untuk mengklasifikasikan dua jenis poin. Namun PCA menunjukkan sebaliknya.

masukkan deskripsi gambar di sini

Detail dapat ditemukan dalam jawaban saya di sini. Bagaimana cara memutuskan antara PCA dan regresi logistik?

Haitao Du
sumber
3

Saya sarankan Anda melihat makalah ini. Itu pekerjaan yang bagus menunjukkan hubungan antara distribusi keluarga gaussian dan sistem pelajar seperti PCA.

http://papers.nips.cc/paper/2078-a-generalization-of-principal-components-analysis-to-the-exponential-family.pdf

EDIT

Sinopsis: sementara banyak yang memikirkan PCA dari interpretasi geometris untuk menemukan vektor ortogonal dalam dataset yang paling bertanggung jawab atas varians dan kemudian memberikan parameter untuk secara tepat mengarahkan ulang ruang seseorang ke vektor tersebut, makalah ini membangun PCA menggunakan fungsi probabilitas eksponensial dalam konteks model linear umum, dan menawarkan ekstensi PCA yang lebih kuat untuk fungsi probabilitas lain dalam keluarga eksponensial. Selain itu, mereka membangun algoritma pelajar mirip PCA menggunakan bregman divergences. Ini cukup mudah diikuti dan untuk Anda, sepertinya itu bisa membantu Anda memahami hubungan antara PCA dan model linier umum.

kutipan:

Collins, Michael et al. "Generalisasi Analisis Komponen Utama ke Keluarga Eksponensial". Sistem Pemrosesan Informasi Saraf Tiruan

themalope
sumber
Hai gung, maaf soal itu, saya benar-benar mengerti!
themalalope