Bagaimana cara menggunakan analisis komponen utama untuk memilih variabel untuk regresi?

12

Saat ini saya menggunakan analisis komponen utama untuk memilih variabel yang akan digunakan dalam pemodelan. Saat ini, saya membuat pengukuran A, B, dan C dalam percobaan saya - Yang benar-benar ingin saya ketahui adalah: Dapatkah saya membuat lebih sedikit pengukuran dan berhenti merekam C dan atau B untuk menghemat waktu dan tenaga?

Saya menemukan bahwa ketiga variabel memuat banyak ke komponen utama pertama saya yang menyumbang 60% dari varians dalam data saya. Skor komponen mengatakan kepada saya bahwa jika saya menambahkan variabel-variabel ini bersama-sama dalam rasio tertentu (a + bB + cC). Saya bisa mendapatkan skor pada PC1 untuk setiap kasus dalam dataset saya dan bisa menggunakan skor ini sebagai variabel dalam pemodelan, tetapi itu tidak memungkinkan saya untuk berhenti mengukur B dan C.

Jika saya kuadratkan beban A dan B dan C pada PC1, saya menemukan bahwa variabel A menyumbang 65% dari varians di PC1 dan variabel B menyumbang 50% dari varians di PC1 dan variabel C juga 50%, yaitu beberapa dari varians dalam PC1 yang diperhitungkan oleh masing-masing variabel A, B dan C dibagi dengan variabel lain, tetapi A keluar di atas akuntansi untuk sedikit lebih.

Apakah salah untuk berpikir bahwa saya hanya bisa memilih variabel A atau mungkin (aA + bB, jika perlu) untuk digunakan dalam pemodelan karena variabel ini menggambarkan sebagian besar varian dalam PC1 dan ini pada gilirannya menggambarkan sebagian besar varian dalam data?

Pendekatan apa yang pernah Anda gunakan di masa lalu?

  • Variabel tunggal yang memuat terberat pada PC1 bahkan jika ada loader berat lainnya?
  • Skor komponen pada PC1 menggunakan semua variabel bahkan jika mereka semua adalah pemuat berat?
N26
sumber

Jawaban:

14

Anda belum menentukan "pemodelan" apa yang Anda rencanakan, tetapi sepertinya Anda bertanya tentang bagaimana memilih variabel independen di antara , B , dan C untuk tujuan (katakanlah) mundur variabel dependen keempat W pada mereka.ABCW

XYZβ1ϵβW=ZXYZ

A=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}X2βABCXYCABWAB

Contoh ini menunjukkan bahwa untuk regresi Anda ingin memperhatikan bagaimana variabel independen dikorelasikan dengan variabel dependen; Anda tidak dapat pergi hanya dengan menganalisis hubungan di antara variabel independen.

whuber
sumber
1
A=X+ϵYZ+ϵY
@ Lusby Ya, terima kasih. (Saya harus mengubah semua nama variabel dalam konsep agar sesuai dengan nama OP dan mengacaukan yang satu ini.)
whuber
4

Jika Anda hanya memiliki 3 infus, mengapa Anda ingin menguranginya?

Artinya, apakah sampel Anda sangat kecil (sehingga 3 IV berisiko overfitting)? Dalam hal ini, pertimbangkan kuadrat terkecil parsial

Atau apakah pengukurannya sangat mahal (jadi, di masa depan, Anda hanya ingin mengukur satu IV)? Dalam hal ini, saya akan mempertimbangkan untuk melihat regresi berbeda dengan masing-masing IV secara terpisah dan bersama-sama.

Atau apakah seseorang di masa lalu Anda terlalu menekankan nilai kekikiran? Dalam hal ini, mengapa tidak memasukkan ketiga IVs?

Peter Flom - Pasang kembali Monica
sumber