Saya memiliki set data besar yang terdiri dari nilai beberapa ratus variabel keuangan yang dapat digunakan dalam regresi berganda untuk memprediksi perilaku dana indeks dari waktu ke waktu. Saya ingin mengurangi jumlah variabel menjadi sepuluh atau lebih sambil tetap mempertahankan kekuatan prediksi sebanyak mungkin. Ditambahkan: Rangkaian variabel yang dikurangi harus merupakan himpunan bagian dari set variabel asli untuk menjaga makna ekonomi dari variabel asli. Jadi, misalnya, saya tidak boleh berakhir dengan kombinasi linear atau agregat dari variabel asli.
Beberapa (mungkin naif) pemikiran tentang bagaimana melakukan ini:
- Lakukan regresi linier sederhana dengan setiap variabel dan pilih sepuluh dengan nilai . Tentu saja, tidak ada jaminan bahwa sepuluh variabel individu terbaik yang digabungkan akan menjadi kelompok sepuluh terbaik.
- Lakukan analisis komponen utama dan cobalah untuk menemukan sepuluh variabel asli dengan asosiasi terbesar dengan beberapa sumbu utama pertama.
Saya tidak berpikir saya bisa melakukan regresi hirarkis karena variabel tidak benar-benar bersarang. Mencoba semua kombinasi yang mungkin dari sepuluh variabel secara komputasi tidak mungkin karena ada terlalu banyak kombinasi.
Apakah ada pendekatan standar untuk mengatasi masalah ini mengurangi jumlah variabel dalam regresi berganda?
Sepertinya ini akan menjadi masalah yang cukup umum sehingga akan ada pendekatan standar.
Jawaban yang sangat membantu adalah jawaban yang tidak hanya menyebutkan metode standar tetapi juga memberikan tinjauan umum tentang bagaimana dan mengapa ia bekerja. Atau, jika tidak ada satu pendekatan standar tetapi lebih dari satu pendekatan dengan kekuatan dan kelemahan yang berbeda, jawaban yang sangat membantu akan menjadi salah satu yang membahas pro dan kontra mereka.
Komentar whuber di bawah ini menunjukkan bahwa permintaan pada paragraf terakhir terlalu luas. Sebagai gantinya, saya akan menerima sebagai jawaban yang baik daftar pendekatan utama, mungkin dengan deskripsi masing-masing yang sangat singkat. Setelah saya memiliki persyaratan, saya bisa menggali rinciannya masing-masing.
Jawaban:
Masalah ini biasanya disebut Subset Seleksi dan ada beberapa pendekatan yang berbeda. Lihat Google Cendekia untuk ikhtisar tentang artikel terkait .
sumber
Metode 1 tidak berfungsi. Metode 2 memiliki harapan tergantung pada bagaimana Anda melakukannya. Lebih baik memasukkan komponen utama dalam urutan varian yang dijelaskan. Pendekatan yang lebih dapat diinterpretasikan adalah melakukan pengelompokan variabel, kemudian mengurangi setiap klaster menjadi skor tunggal (tidak menggunakan Y), kemudian menyesuaikan model dengan skor kluster.
sumber
varclus
fungsi dalamHmisc
paket R , atau PROC VARCLUS di SAS. Pengurangan data dapat membantu dengan membuat subset variabel jika Anda berhati-hati; Anda dapat menghapus seluruh cluster jika nilai- nya adalah 0,3. Dengan komponen utama ada teknik seperti pengurangan baterai di mana Anda pada dasarnya memperkirakan PC dengan subset dari variabel penyusunnya.Dalam bab 5 dari Penambangan Data dengan R, penulis menunjukkan beberapa cara untuk memilih prediktor yang paling berguna. (Dalam konteks bioinformatika, di mana setiap baris sampel memiliki 12.000 kolom!)
Dia pertama kali menggunakan beberapa filter berdasarkan distribusi statistik. Misalnya, jika Anda memiliki setengah lusin prediktor semua dengan mean dan sd yang sama maka Anda bisa lolos hanya dengan menyimpan salah satunya.
Dia kemudian menunjukkan bagaimana menggunakan hutan acak untuk menemukan mana yang merupakan prediktor paling berguna. Berikut ini adalah contoh abstrak mandiri. Anda dapat melihat saya punya 5 prediktor yang baik, 5 yang buruk. Kode ini menunjukkan cara mempertahankan yang terbaik 3.
Pendekatan terakhir penulis adalah menggunakan algoritma pengelompokan hierarkis untuk mengelompokkan prediktor yang sama ke dalam, katakanlah, 30 kelompok. Jika Anda ingin 30 prediktor yang beragam, Anda kemudian memilih satu dari masing-masing dari 30 kelompok tersebut, secara acak.
Berikut adalah beberapa kode, menggunakan data sampel yang sama seperti di atas, untuk memilih 3 dari 10 kolom:
Data sampel saya sama sekali tidak cocok dengan pendekatan ini, karena saya memiliki 5 prediktor yang baik dan 5 yang hanya berisik. Jika semua 10 prediktor sedikit berkorelasi dengan
y
, dan memiliki peluang bagus untuk menjadi lebih baik ketika digunakan bersama-sama (yang sangat mungkin dalam domain finansial), maka ini mungkin merupakan pendekatan yang baik.sumber
Anda dapat mempertimbangkan menggunakan metode seperti LASSO yang mengatur kuadrat terkecil dengan memilih solusi yang meminimalkan satu norma dari vektor parameter. Ternyata ini memiliki efek dalam praktik meminimalkan jumlah entri bukan nol dalam vektor parameter. Meskipun LASSO populer di beberapa kalangan statistik banyak metode terkait lainnya telah dipertimbangkan dalam dunia penginderaan tekan.
sumber