Mempertimbangkan multikolinier adalah penting dalam analisis regresi karena, dalam ekstrem , secara langsung dikenakan pada apakah koefisien Anda secara unik diidentifikasi dalam data. Dalam kasus yang tidak terlalu parah, masih bisa mengacaukan estimasi koefisien Anda; perubahan kecil dalam data yang digunakan untuk estimasi dapat menyebabkan ayunan liar dalam koefisien yang diestimasi. Ini bisa menjadi masalah dari sudut pandang inferensial: Jika dua variabel sangat berkorelasi, peningkatan satu dapat diimbangi dengan penurunan yang lain sehingga efek gabungan adalah untuk meniadakan satu sama lain. Dengan lebih dari dua variabel, efeknya bisa lebih halus, tetapi jika prediksi stabil, itu sering cukup untuk aplikasi pembelajaran mesin.
Pertimbangkan mengapa kita mengatur dalam konteks regresi: Kita perlu membatasi model agar tidak terlalu fleksibel. Menerapkan jumlah regularisasi yang benar akan sedikit meningkatkan bias untuk pengurangan variasi yang lebih besar. Contoh klasik dari ini adalah menambahkan istilah polinom dan efek interaksi ke regresi: Dalam kasus degenerasi, persamaan prediksi akan menginterpolasi titik data, tetapi mungkin mengerikan ketika mencoba memprediksi nilai dari titik data yang tidak terlihat. Mengecilkan koefisien tersebut kemungkinan akan meminimalkan atau sepenuhnya menghilangkan sebagian dari koefisien tersebut dan meningkatkan generalisasi.
Namun, hutan acak dapat dilihat memiliki parameter regularisasi melalui jumlah variabel sampel di setiap pemisahan: Anda mendapatkan pemisahan yang lebih baik semakin besar mtry
(lebih banyak fitur untuk dipilih; beberapa dari mereka lebih baik daripada yang lain), tetapi itu juga membuat masing-masing pohon lebih tinggi berkorelasi satu sama lain, agak mengurangi efek diversifikasi memperkirakan banyak pohon di tempat pertama. Dilema ini memaksa seseorang untuk menemukan keseimbangan yang tepat, biasanya dicapai dengan menggunakan validasi silang. Yang penting, dan berbeda dengan analisis regresi, tidak ada bagian dari model hutan acak dirugikan oleh variabel yang sangat collinear: bahkan jika dua variabel memberikan kemurnian simpul anak yang sama, Anda dapat memilih satu tanpa mengurangi kualitas hasilnya.
Demikian juga, untuk sesuatu seperti SVM, Anda dapat memasukkan lebih banyak prediktor daripada fitur karena trik kernel memungkinkan Anda beroperasi hanya pada produk bagian dalam vektor fitur tersebut. Memiliki lebih banyak fitur daripada pengamatan akan menjadi masalah dalam regresi, tetapi trik kernel berarti kita hanya memperkirakan koefisien untuk setiap contoh, sedangkan parameter regularisasi mengurangi fleksibilitas solusi - yang jelas merupakan hal yang baik, karena memperkirakan parameter untukCNNpengamatan dengan cara yang tidak terbatas akan selalu menghasilkan model yang sempurna pada data uji - dan kami datang dalam lingkaran penuh, kembali ke skenario regresi jaring elastis / ridge / LASSO di mana kami memiliki fleksibilitas model yang dibatasi sebagai pemeriksaan terhadap model yang terlalu optimis. Tinjauan kondisi KKT dari masalah SVM mengungkapkan bahwa solusi SVM adalah unik, jadi kami tidak perlu khawatir tentang masalah identifikasi yang muncul dalam kasus regresi.
Akhirnya, pertimbangkan dampak multikolinearitas yang sebenarnya . Itu tidak mengubah kekuatan prediksi model (setidaknya, pada data pelatihan) tetapi itu mengacaukan perkiraan koefisien kami. Dalam sebagian besar aplikasi ML, kami tidak peduli dengan koefisien itu sendiri, hanya hilangnya prediksi model kami, jadi dalam hal itu, memeriksa VIF sebenarnya tidak menjawab pertanyaan konsekuensial. (Tetapi jika sedikit perubahan dalam data menyebabkan fluktuasi besar dalam koefisien [gejala klasik multikolinieritas], itu juga dapat mengubah prediksi, dalam hal ini kita peduli - tetapi semua ini [kami harap!] Ditandai ketika kita melakukan cross-validasi, yang merupakan bagian dari proses pemodelan.) Regresi lebih mudah diinterpretasikan, tetapi interpretasi mungkin bukan tujuan yang paling penting untuk beberapa tugas.
Alasannya adalah karena tujuan "statistik tradisional" berbeda dari banyak teknik Pembelajaran Mesin.
Dengan "statistik tradisional", saya anggap Anda maksud regresi dan variannya. Dalam regresi, kami mencoba memahami dampak variabel independen terhadap variabel dependen. Jika ada multikolinearitas yang kuat, ini sama sekali tidak mungkin. Tidak ada algoritma yang akan memperbaikinya. Jika belajar dengan berkorelasi dengan kehadiran di kelas dan nilai, kita tidak bisa tahu apa yang benar-benar menyebabkan nilai naik - kehadiran atau belajar.
Namun, dalam teknik Pembelajaran Mesin yang fokus pada akurasi prediktif, yang kami pedulikan hanyalah bagaimana kami bisa menggunakan satu set variabel untuk memprediksi set lainnya. Kami tidak peduli tentang dampak variabel-variabel ini terhadap satu sama lain.
Pada dasarnya, fakta bahwa kami tidak memeriksa multikolinieritas dalam teknik Pembelajaran Mesin bukanlah konsekuensi dari algoritma, ini adalah konsekuensi dari tujuan. Anda dapat melihat ini dengan memperhatikan bahwa kolinearitas yang kuat antara variabel tidak merusak akurasi prediksi metode regresi.
sumber
Tampaknya ada asumsi mendasar di sini bahwa tidak memeriksa kolinearitas adalah praktik yang masuk akal atau bahkan terbaik. Ini sepertinya cacat. Misalnya, memeriksa kolinearitas sempurna dalam dataset dengan banyak prediktor akan mengungkapkan apakah dua variabel sebenarnya adalah hal yang sama, misalnya tanggal dan usia lahir (contoh diambil dari Dormann et al. (2013), Ecography , 36 , 1, pp 27-46 ). Saya kadang-kadang juga melihat masalah prediktor yang berkorelasi sempurna muncul dalam kompetisi Kaggle di mana pesaing di forum berupaya menghilangkan prediktor potensial yang telah dianonimkan (yaitu label prediktor disembunyikan, masalah umum dalam kompetisi seperti Kaggle dan seperti Kaggle).
Masih ada juga suatu kegiatan dalam pembelajaran mesin memilih prediktor - mengidentifikasi prediktor yang sangat berkorelasi dapat memungkinkan pekerja untuk menemukan prediktor yang merupakan proksi untuk variabel lain yang tersembunyi (tersembunyi) dan akhirnya menemukan satu variabel yang melakukan pekerjaan terbaik untuk mewakili variabel laten atau sebagai alternatif menyarankan variabel yang dapat digabungkan (misalnya melalui PCA).
Oleh karena itu, saya akan menyarankan bahwa meskipun metode pembelajaran mesin biasanya (atau setidaknya sering) dirancang untuk menjadi kuat dalam menghadapi prediktor berkorelasi, memahami sejauh mana prediktor berkorelasi sering merupakan langkah yang berguna dalam menghasilkan model yang kuat dan akurat , dan merupakan bantuan yang berguna untuk mendapatkan model yang dioptimalkan.
sumber
Masalah utama dengan multikolinearitas adalah bahwa itu mengacaukan koefisien (beta) dari variabel independen. Itu sebabnya ini adalah masalah serius ketika Anda mempelajari hubungan antar variabel, membangun hubungan sebab akibat dll.
Namun, jika Anda tidak terlalu tertarik untuk memahami fenomena tersebut, tetapi hanya berfokus pada prediksi dan peramalan, maka multikolinearitas kurang menjadi masalah. Atau setidaknya itulah yang dipikirkan orang tentang hal itu.
Saya tidak berbicara tentang multikolinearitas sempurna di sini, yang merupakan masalah teknis atau masalah identifikasi. Secara teknis, ini berarti bahwa matriks desain mengarah ke singularitas, dan solusinya tidak didefinisikan.
sumber
Regulatorisasi dalam pembelajaran mesin tersebut menstabilkan koefisien regresi, sehingga setidaknya efek multikolinieritas dijinakkan. Tetapi yang lebih penting, jika Anda mencari prediksi (yang sering dipelajari oleh pelajar mesin), maka "masalah" multikolinieritas bukanlah masalah sebesar itu. Ini masalah ketika Anda perlu memperkirakan koefisien tertentu dan Anda tidak memiliki informasi.
Juga, jawaban saya untuk " Kapan LASSO memilih prediktor yang berkorelasi " mungkin membantu Anda.
sumber
Saya pikir multikolinieritas harus diperiksa dalam pembelajaran mesin. Inilah alasannya: Misalkan Anda memiliki dua fitur X dan Y yang sangat berkorelasi dalam dataset kami. Ini berarti bahwa bidang respons tidak dapat diandalkan (perubahan kecil dalam data dapat memiliki efek drastis pada orientasi bidang respons). Yang menyiratkan bahwa prediksi model untuk titik data jauhdari garis, di mana X dan Y cenderung jatuh, tidak dapat diandalkan. Jika Anda menggunakan model Anda untuk prediksi untuk poin seperti itu, prediksi itu mungkin akan sangat buruk. Dengan kata lain, ketika Anda memiliki dua fitur yang sangat berkorelasi, sebagai model, Anda mempelajari bidang di mana sebenarnya sebagian besar data berada dalam satu baris. Jadi, penting untuk menghapus fitur yang sangat berkorelasi dari data Anda untuk mencegah model yang tidak dapat diandalkan dan prediksi yang salah.
sumber