Pertanyaan ini telah ditanyakan pada CV beberapa tahun yang lalu, sepertinya layak untuk dikirim kembali mengingat 1) urutan teknologi komputasi yang lebih baik (mis. Komputasi paralel, HPC dll) dan 2) teknik yang lebih baru, misalnya [3].
Pertama, beberapa konteks. Mari kita asumsikan tujuannya bukan pengujian hipotesis, bukan estimasi efek, tetapi prediksi pada set tes yang tidak terlihat. Jadi, tidak ada bobot yang diberikan untuk manfaat apa pun yang dapat ditafsirkan. Kedua, katakanlah Anda tidak dapat mengesampingkan relevansi setiap prediktor pada pertimbangan materi pelajaran, yaitu. semuanya tampak masuk akal secara individu atau dalam kombinasi dengan prediktor lain. Ketiga, Anda berhadapan dengan (ratusan) jutaan prediktor. Keempat, katakanlah Anda memiliki akses ke AWS dengan anggaran tidak terbatas, sehingga daya komputasi tidak menjadi kendala.
Alasan biasa untuk pemilihan variabel adalah 1) efisiensi; lebih cepat cocok dengan model yang lebih kecil dan lebih murah untuk mengumpulkan lebih sedikit prediktor, 2) interpretasi; mengetahui variabel "penting" memberikan wawasan tentang proses yang mendasarinya [1].
Sekarang diketahui secara luas bahwa banyak metode pemilihan variabel tidak efektif dan seringkali berbahaya (misalnya, regresi bertahap ke depan) [2].
Kedua, jika model yang dipilih ada gunanya, orang tidak perlu mengurangi daftar prediktor sama sekali. Model harus melakukannya untuk Anda. Contoh yang baik adalah laso, yang memberikan koefisien nol untuk semua variabel yang tidak relevan.
Saya menyadari bahwa beberapa orang menganjurkan menggunakan model "gajah", yaitu. melemparkan setiap prediktor yang masuk akal ke dalam fit dan menjalankannya [2].
Adakah alasan mendasar untuk melakukan pemilihan variabel jika tujuannya adalah akurasi prediksi?
[1] Reunanen, J. (2003). Overfitting dalam membuat perbandingan antara metode pemilihan variabel. Jurnal Penelitian Pembelajaran Mesin, 3, 1371-1382.
[2] Harrell, F. (2015). Strategi pemodelan regresi: dengan aplikasi untuk model linier, regresi logistik dan ordinal, dan analisis survival. Peloncat.
[3] Taylor, J., & Tibshirani, RJ (2015). Pembelajaran statistik dan inferensi selektif. Prosiding National Academy of Sciences, 112 (25), 7629-7634.
[4] Zhou, J., Foster, D., Stine, R., & Ungar, L. (2005, Agustus). Pemilihan fitur streaming menggunakan investasi alpha. Dalam Prosiding konferensi internasional ACM SIGKDD kesebelas tentang penemuan pengetahuan dalam penambangan data (hal. 384-393). ACM.
Jawaban:
Ada rumor selama bertahun-tahun bahwa Google menggunakan semua fitur yang tersedia dalam membangun algoritme prediktifnya. Namun hingga saat ini, tidak ada penafian, penjelasan atau kertas putih telah muncul yang mengklarifikasi dan / atau membantah rumor ini. Bahkan paten mereka yang dipublikasikan pun tidak membantu dalam pemahaman. Akibatnya, tidak ada orang luar Google yang tahu apa yang mereka lakukan, sejauh yang saya ketahui.
/ * Pembaruan pada September 2019, seorang penginjil Google Tensorflow mencatat dalam sebuah presentasi yang menyatakan bahwa para insinyur Google secara teratur mengevaluasi lebih dari 5 miliar parameter untuk versi saat ini. PageRank saat ini . * /
Sebagai catatan OP, salah satu masalah terbesar dalam pemodelan prediktif adalah perpaduan antara pengujian hipotesis klasik dan spesifikasi model yang cermat vs penambangan data murni. Yang terlatih secara klasik bisa menjadi sangat dogmatis tentang perlunya "kekakuan" dalam desain dan pengembangan model. Faktanya adalah bahwa ketika dihadapkan dengan sejumlah besar kandidat prediktor dan beberapa target yang mungkin atau variabel dependen, kerangka kerja klasik tidak bekerja, tidak memegang atau memberikan panduan yang bermanfaat. Sejumlah makalah baru-baru ini menggambarkan dilema ini dari kertas Chattopadhyay dan Lipson yang brilian, Data Smashing: Mengungkap Urutan Mengintai di Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Untuk makalah AER tahun lalu tentang Masalah Kebijakan Prediksi oleh Kleinberg, et al.https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 yang menjadikan kasus untuk penambangan dan prediksi data sebagai alat yang berguna dalam pembuatan kebijakan ekonomi, dengan mengutip contoh-contoh di mana "kesimpulan sebab akibat bukanlah pusat, atau bahkan perlu. "
Faktanya adalah, pertanyaan yang lebih besar, $ 64.000 adalah perubahan besar dalam pemikiran dan tantangan terhadap kerangka kerja pengujian hipotesis klasik yang tersirat dalam, misalnya, simposium Edge.org tentang pemikiran ilmiah "usang" ini https://www.edge.org/ tanggapan / apa-ide-ilmiah-siap-untuk-pensiun serta artikel baru-baru ini oleh Eric Beinhocker tentang "ekonomi baru" yang menyajikan beberapa proposal radikal untuk mengintegrasikan berbagai disiplin ilmu yang berbeda seperti ekonomi perilaku, teori kompleksitas, model prediksi teori pengembangan, jaringan dan portofolio sebagai platform untuk implementasi dan adopsi kebijakan https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Tak perlu dikatakan, masalah-masalah ini jauh melampaui kekhawatiran ekonomi dan menunjukkan bahwa kita sedang mengalami perubahan mendasar dalam paradigma ilmiah. Pandangan bergeser sama mendasarnya dengan perbedaan antara reduksionisme, Pisau Cukur Occam seperti model-bangunan vs Prinsip Kelimpahan yang Luas dari Epicurus atau berbagai penjelasan yang secara kasar menyatakan bahwa jika beberapa temuan menjelaskan sesuatu, pertahankan semuanya ... https: // en. wikipedia.org/wiki/Principle_of_plenitude
Tentu saja, orang-orang seperti Beinhocker benar-benar tidak terbebani dengan masalah praktis, dalam hal parit terkait dengan solusi statistik terapan untuk paradigma yang berkembang ini. Untuk pertanyaan-pertanyaan penting dari pemilihan variabel dimensi ultra-tinggi, OP relatif tidak spesifik mengenai pendekatan yang layak untuk membangun model yang mungkin memanfaatkan, misalnya, Lasso, LAR, algoritma bertahap atau "model gajah" yang menggunakan semua informasi yang tersedia. Kenyataannya adalah bahwa, bahkan dengan AWS atau superkomputer, Anda tidak dapat menggunakan semua informasi yang tersedia pada saat yang sama - tidak ada cukup RAM untuk memuat semuanya. Apa artinya ini? Solusi telah diajukan, misalnya, Penemuan NSF dalam Kumpulan Data Kompleks atau Masif: Tema Statistik Umum untuk "membagi dan menaklukkan" algoritma untuk penambangan data besar-besaran, misalnya, Wang, kertas et al, Survei Metode Statistik dan Komputasi untuk Data Besar http://arxiv.org/pdf/1502.07989.pdf serta Leskovec, dkk. book Mining of Massive Datasets http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
Sekarang ada ratusan, jika tidak ribuan makalah yang berhubungan dengan berbagai aspek tantangan ini, semuanya mengusulkan mesin analitik yang sangat berbeda sebagai inti mereka dari algoritma “divide and conquer”; model "pembelajaran dalam" tanpa pengawasan; teori matriks acak diterapkan pada konstruksi kovarians masif; Model tensor Bayesian untuk klasik, regresi logistik yang diawasi, dan banyak lagi. Lima belas tahun yang lalu, perdebatan tersebut sebagian besar terfokus pada pertanyaan-pertanyaan tentang manfaat relatif dari solusi Bayesian hierarkis vs model campuran terbatas yang sering. Dalam sebuah makalah yang membahas masalah-masalah ini, Ainslie, et al.http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfsampai pada kesimpulan bahwa pendekatan teoretis yang berbeda, dalam praktiknya, menghasilkan hasil yang sebagian besar setara dengan pengecualian masalah yang melibatkan data jarang dan / atau dimensi tinggi di mana model HB memiliki keunggulan. Hari ini dengan munculnya solusi D & C, setiap model arbitrage HB yang mungkin dinikmati secara historis telah dieliminasi.
Logika dasar dari solusi D&C ini, pada umumnya, adalah perluasan dari teknik hutan acak terkenal Breiman yang mengandalkan resampling pengamatan dan fitur-fitur bootstrap. Breiman melakukan pekerjaannya di akhir tahun 90-an dengan satu CPU ketika data besar berarti beberapa lusin pertunjukan dan beberapa ribu fitur. Pada platform multi-core paralel paralel masif saat ini, dimungkinkan untuk menjalankan algoritma yang menganalisis terabyte data yang berisi puluhan juta fitur yang membangun jutaan model mini "RF" dalam beberapa jam.
Ada sejumlah pertanyaan penting yang muncul dari semua ini. Orang harus melakukan dengan keprihatinan atas hilangnya presisi karena sifat pendekatan dari solusi ini. Masalah ini telah diatasi oleh Chen dan Xie dalam makalah mereka, A Split-and-Conquer Approach untuk Analisis Data Luar Biasa Besar http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/201212.pdf di mana mereka menyimpulkan bahwa pendekatannya tidak dapat dibedakan dari model "informasi lengkap".
Kekhawatiran kedua yang, sejauh pengetahuan saya belum ditangani secara memadai oleh literatur, berkaitan dengan apa yang dilakukan dengan hasil (yaitu, "parameter") dari jutaan model mini yang dapat diprediksi setelah penyelesaiannya. telah digulung dan diringkas. Dengan kata lain, bagaimana seseorang menjalankan sesuatu yang sederhana seperti "mencetak" data baru dengan hasil ini? Apakah koefisien model-mini akan disimpan dan disimpan atau apakah seseorang hanya menjalankan kembali algoritma d & c pada data baru?
Dalam bukunya, Numbers Rule Your World , Kaiser Fung menggambarkan dilema yang dihadapi Netflix ketika dihadapkan dengan ansambel hanya 104 model yang diserahkan oleh para pemenang kompetisi mereka. Para pemenang, memang, telah meminimalkan MSE vs semua pesaing lain, tetapi ini diterjemahkan hanya dalam beberapa peningkatan desimal akurasi pada 5-point, skala tipe rating Likert yang digunakan oleh sistem penentu film mereka. Selain itu, pemeliharaan TI yang diperlukan untuk ansambel model ini harganya jauh lebih mahal daripada penghematan yang terlihat dari "peningkatan" dalam akurasi model.
Lalu ada seluruh pertanyaan apakah "optimasi" bahkan mungkin dengan informasi sebesar ini. Sebagai contoh, Emmanuel Derman, fisikawan dan insinyur keuangan, dalam bukunya My Life as a Quant menunjukkan bahwa optimisasi adalah mitos yang tidak berkelanjutan, setidaknya dalam rekayasa keuangan.
Akhirnya, pertanyaan penting tentang kepentingan fitur relatif dengan sejumlah besar fitur belum ditangani.
Tidak ada jawaban mudah untuk pertanyaan tentang perlunya pemilihan variabel dan tantangan baru yang dibuka oleh saat ini, solusi Epicurean masih harus diselesaikan. Intinya adalah bahwa kita semua adalah ilmuwan data sekarang.
**** EDIT *** Referensi
Chattopadhyay I, Lipson H. 2014 Penghancuran data: mengungkap urutan data yang mengintai. JR Soc. Antarmuka 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan dan Ziad Obermeyer. 2015. "Masalah Kebijakan Prediksi." American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, Pertanyaan Tahunan 2014: IDEA ILMIAH APA YANG SIAP UNTUK PENSIUN? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, Bagaimana Perubahan Mendalam dalam Ekonomi Membuat Debat Kiri vs Kanan Tidak relevan, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Prinsip Epicurus dari berbagai penjelasan: simpan semua model. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Penemuan dalam Kumpulan Data Kompleks atau Masif: Tema Statistik Umum, Lokakarya yang didanai oleh National Science Foundation, 16-17 Oktober 2007 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Metode Statistik dan Komputasi untuk Big Data, Kertas Kerja oleh Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu, dan Jun Yan, 29 Oktober 2015 http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Penambangan Kumpulan Data Besar, Cambridge University Press; 2 edisi (29 Desember 2014) ISBN: 978-1107077232
Matriks Kovarian Sampel Besar dan Analisis Data Dimensi Tinggi (Seri Cambridge dalam Matematika Statistik dan Probabilitas), oleh Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 edisi (30 Maret 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE, dan IMRAN S. CURRIM, Suatu Perbandingan Empiris dari Model Pilihan Logit dengan Representasi Heterogenitas yang Terpisah dan Kontinyu, Jurnal Riset Pemasaran, 479 Vol. XXXIX (November 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Pendekatan Split-and-Conquer untuk Analisis Data Besar yang Luar Biasa, Xueying Chen dan Minge Xie, Laporan Teknis DIMACS 2012-01, Januari 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, Angka Mengatur Dunia Anda: Pengaruh Tersembunyi dari Probabilitas dan Statistik pada Semua yang Anda Lakukan, Pendidikan McGraw-Hill; 1 edisi (15 Februari 2010) ISBN: 978-0071626538
Emmanuel Derman, Hidupku sebagai Kuantitas: Refleksi Fisika dan Keuangan, Wiley; 1 edisi (11 Januari 2016) ISBN: 978-0470192733
* Pembaruan pada November 2017 *
Buku Nathan Kutz 2013, Pemodelan Berbasis Data & Komputasi Ilmiah: Metode untuk Sistem Kompleks & Big Data adalah perjalanan matematika dan PDE yang terfokus ke dalam pemilihan variabel serta metode dan alat pengurangan dimensi. Pengantar pemikirannya selama 1 jam yang luar biasa dapat ditemukan di video Youtube Juni 2017 Data Driven Discovery of Dynamical Systems and PDE . Di dalamnya, ia membuat referensi ke perkembangan terbaru di bidang ini. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop
sumber
Dalam hal prediksi, Anda mungkin perlu memikirkan pertanyaan tentang seberapa cepat model mempelajari fitur-fitur penting. Bahkan memikirkan OLS, ini akan memberi Anda sesuatu seperti pemilihan model dengan data yang cukup. Tetapi kita tahu bahwa itu tidak cukup cepat untuk solusi ini - jadi kami mencari sesuatu yang lebih baik.
Sebagian besar metode membuat asumsi tentang jenis beta / koefisien yang akan ditemui (seperti distribusi sebelumnya dalam model bayesian). Mereka bekerja paling baik ketika asumsi-asumsi ini berlaku. Sebagai contoh, regresi ridge / laso mengasumsikan sebagian besar beta pada skala yang sama dengan yang paling dekat nol. Mereka tidak akan bekerja dengan baik untuk regresi "jarum di tumpukan jerami" di mana sebagian besar beta adalah nol, dan beberapa beta sangat besar (yaitu skala sangat berbeda). Pemilihan fitur dapat bekerja lebih baik di sini - laso bisa terjebak di antara menyusutnya suara dan meninggalkan sinyal tidak tersentuh. Pemilihan fitur lebih berubah-ubah - efeknya adalah "sinyal" atau "noise".
Dalam hal memutuskan - Anda perlu memiliki gagasan tentang variabel prediktor macam apa yang Anda miliki. Apakah Anda memiliki beberapa yang benar-benar bagus? Atau semua variabel lemah? Ini akan mendorong profil beta yang akan Anda miliki. Dan metode penalti / pemilihan mana yang Anda gunakan (kuda untuk kursus dan semua itu).
Pemilihan fitur juga tidak buruk tetapi beberapa perkiraan yang lebih lama karena batasan komputasi tidak lagi baik (bertahap, maju). Rata-rata model menggunakan pemilihan fitur (semua 1 model var, 2 model var, dll yang dibebani oleh kinerjanya) akan melakukan pekerjaan yang cukup baik di prediksi. Tapi ini pada dasarnya menghukum beta melalui bobot yang diberikan untuk model dengan variabel yang dikecualikan - hanya tidak secara langsung - dan tidak dalam masalah optimasi cembung semacam cara.
sumber
Saya memberi Anda perspektif industri.
Industri tidak suka menghabiskan uang untuk sensor dan sistem pemantauan yang mereka tidak tahu seberapa besar manfaatnya.
Misalnya, saya tidak ingin menyebutkan nama, jadi bayangkan sebuah komponen dengan 10 sensor mengumpulkan data setiap menit. Pemilik aset menoleh ke saya dan bertanya seberapa baik Anda dapat memprediksi perilaku komponen saya dengan data ini dari 10 sensor? Kemudian mereka melakukan analisis biaya-manfaat.
Kemudian, mereka memiliki komponen yang sama dengan 20 sensor, mereka bertanya kepada saya, lagi, seberapa baik Anda dapat memprediksi perilaku komponen saya dengan data ini dari 20 sensor? Mereka melakukan analisis biaya-manfaat lain.
Pada setiap kasus ini, mereka membandingkan manfaatnya dengan biaya investasi karena pemasangan sensor. (Ini bukan hanya menambahkan sensor $ 10 ke komponen. Banyak faktor yang berperan). Di sinilah analisis pemilihan variabel dapat berguna.
sumber
Sebagai bagian dari algoritma untuk mempelajari model yang murni prediktif, pemilihan variabel tidak selalu buruk dari sudut pandang kinerja dan juga tidak otomatis berbahaya. Namun, ada beberapa masalah yang harus diperhatikan.
The bahaya dengan seperti prosedur seleksi variabel adalah bahwa banyak standar hasil distribusi tidak valid bersyarat pada pilihan variabel. Ini berlaku untuk tes standar dan interval kepercayaan, dan merupakan salah satu masalah yang Harrell [2] beri peringatan. Breiman juga memperingatkan tentang pemilihan model berdasarkan misalnya Mallows' di The Little Bootstrap ... . Mallows , atau AIC dalam hal ini, tidak memperhitungkan pemilihan model, dan mereka akan memberikan kesalahan prediksi terlalu optimis.C pCp Cp
Namun, validasi silang dapat digunakan untuk memperkirakan kesalahan prediksi dan untuk memilih , dan pemilihan variabel dapat mencapai keseimbangan yang baik antara bias dan varians. Ini terutama benar jika memiliki beberapa koordinat besar dengan sisanya mendekati nol seperti @probabilityislogic menyebutkan.β -k β −
Metode penyusutan seperti regresi ridge dan laso dapat mencapai tradeoff yang baik antara bias dan varians tanpa pemilihan variabel eksplisit. Namun, seperti OP menyebutkan, laso melakukan pemilihan variabel implisit. Ini sebenarnya bukan model melainkan metode untuk menyesuaikan model yang melakukan pemilihan variabel. Dari perspektif itu, pemilihan variabel (implisit atau eksplisit) hanyalah bagian dari metode untuk menyesuaikan model dengan data, dan itu harus dianggap seperti itu.
Algoritma untuk menghitung estimator laso dapat mengambil manfaat dari pemilihan variabel (atau penyaringan). Dalam Pembelajaran Statistik dengan Sparsity: The Lasso and Generalisasi , Bagian 5.10, itu menggambarkan bagaimana penyaringan, seperti yang diterapkan
glmnet
, berguna. Ini dapat menyebabkan perhitungan yang lebih cepat dari estimator laso.Satu pengalaman pribadi adalah dari contoh di mana pemilihan variabel memungkinkan untuk menyesuaikan model yang lebih rumit (model aditif umum) menggunakan variabel yang dipilih. Hasil validasi silang menunjukkan bahwa model ini lebih unggul daripada sejumlah alternatif meskipun tidak untuk hutan acak. Jika gamsel telah ada yang mengintegrasikan model aditif umum dengan pemilihan variabel saya mungkin akan mempertimbangkan untuk mencobanya juga.- -− − −
Sunting: Karena saya menulis jawaban ini, ada makalah tentang aplikasi tertentu yang saya pikirkan. Kode-R untuk mereproduksi hasil di kertas tersedia.
Singkatnya saya akan mengatakan bahwa pemilihan variabel (dalam satu bentuk atau yang lain) adalah dan akan tetap berguna bahkan untuk tujuan prediksi murni sebagai cara untuk mengontrol tradeoff bias-varians. Jika bukan karena alasan lain, maka setidaknya karena model yang lebih rumit mungkin tidak dapat menangani variabel dalam jumlah sangat besar di luar kotak. Namun, seiring berjalannya waktu kita secara alami akan melihat perkembangan seperti gamsel yang mengintegrasikan pemilihan variabel ke dalam metodologi estimasi. -− −
Tentu saja, selalu penting bahwa kita menganggap pemilihan variabel sebagai bagian dari metode estimasi. Bahayanya adalah percaya bahwa pemilihan variabel berkinerja seperti oracle dan mengidentifikasi set variabel yang benar. Jika kami percaya itu dan melanjutkan seolah-olah variabel tidak dipilih berdasarkan data, maka kami berisiko membuat kesalahan.
sumber
Izinkan saya untuk mengomentari pernyataan: "... menyesuaikan parameter k ke n <k pengamatan tidak akan terjadi."
Dalam chemometrics kita sering tertarik pada model prediksi, dan situasi k >> n sering dijumpai (misalnya dalam data spektroskopi). Masalah ini biasanya diselesaikan hanya dengan memproyeksikan pengamatan ke subruang dimensi yang lebih rendah a, di mana a <n, sebelum regresi (mis. Regresi Komponen Utama). Menggunakan Partial Least Squares Regression, proyeksi dan regresi dilakukan secara simultan mendukung kualitas prediksi. Metode yang disebutkan menemukan inversi semu yang optimal untuk kovarians (singular) atau matriks korelasi, misalnya dengan dekomposisi nilai singular.
Pengalaman menunjukkan bahwa kinerja prediktif model multivarian meningkat ketika variabel berisik dihapus. Jadi, bahkan jika kita - dengan cara yang berarti - dapat memperkirakan parameter k hanya memiliki n persamaan (n <k), kami berusaha keras untuk model pelit. Untuk tujuan itu, pemilihan variabel menjadi relevan, dan banyak literatur chemometric dikhususkan untuk subjek ini.
Sementara prediksi adalah tujuan penting, metode proyeksi pada saat yang sama menawarkan wawasan berharga misalnya pola dalam data dan relevansi variabel. Ini difasilitasi terutama oleh beragam model-plot, misalnya skor, pemuatan, residu, dll ...
Teknologi chemometrik digunakan secara luas misalnya dalam industri di mana prediksi yang andal dan akurat benar-benar diperhitungkan.
sumber
Dalam beberapa kasus terkenal, ya, pemilihan variabel tidak diperlukan. Pembelajaran yang dalam menjadi sedikit overhyped karena alasan ini.
Misalnya, ketika jaringan saraf berbelit-belit ( http://cs231n.github.io/convolutional-networks/ ) mencoba memprediksi jika gambar terpusat berisi wajah manusia, sudut-sudut gambar cenderung memiliki nilai prediksi minimal. Pemodelan tradisional dan pemilihan variabel akan membuat pemodel menghapus piksel sudut sebagai prediktor; Namun, jaringan saraf yang berbelit-belit cukup pintar untuk secara esensial membuang prediktor ini secara otomatis. Hal ini berlaku untuk sebagian besar model pembelajaran mendalam yang mencoba memprediksi keberadaan beberapa objek dalam suatu gambar (misalnya, mobil drivings "memprediksi" tanda jalur, hambatan atau mobil lain dalam bingkai video streaming onboard).
Pembelajaran yang mendalam mungkin berlebihan untuk banyak masalah tradisional seperti di mana dataset kecil atau di mana pengetahuan domain berlimpah, sehingga pemilihan variabel tradisional mungkin akan tetap relevan untuk waktu yang lama, setidaknya di beberapa daerah. Meskipun demikian, pembelajaran yang mendalam sangat bagus ketika Anda ingin menyatukan solusi yang "cukup bagus" dengan intervensi manusia yang minimal. Mungkin butuh waktu berjam-jam untuk membuat kerajinan tangan dan memilih prediktor untuk mengenali angka tulisan tangan dalam gambar, tetapi dengan jaringan saraf yang berbelit-belit dan pemilihan nol variabel, saya dapat memiliki model canggih hanya dalam waktu 20 menit menggunakan Google TensorFlow ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).
sumber