Analisis elastis / ridge / laso, lalu bagaimana?

19

Saya semakin tertarik dengan prosedur jaring elastis untuk penyusutan / pemilihan prediktor. Tampaknya sangat kuat.

Tetapi dari sudut pandang ilmiah saya tidak tahu apa yang harus dilakukan setelah saya mendapatkan koefisien. Pertanyaan apa yang saya jawab? Ini adalah variabel yang paling mempengaruhi hasil itu dan ini adalah koefisien yang memberikan varians / rasio bias terbaik selama validasi?

Ini tentu saja merupakan pendekatan yang sangat deskriptif / prediktif dibandingkan dengan pendekatan interval nilai p / kepercayaan klasik. Estimasi inferensial sedang dipelajari sekarang oleh Tibshirani & Co. tetapi masih eksperimental.

Beberapa orang menggunakan variabel yang dipilih oleh jaring elastis untuk melakukan analisis inferensial klasik, tetapi itu akan menghilangkan keterbatasan dalam varian yang dibawa oleh teknik.

Masalah lain adalah bahwa karena parameter lambda dan alpha untuk jaring elastis dipilih dengan validasi silang, mereka tunduk pada variabilitas acak. Jadi setiap kali Anda menjalankan (mis.) Cv.glmnet (), Anda akan memilih subset prediktor yang sedikit berbeda dengan koefisien yang selalu berbeda.

Saya berpikir tentang menyelesaikan ini dengan mempertimbangkan lambda dan alpha yang tepat sebagai variabel acak dan menjalankan kembali langkah validasi n kali untuk mendapatkan distribusi parameter ini. Dengan cara ini untuk setiap prediktor saya akan memiliki jumlah kemunculan dan untuk setiap koefisien saya akan memiliki distribusi hasil. Ini akan memberi saya hasil yang lebih umum dengan statistik rentang (seperti sd dari koefisien). Ini juga akan menarik untuk melihat apakah lambda dan alpha mengambil cara ini mendekati beberapa distribusi asimptotik, karena itu akan membuka jalan untuk beberapa tes inferensi (tapi saya bukan ahli statistik jadi saya tidak boleh berbicara tentang hal-hal yang saya tidak tahu sepenuhnya mengerti).

Jadi akhirnya pertanyaan saya adalah: Setelah Anda mendapatkan prediktor dan koefisien dari jaring elastis dengan alpha validasi dan lambda, yang mana dan bagaimana Anda menyajikan hasil ini? Bagaimana seharusnya Anda membahasnya? apa yang kita pelajari? Hipotesis / generalisasi mana yang kita campur aduk?

Bakaburg
sumber
Saya pikir ini terlalu luas / tidak jelas untuk dijawab dengan tepat. Dalam beberapa kasus saya menemukan pernyataan Anda tidak jelas (mis. Apa yang Anda maksud dengan " tetapi itu akan menghilangkan keterbatasan dalam varians yang dibawa oleh teknik. ") Dan pada beberapa kasus lain, salah arah (mis. " Setiap kali Anda menjalankan (mis.) cv.glmnet () Anda akan memilih subset prediktor yang sedikit berbeda dengan koefisien yang selalu berbeda "- itu tidak terjadi setiap kali dan bahkan ketika itu terjadi biasanya itu bukan bencana mengingat CV dilakukan dengan benar.)
usεr11852 mengatakan Reinstate Monic
motivasi yang pernah saya lihat dari jaring elastis terkait dengan pengelompokan variabel (melalui bagian 2.3 dari zou, kertas hastie elastic net), yang diperluas lebih detail (melalui metode yang agak berbeda) di sini: ncbi.nlm.nih .gov / pmc / articles / PMC4011669
user795305

Jawaban:

8

Metode ini - jaring laso dan elastis - lahir dari masalah pemilihan fitur dan prediksi. Melalui dua lensa inilah saya pikir penjelasan dapat ditemukan.

Matthew Gunn menjelaskan dengan baik dalam jawabannya bahwa kedua gol ini berbeda dan sering diambil oleh orang yang berbeda. Namun, untungnya bagi kami, metode yang kami minati dapat tampil baik di kedua arena.

Pemilihan Fitur

Pertama, mari kita bicara tentang pemilihan fitur. Pertama-tama kita harus memotivasi jaring elastis dari perspektif laso. Yaitu, mengutip Hastie dan Zou , "Jika ada kelompok variabel di mana korelasi berpasangan sangat tinggi, maka laso cenderung memilih hanya satu variabel dari grup dan tidak peduli mana yang dipilih." Ini adalah masalah, misalnya, karena itu berarti bahwa kita tidak akan menemukan elemen dukungan yang sebenarnya menggunakan laso - hanya satu yang sangat berkorelasi dengannya. (Makalah menyebutkan bahwa ini terbukti dalam makalah LARS, yang saya belum baca.) Kesulitan dukungan pemulihan di hadapan korelasi juga ditunjukkan oleh Wainwright ,0.5 ketika ada korelasi tinggi antara dukungan sejati dan komplemennya.

Sekarang, hukuman l2 di jaring elastis mendorong fitur yang memiliki koefisien diperlakukan sebagai tidak dapat dibedakan hanya dengan kerugian dan hukuman l1 memiliki koefisien estimasi yang sama. Kita dapat dengan bebas melihat ini dengan memperhatikan bahwa memenuhi. Karena ini, jaring elastis membuatnya sehingga kita cenderung 'tidak sengaja' membuat menghilang estimasi koefisien yang ada di dukungan sebenarnya. Artinya, dukungan sebenarnya lebih mungkin terkandung dalam perkiraan dukungan. Itu bagus! Itu berarti ada lebih banyak penemuan palsu, tetapi itu adalah harga yang kebanyakan orang mau bayar.| a | = | b |(a,b)=argmina,b:c=|a|+|b|(a)2+(b)2|a|=|b|

Selain itu, perlu ditunjukkan bahwa fakta bahwa fitur yang berkorelasi tinggi akan cenderung memiliki estimasi koefisien yang sangat mirip sehingga kita dapat mendeteksi pengelompokan fitur dalam perkiraan dukungan yang mempengaruhi respons yang sama.

Ramalan

Sekarang, kita beralih ke prediksi. Seperti yang ditunjukkan Matthew Gunn, memilih parameter tuning melalui validasi silang menciptakan tujuan untuk memilih model dengan kesalahan prediksi minimal. Karena setiap model yang dipilih oleh laso dapat dipilih oleh jaring elastis (dengan mengambil ), masuk akal bahwa jaring elastis mampu menemukan model yang memprediksi lebih baik daripada laso.α=1

Lederer, Yu, dan Gaynanova menunjukkan, tanpa asumsi sama sekali pada fitur, bahwa laso dan jaring elastis keduanya dapat memiliki kesalahan prediksi l2 mereka dibatasi oleh jumlah yang sama. Itu tidak selalu benar bahwa ikatan mereka ketat, tetapi ini mungkin menarik untuk dicatat karena kesenjangan oracle tampaknya menjadi cara standar dalam literatur statistik untuk mengukur kinerja prediktor penduga - mungkin karena distribusinya sangat rumit! Perlu juga dicatat bahwa Lederer (1) (2) memiliki beberapa makalah tentang prediksi laso di hadapan fitur yang berkorelasi.

Ringkasan

Singkatnya, masalah yang menarik adalah dukungan yang sebenarnya berada dalam perkiraan dukungan dan prediksi. Untuk pemulihan dukungan, ada jaminan yang telah terbukti secara ketat (melalui Wainwright) bahwa laso memilih fitur yang benar untuk berada dalam model dengan asumsi korelasi rendah antara dukungan yang sebenarnya dan pelengkapnya. Namun, dengan adanya korelasi, kita dapat kembali ke jaring elastis untuk lebih cenderung memilih fitur dalam dukungan nyata untuk menjadi di antara semua yang dipilihnya. (Perhatikan bahwa kita harus hati-hati memilih parameter tuning di sini.) Dan, untuk prediksi ketika kita memilih parameter tuning melalui validasi silang, masuk akal intuitif bahwa jaring elastis harus berkinerja lebih baik daripada laso - terutama di hadapan korelasi .

Mengesampingkan prediksi dan formalitas, apa yang kita pelajari? Kami belajar tentang dukungan sejati.

Interval Keyakinan

Perlu menunjukkan bahwa banyak yang telah berubah dalam 2 tahun terakhir sehubungan dengan kesimpulan yang valid untuk laso. Secara khusus, karya Lee, Sun, Sun, dan Taylor memberikan inferensi yang tepat untuk koefisien laso bersyarat pada model yang dipilih. (Hasil inferensi in laso untuk koefisien sebenarnya ada pada saat posting OP, dan mereka dirangkum dengan baik di kertas terkait.)

pengguna795305
sumber
Apakah benar untuk mengasumsikan bahwa perkiraan kovariat yang teregulasi mungkin lebih mirip dengan yang kita temukan mengulangi penelitian? Artinya, karena regularisasi membantu meminimalkan kesalahan prediksi sampel, apakah bisa membantu meminimalkan perbedaan dalam sampel dan di luar estimasi sampel?
Bakaburg
1
@ Bakaburg, ya, itu masuk akal untuk dikatakan. Regulatorisasi menciptakan estimator dengan varian yang lebih rendah.
user795305
9

Apa yang Anda lakukan dengan elastis, punggungan, atau laso, menggunakan cross-validation untuk memilih parameter regularisasi, menyesuaikan beberapa bentuk linear untuk mengoptimalkan prediksi . Mengapa parameter regularisasi khusus ini? Karena mereka bekerja paling baik untuk prediksi data baru. Perkiraan koefisien menyusut mendekati nol, memperkenalkan bias, (seperti yang dilakukan di Ridge atau Lasso) dapat mengurangi overfitting dan mengecilkan varians . Idenya adalah agar parameter penalti Anda mencapai keseimbangan yang tepat untuk mengoptimalkan prediksi pada data baru.

Bayangkan proses menghasilkan data adalah:

yi=f(xi,β)+ϵi

Biarkan menjadi taksiran parameter kami , dan mari menjadi perkiraan kami untuk pengamatan ß y jjβ^βy^jj

Bagaimana seharusnya Anda mempresentasikan hasil Anda? Itu tergantung apa pertanyaan riset mendasar Anda! Anda mungkin ingin mundur dan berpikir mendalam tentang pertanyaan apa yang Anda coba jawab. Apa yang menjadi perhatian audiens Anda? Apa yang sedang Anda coba lakukan?

  • Ramalan?
  • Perkirakan koefisien?
  • Pilihan variabel?

Penting untuk membedakan antara dua jenis pertanyaan penelitian:

  1. Pertanyaan di mana Anda terutama peduli tentang prediksi, yaitu Anda peduli tentangy^j
  2. Pertanyaan yang sebagian besar Anda pedulikan tentang estimasi parameter .β^

Teknik pembelajaran off the shelf machine bisa sangat ampuh untuk masalah prediksi sebelumnya, . Meskipun Anda tampaknya mengenali, teknik pembelajaran mesin rak standar mungkin sangat bermasalah untuk , masalah estimasi parameter: βy^β^

  • Dalam pengaturan dimensi tinggi, banyak parameterisasi yang berbeda akan memberi Anda prediksi yang sama . Jika jumlah parameter relatif tinggi terhadap jumlah pengamatan , Anda mungkin tidak dapat memperkirakan parameter individual dengan baik. kny^kn
  • Algoritma yang dilatih pada lipatan yang berbeda mungkin memiliki estimasi parameter yang sangat berbeda.
  • Penekanan dalam pembelajaran mesin adalah pada prediksi, tidak secara konsisten memperkirakan efek kausal. (Ini kontras dengan ekonometrik di mana biasanya masalah utama adalah secara konsisten memperkirakan efek kausal). Prediksi, memperkirakan beberapa bentuk fungsional, berbeda dari memperkirakan sebab-akibat. Tingkat polisi mungkin merupakan prediktor yang baik untuk tingkat kejahatan, dan ini tidak berarti polisi menyebabkan kejahatan.

Dan seperti yang Anda kenali, mungkin ada masalah dalam menafsirkan mengapa beberapa parameterisasi pembelajaran mesin berfungsi. Apakah audiens Anda nyaman dengan kotak hitam prediksi? Atau apakah prediksi berfungsi sebagai pusat pertanyaan Anda?

Lasso dan Ridge: alasan klasik untuk menggunakannya

  • Anda dapat menggunakan jaring elastis untuk pembelajaran mesin klasik, masalah prediksi, situasi di mana perhatian utama Anda adalah . Dalam beberapa hal, regularisasi memungkinkan Anda untuk memasukkan lebih banyak prediktor, tetapi tetap dapat mengendalikan secara berlebihan.y^

  • Anda dapat menggunakan regularisasi untuk mencegah overfitting. Misalnya. regresi ridge dalam konteks pemasangan kurva polinom dapat bekerja dengan baik.

  • Seperti yang ditunjukkan @Benjamin dalam jawabannya, Lasso juga dapat digunakan untuk pemilihan variabel. Dalam kondisi keteraturan tertentu, Lasso akan secara konsisten memilih model yang sesuai: koefisien yang tidak relevan akan ditetapkan ke nol.

The dan hukuman, dari Lasso dan Ridge masing-masing, Bias koefisien memperkirakan menuju nol. Jika biasnya besar, ini bisa menjadi masalah serius jika Anda mencoba menginterpretasikan estimasi koefisien. Dan untuk mendapatkan perkiraan kesalahan standar, Anda perlu melakukan sesuatu seperti bootstrap; tidak ada solusi bentuk tertutup sederhana (yang saya ketahui). Ridge, laso, dan jaring elastis memiliki kemiripan dengan regresi OLS biasa, tetapi regularisasi dan pemilihan variabel membuat inferensi yang sangat berbeda ...L 2L1L2

Apa yang saya terus kembali ke adalah bahwa cukup sulit untuk menafsirkan hasil menjalankan regresi ridge, laso, atau jaring elastis tanpa beberapa konteks lagi dari apa yang Anda coba cari tahu!


Prof. Sendhil Mullainathan memberikan ceramah tentang pembelajaran mesin pada pertemuan AFA Januari 2017 yang memotivasi bagian dari pos ini.

Matthew Gunn
sumber
3
Pemikiran seperti ini menurut saya cacat. Hal ini didasarkan pada asumsi bahwa fenomena yang mendasarinya cukup sederhana untuk dipahami oleh manusia. Model dimensi tinggi sebagian besar waktu terlalu kompleks untuk dipahami oleh manusia, tetapi mereka sangat cocok untuk kecerdasan buatan skala besar. Pada kenyataannya prediktor terbaik adalah interpretasi terbaik dari fenomena, apakah Anda dapat memahaminya atau tidak.
Cagdas Ozgenc
2
@CagdasOzgenc Saya pikir itu adalah poin yang valid bahwa beberapa fungsi sangat rumit, sulit untuk dijelaskan kepada manusia tetapi dapat dimengerti dan dipelajari oleh mesin (mis. Evaluasi papan catur). Dalam situasi ini, mungkin lebih baik untuk mengangkat tangan Anda, bahkan tidak mencoba menafsirkan apa yang dipelajari mesin. Di sisi lain, ada situasi seperti uji coba narkoba di mana ada efek kausal, beberapa efektivitas rata-rata yang Anda coba perkirakan di hadapan banyak perancu, efek seleksi dll. Ini dalam beberapa hal masalah dan kebutuhan yang berbeda teknik yang berbeda.
Matius Gunn
1
@Benjamin Masalah mendasar adalah bahwa apa yang paling langsung diminta OP, sebuah interpretasi yang dapat dipahami dari bias terhadap nol koefisien dari jaring elastis, mungkin tidak ada. Bayangkan Anda memiliki 10.000 prediktor dan 5.000 pengamatan. Bersama-sama, koefisien Anda dapat melakukan pekerjaan yang sangat baik pada prediksi, tetapi secara individual, masing-masing koefisien mungkin merupakan perkiraan sampah yang buruk. Saya pikir ada baiknya mengambil langkah mundur dan bertanya apa pertanyaan penelitian yang mendasarinya? Apa tujuannya? Apakah itu menemukan prediksi atau memperkirakan beberapa koefisien? Atau mungkin sesuatu yang lain? y^
Matthew Gunn