Apakah kita benar-benar melakukan analisis regresi multivariat dengan * juta * koefisien / variabel independen?

Saya menghabiskan beberapa waktu untuk belajar mesin pembelajaran (maaf untuk rekursi :) dan saya tidak bisa tidak tertarik dengan aturan praktis untuk memilih Gradient Descent daripada penyelesaian persamaan langsung untuk menghitung koefisien regresi, dalam kasus regresi linier multivariat.

Rule of thumb: jika jumlah fitur (koefisien baca / variabel independen) adalah antara atau di atas satu juta, pergi dengan Gradient Descent, kalau tidak perhitungan matriks terbalik cukup dikelola pada perangkat keras komoditas dan dengan demikian menghitung koefisien secara langsung harus berkinerja cukup baik. $10,000 - 1,000,000$

Secara komputasi, saya mendapatkan tradeoff / batasan. Tetapi dari sudut pandang statistik apakah kita benar-benar menghitung model dengan koefisien sebanyak itu? Jika saya ingat kelas regresi linier multivariat saya di sekolah pascasarjana, kami diingatkan untuk tidak menggunakan terlalu banyak variabel independen karena mereka mungkin memiliki dampak yang sangat diabaikan pada variabel dependen atau distribusinya tidak akan mematuhi asumsi yang kami buat tentang data. Bahkan jika saya mengembangkan pikiran saya untuk berpikir "banyak infus" saya masih tidak akan berpikir dalam jutaan .

Pertanyaan:

Apakah ini benar-benar terjadi atau ini merupakan masalah teoretis?
Apa gunanya menganalisis sejuta infus? Apakah itu benar-benar memberi kita banyak peningkatan nilai informasi yang diperoleh daripada mengabaikannya?
Atau itu karena, pada awalnya kita tidak tahu apa yang berguna, jadi kita jalankan regresi sialan untuk melihat apa yang berguna dan pergi dari sana dan mungkin memangkas set infus?

Saya masih percaya hanya karena kita dapat menganalisis "segalanya" tidak berarti kita harus membuangnya ke dalam solver (atau melakukannya) dan beberapa pertanyaan saya di masa lalu mencerminkan POV yang serupa.

Saya belum menyelesaikan kursus dan saya mungkin akan segera mengajukan pertanyaan, tetapi saya tidak bisa mendapatkan "Mengapa" ini dari pikiran saya dan saya berusaha memahaminya dengan kemampuan terbaik saya.

machine-learning multiple-regression large-data PhD
sumber

Jawaban:

Apakah ini benar-benar terjadi atau ini merupakan masalah teoretis?

Itu terjadi, lihat model pembelajaran populer apa pun untuk visi komputer. Katakanlah, alexnet memiliki koneksi padat antara 2048 dan 2048 unit, itu 4 juta koefisien.

Apa gunanya menganalisis sejuta infus? Apakah itu benar-benar memberi kita banyak peningkatan nilai informasi yang diperoleh daripada mengabaikannya?

Jika Anda menganalisis data yang sangat kategorikal (misalnya, data iklan internet ), model Anda harus menyimpan beberapa 'deskripsi' yang berarti untuk setiap kategori (misalnya kota, id halaman, nama pengguna, id iklan, id pengguna, dll.), Yang sebenarnya ukuran 'deskripsi' tergantung pada model ML yang dipilih.

Bahkan regresi logistik sederhana akan memiliki puluhan ribu parameter yang harus dipasang (satu per kategori). Model yang lebih maju seperti mesin faktorisasi akan memiliki kali lebih banyak.

Atau itu karena, pada awalnya kita tidak tahu apa yang berguna, jadi kita jalankan regresi sialan untuk melihat apa yang berguna dan pergi dari sana dan mungkin memangkas set infus?

Sebenarnya, sebagian besar parameter yang dipasang dalam model ini dapat dijatuhkan, tetapi Anda tidak dapat mengetahuinya sebelumnya, sehingga Anda meninggalkan masalah dalam menentukan parameter mana yang penting untuk pembelajaran mesin, dan memaksakan beberapa peraturan untuk menempatkan 'batas lunak' ke angka efektif parameter untuk tetap.

... dan saya pikir Anda akan menemukan contoh seperti itu nanti dalam kursus ML Anda.

Alleo
sumber