Saat ini saya berada dalam kelas regresi linier, tetapi saya tidak dapat menghilangkan perasaan bahwa apa yang saya pelajari tidak lagi relevan dalam statistik modern atau pembelajaran mesin. Mengapa begitu banyak waktu yang dihabiskan untuk melakukan inferensi pada regresi linier sederhana atau berganda ketika begitu banyak dataset menarik saat ini sering melanggar banyak asumsi regresi linier yang tidak realistis? Mengapa tidak mengajarkan inferensi pada alat yang lebih fleksibel dan modern seperti regresi menggunakan mesin vektor dukungan atau proses Gaussian? Meskipun lebih rumit daripada menemukan hyperplane di ruang, bukankah ini memberikan siswa latar belakang yang jauh lebih baik untuk mengatasi masalah zaman modern?
regression
machine-learning
linear
teaching
Emu Anonim
sumber
sumber
Jawaban:
Memang benar bahwa asumsi regresi linier tidak realistis. Namun, ini berlaku untuk semua model statistik. "Semua model salah, tetapi beberapa berguna."
Saya kira Anda mendapat kesan bahwa tidak ada alasan untuk menggunakan regresi linier ketika Anda bisa menggunakan model yang lebih kompleks. Ini tidak benar, karena secara umum, model yang lebih kompleks lebih rentan terhadap overfitting, dan mereka menggunakan lebih banyak sumber daya komputasi, yang penting jika, misalnya, Anda mencoba melakukan statistik pada prosesor tertanam atau server web. Model yang lebih sederhana juga lebih mudah dipahami dan diinterpretasikan; Sebaliknya, model pembelajaran mesin yang kompleks seperti jaringan saraf cenderung berakhir sebagai kotak hitam, lebih atau kurang.
Bahkan jika regresi linier suatu hari nanti menjadi tidak lagi berguna secara praktis (yang tampaknya sangat tidak mungkin di masa mendatang), itu masih akan secara teoritis penting, karena model yang lebih kompleks cenderung membangun regresi linier sebagai fondasi. Misalnya, untuk memahami regresi logistik efek campuran yang teregulasi, Anda harus memahami regresi linier lama yang sederhana terlebih dahulu.
Ini bukan untuk mengatakan bahwa model yang lebih kompleks, lebih baru, dan lebih bersinar tidak berguna atau tidak penting. Banyak dari mereka. Tetapi model yang lebih sederhana lebih dapat diterapkan secara luas dan karenanya lebih penting, dan jelas masuk akal untuk hadir terlebih dahulu jika Anda akan menghadirkan berbagai model. Ada banyak analisis data buruk yang dilakukan hari ini oleh orang-orang yang menyebut diri mereka "ilmuwan data" atau sesuatu tetapi bahkan tidak tahu hal-hal mendasar, seperti apa interval kepercayaan sebenarnya. Jangan menjadi statistik!
sumber
Regresi linier secara umum tidak usang . Masih ada orang yang bekerja pada penelitian di sekitar metode terkait LASSO, dan bagaimana mereka berhubungan dengan beberapa pengujian misalnya - Anda dapat google Emmanuel Candes dan Malgorzata Bogdan.
Jika Anda bertanya tentang algoritma OLS pada khususnya, jawaban mengapa mereka mengajarkan ini adalah bahwa metode ini sangat sederhana sehingga memiliki solusi bentuk tertutup. Juga hanya lebih sederhana daripada regresi ridge atau versi dengan laso / elasticnet. Anda dapat membangun intuisi / bukti Anda pada solusi regresi linier sederhana dan kemudian memperkaya model dengan kendala tambahan.
sumber
Saya tidak berpikir regresi sudah tua, mungkin dianggap sepele untuk beberapa masalah yang saat ini dihadapi oleh para ilmuwan data, tetapi masih merupakan ABC analisis statistik. Bagaimana Anda seharusnya memahami jika SVM bekerja dengan benar jika Anda tidak tahu bagaimana model paling sederhana bekerja? Menggunakan alat sederhana seperti itu mengajarkan ANDA cara melihat ke dalam data sebelum beralih ke model rumit yang gila dan memahami secara mendalam alat mana yang dapat digunakan dalam analisis lebih lanjut dan mana yang tidak bisa. Setelah bercakap-cakap dengan seorang profesor dan kolega saya, dia memberi tahu saya bahwa murid-muridnya hebat dalam menerapkan model yang rumit tetapi mereka tidak dapat memahami apa itu leverage atau membaca plot qq-sederhana untuk memahami apa yang salah dengan data. Seringkali dalam model yang paling sederhana dan mudah dibaca berdiri keindahan.
sumber
Jawaban singkatnya adalah tidak . Misalnya, jika Anda mencoba model linier dengan data MNIST, Anda masih akan mendapatkan ~ 90% keakuratannya!
Jawaban panjang akan "tergantung pada domain", tetapi model linier banyak digunakan.
Di bidang tertentu, katakanlah, studi medis, sangat mahal untuk mendapatkan satu titik data. Dan pekerjaan analisis masih serupa dengan beberapa tahun yang lalu: regresi linier masih memainkan peran yang sangat penting.
Dalam pembelajaran mesin Mord, katakanlah, klasifikasi teks, model linier masih sangat penting, meskipun ada model yang lebih menarik. Ini karena model linier sangat "stabil", itu akan kurang suka terlalu cocok dengan data.
Akhirnya, model linier benar-benar merupakan blok bangunan untuk sebagian besar model lainnya. Belajar dengan baik akan bermanfaat bagi Anda di masa depan.
sumber
Dalam istilah praktis, regresi linier bermanfaat bahkan jika Anda juga menggunakan model yang lebih kompleks untuk pekerjaan Anda. Kuncinya adalah bahwa regresi linier mudah dipahami dan karenanya mudah digunakan untuk memahami secara konseptual apa yang terjadi dalam model yang lebih kompleks.
Saya bisa memberikan contoh aplikasi praktis dari pekerjaan langsung saya sebagai analis statistik. Jika Anda menemukan diri Anda di alam liar, tanpa pengawasan, dengan dataset besar, dan atasan Anda meminta Anda untuk menjalankan beberapa analisis di atasnya, di mana Anda mulai? Nah, jika Anda tidak terbiasa dengan dataset dan tidak memiliki gagasan yang baik tentang bagaimana berbagai fitur diharapkan saling berhubungan, maka model yang kompleks seperti yang Anda sarankan adalah tempat yang buruk untuk mulai menyelidiki.
Sebaliknya, tempat terbaik untuk memulai adalah regresi linier lama sederhana. Lakukan analisis regresi, lihat koefisien dan grafik residual. Setelah Anda mulai melihat apa yang terjadi dengan data, maka Anda dapat membuat beberapa keputusan tentang metode canggih apa yang akan Anda coba terapkan.
Saya menegaskan bahwa jika Anda hanya menancapkan data Anda ke beberapa kotak hitam model canggih seperti sklearn.svm (jika Anda suka Python), maka Anda akan memiliki keyakinan yang sangat rendah bahwa hasil Anda akan bermakna.
sumber