Kinerja prediktif lebih tergantung pada keahlian analis data daripada metode?

Saya telah menemukan rumor bahwa beberapa studi menunjukkan bahwa kinerja model prediksi lebih tergantung pada keahlian analis data dengan metode yang dipilih daripada pada pilihan metode.
Dengan kata lain, klaimnya adalah bahwa lebih penting bahwa analis data memahami metode yang dipilih daripada seberapa "tepat" metode tersebut untuk masalah dari sudut pandang yang lebih teoretis.

Ini disebutkan dalam konteks chemometrics, yang biasanya melibatkan masalah banyak variate (100s - 1000s), multiple collinearity, dan tentu saja, terlalu sedikit sampel. Prediksi mungkin adalah klasifikasi atau regresi.

Pengalaman pribadi saya menunjukkan bahwa ini masuk akal , tetapi sebuah penelitian disebutkan (saya bertanya kepada orang yang menyebutkan itu melalui email setelah pencarian cepat tetapi tidak berhasil, tetapi tidak pernah menerima jawaban apa pun). Namun, juga dengan pencarian yang lebih rumit, saya tidak dapat melacak kertas apa pun.

Adakah yang tahu tentang temuan itu? Jika tidak, apa pengalaman pribadi dari Big Guys di sini?

predictive-models method-comparison Cbeleites mendukung Monica
sumber

Saya lebih seperti Orang Kecil di sekitar sini, tetapi apa yang saya lihat di Neural Networks mendukung hipotesis ini: jauh dari menjadi alat "di luar kotak" di mana "mesin mempelajari" sesuatu, klasifikasi atau prediksi yang sukses tampaknya bergantung pada banyak tentang seberapa pintar orang itu yang memberitahu jaringan bagaimana belajar dari data - yang paling penting dalam hal preprocessing data, tetapi juga dalam hal arsitektur jaringan dll.

Stephan Kolassa

Saya pikir itu angka 2.4 dari The Elements of Statistics Learning di mana mereka membandingkan tetangga terdekat dengan metode tipe regesi (dan tentu saja mereka memberikan beberapa titik perbandingan di seluruh buku ini)

Tugas

@StasK: terima kasih atas pengingatnya (malu pada saya karena tidak mengingat). Mereka juga melaporkan bahwa dalam praktiknya PCR, PLS dan regresi ridge sangat mirip, dan LDA dan regresi logistik juga. Namun, metode yang terakhir juga sangat mirip dari sudut pandang teoretis.

cbeleites mendukung Monica

Jawaban:

Sebenarnya, saya telah mendengar desas-desus bahwa mesin pembelajaran yang layak biasanya lebih baik daripada para ahli, karena kecenderungan manusia adalah untuk meminimalkan varians dengan mengorbankan bias (oversmooth), yang mengarah pada kinerja prediksi yang buruk dalam dataset baru. Mesin dikalibrasi untuk meminimalkan MSE, dan karenanya cenderung melakukan lebih baik dalam hal prediksi dalam dataset baru .

tamu47
sumber

Dalam pengalaman saya, memang benar bahwa manusia cenderung berpakaian berlebihan. Namun, dalam pengalaman saya, Anda juga membutuhkan ahli yang layak yang memilih mesin belajar yang tidak overfitting. Kalau tidak, seseorang hanya memilih mesin belajar yang sesuai.

cbeleites mendukung Monica

MSE secara umum tidak melindungi dari overfitting kecuali jika Anda sangat membatasi model - dan di sana ahli datang lagi. Namun demikian orang mencoba untuk mengoptimalkan misalnya model hyperparameters. Terutama strategi pengoptimalan berulang, (MSE atau tidak), kecuali Anda dapat membeli satu set data uji independen yang sama sekali baru untuk setiap iterasi. Mungkin saya harus mengatakan bahwa saya berasal dari bidang di mana kasus tes sangat jarang. Dan, dalam hal apa pun Anda mungkin berpendapat bahwa ini bukan mesin pembelajaran yang layak .

cbeleites mendukung Monica