Apakah ini metodologi regresi yang canggih?

33

Saya telah mengikuti kompetisi Kaggle untuk waktu yang lama dan saya menyadari bahwa banyak strategi kemenangan melibatkan menggunakan setidaknya satu dari "bertiga besar": mengantongi, meningkatkan dan menumpuk.

Untuk regresi, daripada berfokus pada membangun satu model regresi terbaik, membangun beberapa model regresi seperti (linier) regresi linier, hutan acak, KNN, NN, dan model regresi SVM dan memadukan hasilnya menjadi satu dengan cara yang masuk akal tampaknya keluar -melakukan setiap metode individual berkali-kali.

Tentu saja, pemahaman yang kuat tentang masing-masing metode adalah kuncinya dan kisah intuitif dapat diceritakan berdasarkan model regresi linier, tetapi saya bertanya-tanya apakah ini telah menjadi metodologi seni untuk mencapai hasil terbaik yang mungkin.

Maxareo
sumber
Dalam beberapa kasus, Neural Network mendefinisikan dengan baik mengalahkan cara "klasik" dalam melakukan regresi. Sebagai contoh, dalam Berapa banyak hujan II . Tapi itu pasti kotak hitam.
YCR
@YCR Saya setuju itu kotak hitam. Sementara di tempat kerja, saya membangun beberapa model pembelajaran mesin yang mengagumkan dan mencoba menjelaskan kepada orang-orang bisnis atau seseorang yang tidak terbiasa dengan model tersebut, percakapannya biasanya berakhir seperti ini: Saya membangun model Pembelajaran Mesin yang mengagumkan, ini bekerja seperti sihir, tetapi Saya tidak bisa menceritakan kisah menarik kepada Anda.
Maxareo

Jawaban:

41

Hal ini terkenal, setidaknya dari akhir 1960' , bahwa jika Anda mengambil beberapa perkiraan dan rata-rata mereka, maka mengakibatkan agregat perkiraan dalam banyak kasus akan mengungguli perkiraan individu. Mengantongi, meningkatkan, dan menumpuk semuanya didasarkan tepat pada ide ini. Jadi ya, jika tujuan Anda murni prediksi maka dalam banyak kasus ini adalah yang terbaik yang dapat Anda lakukan. Apa yang bermasalah tentang metode ini adalah bahwa itu adalah pendekatan kotak hitam yang mengembalikan hasilnya tetapi tidak membantu Anda untuk memahami dan menafsirkannya. Jelas, ini juga lebih intensif secara komputasi daripada metode lain karena Anda harus menghitung beberapa ramalan alih-alih satu.

† Ini menyangkut prediksi apa pun secara umum, tetapi sering kali dijelaskan dalam ramalan literatur.


Winkler, RL. dan Makridakis, S. (1983). Kombinasi Prakiraan. JR Statis. Soc. A. 146 (2), 150-157.

Makridakis, S. dan Winkler, RL (1983). Rata-rata Forecasts: Beberapa Hasil Empiris. Ilmu Manajemen, 29 (9) 987-996.

Clemen, RT (1989). Menggabungkan ramalan: Tinjauan dan daftar pustaka beranotasi. International Journal of Forecasting, 5, 559-583.

Bates, JM and Granger, CW (1969). Kombinasi perkiraan. Atau, 451-468.

Makridakis, S. dan Hibon, M. (2000). M3-Competition: hasil, kesimpulan dan implikasi. Jurnal peramalan internasional, 16 (4), 451-476.

Reid, DJ (1968). Menggabungkan tiga perkiraan produk domestik bruto. Economica, 431-444.

Makridakis, S., Spiliotis, E., dan Assimakopoulos, V. (2018). Kompetisi M4: Hasil, temuan, kesimpulan, dan langkah ke depan. Jurnal Internasional Peramalan.

Tim
sumber
1
Tautan dalam catatan kaki belati sepertinya tidak berfungsi untuk saya?
Silverfish
@Silverfish terima kasih, sudah diperbaiki. Tautan itu tidak terlalu penting tapi tetap saja, jika tidak berhasil itu tidak berguna.
Tim
0

Arthur (1994) memiliki eksperimen makalah / pemikiran pendek yang bagus yang terkenal dalam literatur kompleksitas.

Salah satu kesimpulan ada bahwa agen tidak dapat memilih model prediksi yang lebih baik (bahkan jika mereka memiliki "hutan" ini) dalam kondisi non-keseimbangan. Misalnya, jika pertanyaan diterapkan pada kinerja pasar saham, pengaturan Arthur (1994) mungkin berlaku.

Glenn Magerman
sumber