Bayangkan skenario pembelajaran mesin standar:
Anda dihadapkan dengan dataset multivariat yang besar dan Anda memiliki pemahaman yang cukup buram tentang itu. Yang perlu Anda lakukan adalah membuat prediksi tentang beberapa variabel berdasarkan apa yang Anda miliki. Seperti biasa, Anda membersihkan data, melihat statistik deskriptif, menjalankan beberapa model, memvalidasi silangnya, dll., Tetapi setelah beberapa upaya, bolak-balik dan mencoba beberapa model tampaknya tidak berhasil dan hasil Anda menyedihkan. Anda dapat menghabiskan berjam-jam, berhari-hari, atau berminggu-minggu untuk masalah seperti itu ...
Pertanyaannya adalah: kapan harus berhenti? Bagaimana Anda tahu bahwa data Anda sebenarnya tidak ada harapan dan semua model mewah tidak akan lebih baik daripada memprediksi hasil rata-rata untuk semua kasus atau solusi sepele lainnya?
Tentu saja, ini adalah masalah perkiraan, tetapi sejauh yang saya tahu, sulit untuk memperkirakan perkiraan untuk data multivarian sebelum mencoba sesuatu di dalamnya. Atau saya salah?
Penafian: pertanyaan ini terinspirasi oleh pertanyaan ini. Kapan saya harus berhenti mencari model? itu tidak menarik banyak perhatian. Akan menyenangkan untuk memiliki jawaban terperinci untuk pertanyaan seperti itu untuk referensi.
Jawaban:
Prakiraan cuaca
Anda benar bahwa ini adalah masalah perkiraan. Ada beberapa artikel tentang perkiraan di jurnal Foresight berorientasi praktisi IIF . (Pengungkapan penuh: Saya adalah Associate Editor.)
Masalahnya adalah perkiraan sudah sulit untuk dinilai dalam kasus "sederhana".
Beberapa contoh
Misalkan Anda memiliki deret waktu seperti ini tetapi tidak bisa berbahasa Jerman:
Bagaimana Anda memodelkan puncak besar pada bulan April, dan bagaimana Anda akan memasukkan informasi ini dalam perkiraan apa pun?
Kecuali Anda tahu bahwa rangkaian waktu ini adalah penjualan telur dalam rantai supermarket Swiss, yang memuncak tepat sebelum kalender barat Paskah , Anda tidak akan memiliki kesempatan. Plus, dengan Paskah bergerak sekitar kalender sebanyak enam minggu, setiap ramalan yang tidak termasuk tanggal spesifik Paskah (dengan mengasumsikan, katakanlah, ini hanya puncak musiman yang akan terulang dalam minggu tertentu tahun depan) mungkin akan sangat tidak menyenangkan.
Demikian pula, anggap Anda memiliki garis biru di bawah ini dan ingin memodelkan apa pun yang terjadi pada 2010-02-28 begitu berbeda dari pola "normal" pada 2010-02-27:
Sekali lagi, tanpa mengetahui apa yang terjadi ketika seluruh kota yang penuh dengan orang Kanada menonton pertandingan final hoki es Olimpiade di TV, Anda tidak memiliki kesempatan apa pun untuk memahami apa yang terjadi di sini, dan Anda tidak akan dapat memprediksi kapan hal seperti ini akan terulang kembali.
Akhirnya, lihat ini:
Ini adalah rangkaian waktu penjualan harian di toko kas dan barang bawaan . (Di sebelah kanan, Anda memiliki tabel sederhana: 282 hari memiliki nol penjualan, 42 hari melihat penjualan 1 ... dan satu hari melihat penjualan 500.) Saya tidak tahu barang apa itu.
Sampai hari ini, saya tidak tahu apa yang terjadi pada hari itu dengan penjualan 500. Perkiraan terbaik saya adalah bahwa beberapa pelanggan memesan lebih dahulu sejumlah besar produk apa pun ini dan mengumpulkannya. Sekarang, tanpa mengetahui hal ini, ramalan untuk hari tertentu ini akan jauh. Sebaliknya, anggap ini terjadi tepat sebelum Paskah, dan kami memiliki algoritme bodoh-pintar yang percaya ini bisa menjadi efek Paskah (mungkin ini telur?) Dan dengan senang hati memperkirakan 500 unit untuk Paskah berikutnya. Ya ampun, bisakah itu salah.
Ringkasan
Dalam semua kasus, kami melihat bagaimana perkiraan hanya dapat dipahami dengan baik setelah kami memiliki pemahaman yang cukup mendalam tentang faktor-faktor yang mungkin memengaruhi data kami. Masalahnya adalah bahwa kecuali kita mengetahui faktor-faktor ini, kita tidak tahu bahwa kita mungkin tidak mengetahuinya. Sesuai Donald Rumsfeld :
Jika kecenderungan Paskah atau Kanada untuk Hoki tidak diketahui oleh kita, kita terjebak - dan kita bahkan tidak memiliki jalan ke depan, karena kita tidak tahu pertanyaan apa yang perlu kita tanyakan.
Satu-satunya cara untuk menangani ini adalah untuk mengumpulkan pengetahuan domain.
Kesimpulan
Saya menarik tiga kesimpulan dari ini:
Garis bawah
Inilah cara saya akan merekomendasikan membangun model - dan memperhatikan kapan harus berhenti:
Perhatikan bahwa saya tidak menganjurkan mencoba berbagai kelas model jika dataran model asli Anda. Biasanya, jika Anda memulai dengan model yang masuk akal, menggunakan sesuatu yang lebih canggih tidak akan menghasilkan manfaat yang kuat dan mungkin hanya "overfitting pada set tes". Saya sudah sering melihat ini, dan orang lain setuju .
sumber
If you are forecasting a fair coin toss, then there is no way to get above 50% accuracy.
. Anda mengatakan semuanya di sana.Jawaban dari Stephan Kolassa sangat bagus, tetapi saya ingin menambahkan bahwa sering juga ada kondisi berhenti ekonomi:
Sebagai contoh: kami memiliki pelanggan yang ingin memprediksi kapan mesinnya rusak, Kami menganalisis data yang ada dan menemukan kebisingan pada dasarnya. Kami menggali ke dalam proses dan menemukan bahwa data yang paling penting tidak direkam dan sangat sulit untuk dikumpulkan. Tetapi tanpa data itu, model kami sangat buruk sehingga tidak ada yang akan menggunakannya dan itu dikalengkan.
Sementara saya fokus pada ekonomi ketika bekerja pada produk komersial, aturan ini juga berlaku untuk akademisi atau untuk proyek-proyek yang menyenangkan - sementara uang kurang menjadi perhatian dalam keadaan seperti itu, waktu masih merupakan komoditas langka. E. g. dalam dunia akademis Anda harus berhenti bekerja ketika Anda tidak menghasilkan hasil yang nyata, dan Anda memiliki yang lain, proyek yang lebih menjanjikan yang dapat Anda lakukan. Tapi jangan jatuhkan proyek itu - harap juga mempublikasikan hasil nol atau "butuh lebih banyak / data lain", mereka juga penting!
sumber
Ada cara lain. Bertanya pada diri sendiri -
Jadi, misalnya, jika Anda memiliki sejumlah besar variabel yang terkait dengan tim sepak bola yang berbeda dan Anda mencoba memperkirakan siapa yang akan menang, Anda mungkin melihat peluang taruhan atau beberapa bentuk prediksi yang bersumber dari kerumunan untuk membandingkan dengan hasil pembelajaran mesin Anda. algoritma Jika Anda lebih baik Anda mungkin berada di batas, jika lebih buruk maka jelas ada ruang untuk perbaikan.
Kemampuan Anda untuk meningkatkan tergantung (luas) pada dua hal:
Tergantung pada apa yang saya coba lakukan, tetapi saya cenderung menggunakan jawaban atas pertanyaan-pertanyaan ini untuk mengarahkan arah yang saya masuki ketika membangun sebuah model, terutama apakah akan mencoba dan mengekstrak lebih banyak data yang dapat saya gunakan atau berkonsentrasi pada mencoba untuk memperbaiki model.
Saya setuju dengan Stephan bahwa biasanya cara terbaik untuk melakukan ini adalah dengan bertanya pada pakar domain.
sumber