Kutipan berikut berasal dari Schwager's Hedge Fund Market Wizzards (Mei 2012), sebuah wawancara dengan manajer dana lindung nilai yang sukses secara konsisten Jaffray Woodriff:
Untuk pertanyaan: "Apa kesalahan terburuk yang dilakukan orang dalam penambangan data?":
Banyak orang berpikir mereka baik-baik saja karena mereka menggunakan data dalam sampel untuk pelatihan dan data tidak sampel untuk pengujian. Kemudian mereka mengurutkan model berdasarkan bagaimana kinerja mereka pada data sampel dan memilih yang terbaik untuk menguji pada data sampel keluar. Kecenderungan manusia adalah untuk mengambil model yang terus melakukan dengan baik dalam data out-of-sample dan memilih model untuk diperdagangkan. Jenis proses itu hanya mengubah data out-of-sample menjadi bagian dari data pelatihan karena itu memilih model yang melakukan yang terbaik dalam periode out-of-sample. Ini adalah salah satu kesalahan paling umum yang dilakukan orang dan salah satu alasan mengapa data mining seperti biasanya diterapkan menghasilkan hasil yang mengerikan.
Pewawancara kemudian bertanya: "Apa yang harus Anda lakukan?":
Anda dapat mencari pola di mana, rata-rata, semua model out-of-sample terus bekerja dengan baik. Anda tahu Anda baik-baik saja jika rata-rata untuk model out-of-sample adalah persentase yang signifikan dari skor in-sample. Secara umum, Anda benar-benar mendapatkan suatu tempat jika hasil out-of-sample lebih dari 50 persen dari in-sample. Model bisnis QIM tidak akan pernah berhasil jika SAS dan IBM membangun perangkat lunak pemodelan prediktif yang hebat.
Pertanyaan saya
Apakah ini masuk akal? Apa yang dia maksud Apakah Anda memiliki petunjuk - atau bahkan nama untuk metode yang diusulkan dan beberapa referensi? Atau apakah orang ini menemukan cawan suci yang tidak dipahami orang lain? Dia bahkan mengatakan dalam wawancara ini bahwa metodenya berpotensi merevolusi sains ...
Jawaban:
Apakah ini masuk akal ? Sebagian.
Apa yang dia maksud Tolong tanyakan padanya.
Apakah Anda memiliki petunjuk - atau bahkan nama untuk metode yang diusulkan dan beberapa referensi?
Validasi silang. http://en.wikipedia.org/wiki/Cross-validation_(statistics)
Atau apakah orang ini menemukan cawan suci yang tidak dipahami orang lain? Tidak.
Dia bahkan mengatakan dalam wawancara ini bahwa metodenya berpotensi merevolusi sains ... Mungkin dia lupa memasukkan referensi untuk pernyataan itu ...
sumber
Tidak yakin apakah akan ada respons "ranty" lainnya, tetapi ini milik saya.
Validasi Silang sama sekali tidak "baru". Selain itu, Validasi Silang tidak digunakan ketika solusi analitik ditemukan. Misalnya Anda tidak menggunakan validasi silang untuk memperkirakan beta, Anda menggunakan OLS atau IRLS atau solusi "optimal" lainnya.
Apa yang saya lihat sebagai celah yang sangat jelas dalam kutipan adalah tidak ada referensi untuk gagasan benar-benar memeriksa model "terbaik" untuk melihat apakah mereka masuk akal. Secara umum, model yang baik masuk akal pada tingkat intuitif. Sepertinya klaimnya adalah bahwa CV adalah peluru perak untuk semua masalah prediksi. Ada juga tidak ada pengaturan pembicaraan di tingkat yang lebih tinggi dari struktur model - apakah kita menggunakan SVM , Regression Trees , Boosting , Bagging , OLS , GLMS , GLMNS. Apakah kita mengatur variabel? Kalau begitu bagaimana? Apakah kita mengelompokkan variabel bersama? Apakah kita ingin ketahanan terhadap sparsity? Apakah kita punya pencilan? Haruskah kita memodelkan data secara keseluruhan atau dalam potongan? Ada terlalu banyak pendekatan yang harus diputuskan berdasarkan CV .
Dan aspek penting lainnya adalah sistem komputer apa yang tersedia? Bagaimana data disimpan dan diproses? Apakah ada yang hilang - bagaimana kita menjelaskan hal ini?
Dan inilah yang besar: apakah kita memiliki data yang cukup baik untuk membuat prediksi yang baik? Apakah ada variabel yang diketahui yang tidak kita miliki dalam kumpulan data kita? Apakah data kami mewakili apa pun yang kami coba prediksi?
sumber
Penjelasannya tentang kesalahan umum dalam penambangan data tampaknya masuk akal. Penjelasannya tentang apa yang dia lakukan tidak masuk akal. Apa yang dia maksudkan ketika dia berkata, "Secara umum, Anda benar-benar mendapatkan suatu tempat jika hasil out-of-sample lebih dari 50 persen dari in-sample."? Kemudian SAS yang mulutnya buruk dan IBM juga tidak membuatnya tampak sangat pintar. Orang-orang dapat sukses di pasar tanpa memahami statistik dan bagian dari kesuksesan adalah keberuntungan. Adalah salah untuk memperlakukan pengusaha yang sukses seolah-olah mereka adalah ahli ramalan.
sumber
Pemahaman saya tentang pola kata sini, apakah ia berarti kondisi pasar yang berbeda. Pendekatan naif akan menganalisis semua data yang tersedia (kita semua tahu lebih banyak data lebih baik), untuk melatih model pemasangan kurva terbaik, kemudian menjalankannya pada semua data, dan berdagang dengan itu sepanjang waktu.
Manajer hedge fund dan trader algoritmik yang lebih sukses menggunakan pengetahuan pasar mereka. Sebagai contoh nyata, setengah jam pertama sesi perdagangan bisa lebih tidak stabil. Jadi mereka akan mencoba model pada semua data mereka tetapi hanya untuk setengah jam pertama itu, dan pada semua data mereka, tetapi tidak termasuk setengah jam pertama itu. Mereka mungkin menemukan bahwa dua model mereka bekerja dengan baik pada setengah jam pertama, tetapi delapan dari mereka kehilangan uang. Padahal, ketika mereka mengecualikan setengah jam pertama, tujuh model mereka menghasilkan uang, tiga kehilangan uang.
Namun, alih-alih mengambil dua model yang menang dan menggunakannya dalam setengah jam pertama perdagangan, mereka mengatakan: itu adalah waktu yang buruk untuk perdagangan algoritmik, dan kami tidak akan berdagang sama sekali. Sisa hari mereka akan menggunakan tujuh model mereka. Yaitu tampaknya pasar lebih mudah untuk diprediksi dengan pembelajaran mesin pada waktu itu, sehingga model-model tersebut memiliki lebih banyak peluang untuk dapat diandalkan di masa mendatang. (Waktu bukan satu-satunya pola hari; yang lain biasanya terkait dengan peristiwa berita, misalnya pasar lebih fluktuatif sebelum angka-angka ekonomi utama diumumkan.)
Itulah interpretasi saya tentang apa yang dia katakan; mungkin benar-benar salah, tapi saya harap ini masih merupakan makanan yang berguna untuk dipikirkan seseorang
sumber
Sebagai seorang profesional keuangan saya tahu konteks yang cukup bahwa pernyataan itu tidak menghadirkan ambiguitas. Serangkaian waktu keuangan sering ditandai dengan perubahan rezim, jeda struktural, dan pergeseran konsep, sehingga validasi silang seperti yang dilakukan di industri lain tidak sesukses dalam aplikasi keuangan. Pada bagian kedua ia mengacu pada metrik keuangan, baik laba atas investasi dengan rasio Sharpe (pengembalian dalam pembilang), bukan MSE atau fungsi kerugian lainnya. Jika strategi sampel menghasilkan pengembalian 10%, maka dalam perdagangan riil mungkin hanya menghasilkan 5% secara realistis. Bagian "revolusioner" pastilah tentang pendekatan analisis hak miliknya, bukan pada kutipan.
sumber