Algoritma pembelajaran mesin apa yang dapat digunakan untuk memprediksi pasar saham?

15

Atau, untuk memprediksi pasar valuta asing. Saya tahu ini bisa sangat rumit, jadi sebagai pengantar, saya mencari algoritma prediksi sederhana yang memiliki akurasi.

(Ini untuk proyek universitas M.Sc. yang berlangsung empat bulan)

Saya pernah membaca bahwa jaringan saraf multi-layer mungkin berguna. Adakah pemikiran tentang itu? Selain itu, analisis semantik media sosial dapat memberikan wawasan tentang perilaku pasar yang mempengaruhi pasar saham. Namun, analisis semantik agak di luar ruang lingkup proyek saat ini.

siamii
sumber
15
Milikku, tapi untuk alasan yang jelas aku menyimpan semuanya untuk diriku sendiri!
babelproofreader
7
Jika seseorang meyakini hipotesis pasar efisien, mustahil untuk secara konsisten mencapai pengembalian pasar yang lebih tinggi dari rata-rata (tanpa pengetahuan orang dalam), yang dibangun ke dalam kurs / harga saat ini. Banyak orang tidak setuju dengan ini, tetapi hampir semua orang setuju bahwa itu benar untuk investor biasa. Dengan kata lain, model 3 garis yang didasarkan pada rand () mungkin hampir sebagus investor tipikal: P
rm999
5
Tampaknya tidak mungkin bahwa siapa pun akan bersedia untuk berbagi sebuah algoritma yang memiliki setiap out-of-sampel akurasi. Kecuali, mungkin, beberapa karya akademik yang diterbitkan di mana anomali kecil dan tidak mencakup biaya transaksi.
NPE
2
Untuk pekerjaan akademik, mungkin lebih bermanfaat untuk memodelkan harga daripada mencoba untuk memperkirakannya. Prediksi mungkin terbukti tidak berhasil, tetapi pemodelan setidaknya dapat memberikan beberapa wawasan tentang bagaimana hal-hal sebenarnya bekerja, dan secara teoritis dapat diperluas ke prediksi.
highBandWidth
2
@wayne Saya tidak berpikir ini tentang overfitting, ini tentang memungkinkan prediktor yang tidak dapat digunakan untuk prediksi, misalnya variabel yang terjadi selama / setelah pergerakan stok - jika Anda menemukan bahwa stok apel dan microsoft cenderung berkorelasi, fakta ini tidak dapat digunakan untuk memprediksi stok msft tetapi bisa sangat informatif.
rm999

Jawaban:

17

Seperti yang disebutkan oleh babelproofreader , mereka yang memiliki algoritma yang sukses cenderung sangat tertutup tentang hal itu. Dengan demikian, tidak mungkin algoritma apa pun yang tersedia secara luas akan sangat berguna di luar kotak kecuali Anda melakukan sesuatu yang pintar dengannya (pada titik itu semacam berhenti tersedia secara luas karena Anda menambahkannya).

Yang mengatakan, belajar tentang model rata-rata integerated moving average (ARIMA) autoregressive mungkin menjadi awal yang berguna untuk peramalan data time-series. Tapi jangan berharap lebih baik daripada hasil acak.

Michael McGowan
sumber
5
+1: Berapa kali saya telah membaca atau berada di kelas dan mendengar orang-orang yang percaya bahwa jika mereka memiliki algoritma yang cukup rumit, mereka bisa menjadi kaya di pasar saham / listrik / komoditas. Anda mencoba menjelaskan overfitting, dll, tetapi tidak berhasil. Heck, sejauh yang saya tahu, tidak menjadi orang dalam, perangkat lunak perdagangan saham yang sukses tidak bergantung pada biaya transaksi, arbitrase, dan kecepatan tinggi. Ujung tombaknya sekarang adalah menggunakan celah dalam aturan perdagangan otomatis dan proposal / penarikan penawaran berkecepatan tinggi untuk membuat para pedagang otomatis lainnya menjadi bodoh.
Wayne
1
Masalah lainnya adalah di mana banyak orang berakhir dengan algoritma yang sama karena mereka melakukan pelatihan mereka pada data yang persis sama, kemudian memasukkan volume penjualan / pembelian. Apakah algoritma apa pun diharapkan memiliki akurasi jangka panjang?
Michelle
@Wayne ada strategi untuk mengurangi over-fitting, meskipun sulit diterapkan pada data deret waktu.
Zach
1
@Zach: ya, ada cara untuk menghukum overfitting, tapi itulah sikap yang saya renungkan: orang-orang yang telah melakukan beberapa penyesuaian kurva dasar (mungkin salah) di Excel dan merasa bahwa mereka bisa menghasilkan uang dengan saus rahasia mereka , tetapi apa yang sebenarnya mereka butuhkan adalah salah satu dari algoritma canggih dan canggih yang tidak akan dibagikan oleh profesor kepada kelas. Algoritma itu akan cocok dengan data seperti sarung tangan, dan kemudian memprediksi jauh lebih baik daripada semua spekulator lain yang menggunakan spreadsheet Excel ... tetapi profesor terus mengoceh tentang overfitting dan keterbatasan data. Mendesah.
Wayne
12

Saya pikir untuk keperluan Anda, Anda harus memilih algoritma pembelajaran mesin yang menurut Anda menarik dan mencobanya.

Mengenai Teori Pasar Efisien, pasar tidak efisien, dalam skala waktu apa pun. Juga, beberapa orang (baik di dunia akademis maupun di dunia nyata) termotivasi oleh tantangan intelektual, tidak hanya untuk menjadi kaya dengan cepat, dan mereka menerbitkan hasil yang menarik (dan saya menghitung hasil yang gagal sebagai yang menarik). Tetapi perlakukan semua yang Anda baca dengan sedikit garam; jika hasilnya benar-benar baik, mungkin metode ilmiahnya tidak.

Penambangan Data Dengan R mungkin menjadi buku yang berguna untuk Anda; harganya mahal, jadi cobalah dan temukan di perpustakaan universitas Anda. Bab 2 membahas apa yang ingin Anda lakukan, dan dia mendapatkan hasil terbaik dengan jaringan saraf. Tetapi berhati-hatilah karena dia mendapatkan hasil yang buruk, dan menghabiskan banyak waktu CPU untuk mendapatkannya. Ulasan Amazon menunjukkan bahwa buku itu berharga $ 20 lebih banyak karena bab itu menyebutkan kata keuangan ; ketika membacanya saya mendapat kesan penerbit telah mendorongnya untuk menulisnya. Dia sudah mengerjakan pekerjaan rumahnya, membaca dokumen, membaca milis yang benar, tetapi hatinya tidak ada di dalamnya. Saya mendapat beberapa pengetahuan R yang berguna darinya, tetapi tidak akan mengalahkan pasar dengan itu :-)

Darren Cook
sumber
@ Darren - Saya suka gayamu.
rolando2
1
Versi konsep (Mei 2003) dari Penambangan Data dengan R dapat ditemukan di sini . (Saya tidak punya buku itu, jadi saya tidak bisa mengatakan apa perbedaan antara kedua versi.)
chl
@chi, terima kasih! Saya melihat sekilas, dan hanya ada dua dari empat bab di sana. Tetapi perbedaan yang lebih besar adalah bahwa bab Pengembalian Pasar Saham Prediksi sangat berbeda. Tidak disebutkan xts atau quantmod dan sebagai gantinya menggunakan paket ts, dan menggunakan paket acf dan MARS untuk prediksi. Ini hampir seperti bab bonus, dan saya akan meluangkan waktu untuk membacanya dengan benar. Dia masih menggunakan jaring saraf, tetapi tidak membandingkannya dengan SVM seperti dalam buku yang diterbitkan.
Darren Cook
10

Menurut saya, AI kuat mana pun yang bisa melakukan semua hal berikut ini dapat dengan mudah menghasilkan prediksi yang signifikan secara statistik:

  • Kumpulkan dan pahami rumor

  • Akses dan tafsirkan semua pengetahuan pemerintah

  • Lakukan di setiap negara yang relevan

  • Buat prediksi yang relevan tentang:

    • Kondisi cuaca

    • Aktivitas teroris

    • Pikiran dan perasaan individu

    • Segala sesuatu yang mempengaruhi perdagangan

Analisis statistik adalah yang paling tidak Anda khawatirkan.

Jon Purdy
sumber
4

Anda bisa mencoba fungsi auto.arima dan ets di R. Anda mungkin juga sukses dengan paket rugarch , tetapi tidak ada fungsi yang ada untuk pemilihan parameter otomatis. Mungkin Anda bisa mendapatkan parameter untuk model rata-rata auto.arima, lalu meneruskannya rugarchdan menambahkan garch(1,1)?

Ada banyak jenis blog di luar sana yang mengklaim beberapa keberhasilan melakukan ini. Berikut adalah sistem yang menggunakan model arima (dan kemudian model garch) dan sistem yang menggunakan model SVM . Anda akan menemukan banyak info bagus tentang perdagangan FOSS , terutama jika Anda mulai membaca blog di blogroll-nya.

Model apa pun yang Anda gunakan, pastikan untuk melakukan validasi silang dan tolok ukur! Saya akan sangat terkejut jika Anda menemukan model arima, ets, atau bahkan garch yang secara konsisten dapat mengalahkan model naif di luar sampel. Contoh validasi silang seri waktu dapat ditemukan di sini dan di sini . Perlu diingat bahwa yang Anda BENAR-BENAR ingin ramalkan adalah pengembalian, bukan harga.

Zach
sumber
2

Saya tahu satu pendekatan pembelajaran mesin yang saat ini digunakan oleh setidaknya satu dana lindung nilai. numer.ai menggunakan ensemble algoritma pembelajaran mesin yang disediakan pengguna untuk mengarahkan tindakan dana.

Dengan kata lain: Dana lindung nilai menyediakan akses terbuka ke versi data terenkripsi pada beberapa ratus kendaraan investasi, kemungkinan besar saham. Ribuan ilmuwan data dan sejenisnya melatih semua jenis algoritma pembelajaran mesin terhadap data itu dan mengunggah hasilnya ke papan skor. Pencetak skor tertinggi mendapatkan sejumlah kecil uang tergantung pada keakuratan hasil mereka dan berapa lama hasilnya telah tersedia secara online.

Prediksi terbaik seharusnya dibuat oleh ensemble algoritma.

Jadi, Anda memiliki banyak ilmuwan yang menyediakan tebakan terlatih, beberapa di antaranya adalah ansambel tebakan sendiri dan hedge fund menggunakan ansambel semua tebakan yang disediakan untuk mengarahkan investasi mereka.

Hasil hedge fund yang agak menarik ini mengajari saya dua hal:

  1. Ensembel sering dipandang sebagai cara yang baik untuk membuat prediksi di pasar saham.
  2. Prediksi yang baik membutuhkan lebih banyak ansambel daripada yang ingin saya bangun sendiri ...

Jika Anda ingin mencoba, kunjungi: https://numer.ai/ Tidak, saya TIDAK berafiliasi dengan mereka, saya kemungkinan besar tidak akan menghabiskan hari-hari saya online jika saya terhubung ke hedge fund yang mempekerjakan ribuan orang , tetapi hanya membayar yang memberikan hasil yang terukur :)

Komunitas numer.ai memiliki forum tempat mereka membahas pendekatan mereka sehingga Anda BISA belajar dari orang lain yang mencoba melakukan hal yang sama.

Secara pribadi saya pikir siapa pun dengan algoritma yang baik akan menyimpannya sangat, sangat rahasia.

Beyer
sumber
1

Anda harus mencoba jaringan saraf tipe GMDH. Saya tahu bahwa beberapa paket komersial yang berhasil untuk prediksi pasar saham menggunakannya, tetapi menyebutkannya hanya di kedalaman dokumentasi. Singkatnya itu adalah jaringan saraf iteratif berlapis-lapis, jadi Anda berada di jalan yang benar.

Brutforce
sumber
0

Saya pikir model markov tersembunyi populer di pasar saham. Yang paling penting untuk diingat adalah Anda menginginkan algoritma yang menjaga aspek temporal data Anda.

Roronoa Zoro
sumber