Saya membaca contoh yang diberikan dalam buku, Machine Learning for Hackers . Pertama saya akan menguraikan contoh dan kemudian berbicara tentang pertanyaan saya.
Contoh :
Mengambil dataset selama 10 tahun dari 25 harga saham. Menjalankan PCA dengan harga 25 saham. Membandingkan komponen utama dengan Dow Jones Index. Mengamati kesamaan yang sangat kuat antara PC dan DJI!
Dari apa yang saya pahami, contohnya lebih seperti mainan untuk membantu pemula seperti saya memahami seberapa efektif alat PCA!
Namun, membaca dari sumber lain , saya melihat bahwa harga saham non-stasioner dan menjalankan PCA pada harga saham tidak masuk akal. Sumber-sumber dari mana saya membaca benar-benar mencemooh gagasan penghitungan kovarian dan PCA untuk harga saham.
Pertanyaan :
Bagaimana contoh itu bekerja dengan sangat baik? PCA harga saham dan DJI sangat dekat satu sama lain. Dan data tersebut adalah data nyata dari harga saham 2002-2011.
Dapatkah seseorang mengarahkan saya ke sumber daya yang bagus untuk membaca data stasioner / non-stasioner? Saya seorang programmer. Saya memiliki latar belakang matematika yang baik. Tapi saya belum melakukan matematika serius selama 3 tahun. Saya sudah mulai membaca lagi tentang hal-hal seperti jalan acak, dll.
sumber
Saya menjalankan jenis analisis ini secara profesional dan dapat memastikan bahwa mereka memang bermanfaat. Tetapi pastikan Anda menganalisis pengembalian bukan harga. Ini juga disorot oleh kritik di Slender Means:
Sebuah usecase khas dalam analisis kami adalah untuk mengukur risiko sistemik di pasar. Semakin banyak gerakan bersama di pasar, semakin sedikit diversifikasi yang Anda miliki dalam portofolio Anda. Ini dapat, misalnya, dikuantifikasi oleh jumlah varians yang dijelaskan oleh komponen utama pertama. Yang identik dengan nilai nilai eigen pertama.
Untuk data keuangan, satu biasanya memeriksa jendela bergerak dari waktu ke waktu. Beberapa bentuk faktor pembusukan yang menurunkan pengamatan lebih tua berguna. Untuk data harian, mulai dari 20-60 hari, untuk data mingguan mungkin 1-2 tahun, semua tergantung kebutuhan Anda.
Perhatikan bahwa untuk pasar keuangan global, dengan puluhan atau ratusan ribu harga aset berubah terus-menerus, satu tipikal tidak dapat menjalankan matriks kovarians 100K vs 100K. Alih-alih, usecase biasa adalah menjalankan analisis per negara, per sektor, atau kelompok lain yang lebih bermakna. Sebagai alternatif, pisahkan pengembalian dengan serangkaian faktor yang mendasari (nilai, ukuran, kualitas, kredit ....) dan lakukan analisis PCA / Kovarian.
Beberapa artikel yang bagus termasuk diskusi Attilio Meucci tentang jumlah taruhan efektif: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533
, dan juga Ledoit dan Wolf's Honey Saya menyusut matriks sampel kovarians http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf
Untuk pengantar stasioner yang berorientasi finansial, mengapa tidak mulai dengan Investopedia. Ini tidak ketat, tetapi menyampaikan ide-ide utama.
Semoga berhasil!
EDIT: Berikut adalah contoh 3-saham yang menunjukkan Apple, Google dan Dow Jones dengan pengembalian harian hingga 2015. Segitiga atas menunjukkan korelasi pengembalian, segitiga bawah menunjukkan korelasi harga.
Seperti dapat dilihat, Apple memiliki korelasi harga yang lebih tinggi dengan Dow (kiri bawah 0,76) daripada korelasi kembali (kanan atas 0,66). Apa yang bisa kita pelajari dari itu? Tidak banyak. Google memiliki korelasi harga negatif dengan Apple (-0,28) dan Dow (-0,27). Sekali lagi, tidak banyak yang bisa dipelajari dari itu. Namun, korelasi pengembalian memberi tahu kami bahwa Apple dan Google keduanya memiliki korelasi yang cukup tinggi dengan Dow (masing-masing 0,66 dan 0,53). Itu memberi tahu kita sesuatu tentang pergerakan bersama (perubahan harga) aset dalam portofolio. Itu informasi yang berguna.
Poin utama adalah bahwa meskipun korelasi harga dapat dengan mudah dihitung, itu tidak menarik. Mengapa? Karena harga suatu saham tidak menarik dalam dirinya sendiri. Harga perubahan , bagaimanapun, adalah sangat menarik.
sumber