Dapatkah Analisis Komponen Utama digunakan pada harga saham / data non-stasioner?

10

Saya membaca contoh yang diberikan dalam buku, Machine Learning for Hackers . Pertama saya akan menguraikan contoh dan kemudian berbicara tentang pertanyaan saya.

Contoh :

Mengambil dataset selama 10 tahun dari 25 harga saham. Menjalankan PCA dengan harga 25 saham. Membandingkan komponen utama dengan Dow Jones Index. Mengamati kesamaan yang sangat kuat antara PC dan DJI!

Dari apa yang saya pahami, contohnya lebih seperti mainan untuk membantu pemula seperti saya memahami seberapa efektif alat PCA!

Namun, membaca dari sumber lain , saya melihat bahwa harga saham non-stasioner dan menjalankan PCA pada harga saham tidak masuk akal. Sumber-sumber dari mana saya membaca benar-benar mencemooh gagasan penghitungan kovarian dan PCA untuk harga saham.

Pertanyaan :

  1. Bagaimana contoh itu bekerja dengan sangat baik? PCA harga saham dan DJI sangat dekat satu sama lain. Dan data tersebut adalah data nyata dari harga saham 2002-2011.

  2. Dapatkah seseorang mengarahkan saya ke sumber daya yang bagus untuk membaca data stasioner / non-stasioner? Saya seorang programmer. Saya memiliki latar belakang matematika yang baik. Tapi saya belum melakukan matematika serius selama 3 tahun. Saya sudah mulai membaca lagi tentang hal-hal seperti jalan acak, dll.

claudius
sumber

Jawaban:

10

Bagian ini berfungsi untuk sebagian menjawab pertanyaan asli dan beberapa pertanyaan yang diajukan dalam komentar untuk jawaban @ JonEgil.

Pengembalian keuangan (logaritmik) * kira - kira (Meskipun sering ada beberapa heteroskedastisitas bersyarat) - sementara harga kira - kira berjalan acak. Dengan asumsi i . i . d . pengamatan, analisis komponen utama akan langsung menggeneralisasi dari sampel ke populasi (yaitu komponen utama sampel akan memperkirakan komponen utama populasi), tetapi ini mungkin tidak berlaku di bawah non- i . i . d . pengamatan - lihat utas inisaya.saya.d.saya.saya.d.saya.saya.d.. Inilah sebabnya mengapa masuk akal untuk menjalankan PCA pada pengembalian (logaritmik) daripada harga.

Ruey S. Tsay berpendapat untuk menjalankan PCA pada residu dari model ekonometrik seri waktu keuangan, karena residu biasanya diasumsikan Saya pikir ide ini mungkin dimasukkan beberapa tempat dalam bukunya "Analisis Seri Waktu Multivarian dengan Aplikasi R dan Keuangan" (dia menjelaskan ide itu kepada saya secara pribadi, jadi saya tidak yakin di mana itu ditulis).saya.saya.d.

* Logaritma pengembalian harga didefinisikan sebagai r : = log ( P t ) - log ( P t - 1 ) = log P tPtr: =catatan(Pt)-catatan(Pt-1)=catatanPtPt-1r: =Pt-Pt-1Pt-1hh

Richard Hardy
sumber
1
f(tsaya)catatanf(tsaya+1)f(tsaya)
1
@amoeba, saya menambahkan penjelasan cepat dan harus pergi sekarang. Saya harap saya tidak membuat banyak kesalahan di sana. Saya akan kembali besok jika ada masalah lebih lanjut.
Richard Hardy
1
Terima kasih. Saya melihat sekarang bahwa pengembalian (pengembalian logaritmik) pada dasarnya adalah turunan (perbedaan pertama) dari logaritma harga. Jadi jika klaimnya adalah bahwa pengembalian adalah iid dan harga log adalah jalan acak, maka masuk akal. Namun, saya masih terkejut dengan contoh Dow Jones dan akan menghargai klarifikasi lebih lanjut.
amoeba
6

Saya menjalankan jenis analisis ini secara profesional dan dapat memastikan bahwa mereka memang bermanfaat. Tetapi pastikan Anda menganalisis pengembalian bukan harga. Ini juga disorot oleh kritik di Slender Means:

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

Sebuah usecase khas dalam analisis kami adalah untuk mengukur risiko sistemik di pasar. Semakin banyak gerakan bersama di pasar, semakin sedikit diversifikasi yang Anda miliki dalam portofolio Anda. Ini dapat, misalnya, dikuantifikasi oleh jumlah varians yang dijelaskan oleh komponen utama pertama. Yang identik dengan nilai nilai eigen pertama.

Untuk data keuangan, satu biasanya memeriksa jendela bergerak dari waktu ke waktu. Beberapa bentuk faktor pembusukan yang menurunkan pengamatan lebih tua berguna. Untuk data harian, mulai dari 20-60 hari, untuk data mingguan mungkin 1-2 tahun, semua tergantung kebutuhan Anda.

Perhatikan bahwa untuk pasar keuangan global, dengan puluhan atau ratusan ribu harga aset berubah terus-menerus, satu tipikal tidak dapat menjalankan matriks kovarians 100K vs 100K. Alih-alih, usecase biasa adalah menjalankan analisis per negara, per sektor, atau kelompok lain yang lebih bermakna. Sebagai alternatif, pisahkan pengembalian dengan serangkaian faktor yang mendasari (nilai, ukuran, kualitas, kredit ....) dan lakukan analisis PCA / Kovarian.

Beberapa artikel yang bagus termasuk diskusi Attilio Meucci tentang jumlah taruhan efektif: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

, dan juga Ledoit dan Wolf's Honey Saya menyusut matriks sampel kovarians http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

Untuk pengantar stasioner yang berorientasi finansial, mengapa tidak mulai dengan Investopedia. Ini tidak ketat, tetapi menyampaikan ide-ide utama.

Semoga berhasil!

EDIT: Berikut adalah contoh 3-saham yang menunjukkan Apple, Google dan Dow Jones dengan pengembalian harian hingga 2015. Segitiga atas menunjukkan korelasi pengembalian, segitiga bawah menunjukkan korelasi harga.

Korelasi pengembalian segitiga atas, korelasi harga segitiga bawah

Seperti dapat dilihat, Apple memiliki korelasi harga yang lebih tinggi dengan Dow (kiri bawah 0,76) daripada korelasi kembali (kanan atas 0,66). Apa yang bisa kita pelajari dari itu? Tidak banyak. Google memiliki korelasi harga negatif dengan Apple (-0,28) dan Dow (-0,27). Sekali lagi, tidak banyak yang bisa dipelajari dari itu. Namun, korelasi pengembalian memberi tahu kami bahwa Apple dan Google keduanya memiliki korelasi yang cukup tinggi dengan Dow (masing-masing 0,66 dan 0,53). Itu memberi tahu kita sesuatu tentang pergerakan bersama (perubahan harga) aset dalam portofolio. Itu informasi yang berguna.

Poin utama adalah bahwa meskipun korelasi harga dapat dengan mudah dihitung, itu tidak menarik. Mengapa? Karena harga suatu saham tidak menarik dalam dirinya sendiri. Harga perubahan , bagaimanapun, adalah sangat menarik.

Jon Egil
sumber
Bisakah Anda memperluas lebih lanjut pada bagian utama dari pertanyaan yaitu tentang perbedaan antara menggunakan harga vs pengembalian? Saya mengerti bahwa ketika menggunakan harga, matriks korelasi akan dipengaruhi oleh non-stasioneritas; misalnya jika semua harga tumbuh secara linear, maka semua korelasi akan sangat positif. Pertama, mengapa itu buruk? Khususnya mengingat bahwa Dow Jones pada dasarnya adalah harga rata-rata dan itu akan tumbuh juga (seperti PC1 akan). Kedua, bagaimana menggunakan pengembalian seharusnya membantu? AFAIK "pengembalian" adalah rasio yang dicatat dari titik-titik tetangga; mengapa itu bermakna dan bagaimana hubungannya dengan Dow Jones?
amoeba
terima kasih atas balasan informatif Anda. Tapi itu tidak menjawab pertanyaanku. Saya ingin memahami mengapa analisis harga bekerja dengan sangat baik untuk kumpulan data dalam buku ini? Dan amuba telah mengajukan banyak pertanyaan yang valid.
claudius
1
@claudius: Fakta bahwa PCA pada harga memberikan sesuatu yang mirip dengan Dow Jones yang merupakan harga rata-rata tidak mengejutkan sama sekali. Saya agak bertanya-tanya mengapa PCA pengembalian menghasilkan kecocokan yang lebih baik. Mungkin Jon akan bisa menjelaskan.
amoeba
1
Saya belum melihat kode aktual yang dijalankan dalam ML untuk Peretas, tetapi setiap kali seseorang mengatakan mereka menganalisis harga, 99 kali dari 100 yang sebenarnya mereka analisis adalah pengembalian log. Misalnya, hari ini Dow turun 162 poin, sementara Apple turun 0,88 dolar. Tidak hanya angkanya yang sangat berbeda, mereka bahkan berada pada skala yang berbeda, poin indeks vs uang. Namun dalam hal persen, 0,91% dan 0,75% dapat dibandingkan dan angka yang ingin Anda gunakan. Untuk beberapa analisis, seseorang dapat mengubah tren data dengan mengurangi rata-rata. Dalam jangka waktu keuangan jangka pendek ini sering diabaikan, dengan asumsi tidak ada tren.
Jon Egil
1
@amoeba, Untuk (sebagian) menjawab pertanyaan yang diajukan dalam komentar, pengembalian kira-kira iid sementara harga kira-kira jalan acak. Komponen-komponen utama memiliki sifat-sifat yang bagus dengan asumsi pengamatan awal. Inilah sebabnya mengapa masuk akal untuk menjalankan PCA atas pengembalian daripada harga. Ruey S. Tsay berpendapat untuk menjalankan PCA pada residu dari model ekonometrik seri waktu keuangan, karena residu biasanya dianggap iid. Saya pikir itu mungkin termasuk beberapa tempat dalam bukunya "Multivariate Time Series Analysis dengan R dan Aplikasi Keuangan" buku teks.
Richard Hardy