Dalam masalah yang sedang saya kerjakan, saya memiliki dua variabel acak, X dan Y. Saya perlu mencari tahu seberapa dekat keduanya berkorelasi, tetapi mereka memiliki dimensi yang berbeda. Peringkat ruang baris X adalah 4350, dan peringkat ruang baris Y secara substansial lebih besar, dalam puluhan ribu. Baik X dan Y memiliki jumlah kolom yang sama.
Saya perlu ukuran korelasi antara dua variabel, dan Pearson r membutuhkan X dan Y untuk memiliki dimensi yang sama (setidaknya R memerlukan dua rv untuk menjadi).
Apakah saya memiliki harapan untuk melakukan korelasi antara keduanya, atau haruskah saya menemukan cara untuk memangkas pengamatan dari Y?
EDIT
Menambahkan informasi dari komentar, yang seharusnya ada dalam pertanyaan.
Saya kira saya lupa menyebutkan ini. X dan Y adalah harga saham. Perusahaan X telah menjadi perusahaan publik untuk periode waktu yang jauh lebih pendek daripada Y. Saya ingin tahu seberapa berkorelasi harga X dan Y. Saya pasti bisa mendapatkan korelasi untuk periode waktu dimana X dan Y keduanya ada. Saya ingin tahu apakah mengetahui harga saham selama beberapa tahun tambahan Y bahwa X tidak ada memberi saya informasi tambahan.
sumber
Jawaban:
Tidak ada jumlah imputasi, analisis deret waktu, model GARCH, interpolasi, ekstrapolasi, atau algoritme mewah lainnya yang akan melakukan apa pun untuk membuat informasi di tempat yang tidak ada (walaupun mereka dapat membuat ilusi itu ;-). Sejarah harga Y sebelum X dipublikasikan tidak berguna untuk menilai korelasi selanjutnya.
Kadang-kadang (seringkali persiapan untuk IPO) analis menggunakan informasi akuntansi internal (atau catatan transaksi saham swasta) untuk merekonstruksi secara retrospektif harga hipotetis untuk saham X sebelum go public. Dapat dibayangkan informasi tersebut dapat digunakan untuk meningkatkan perkiraan korelasi, tetapi mengingat sifat yang sangat tentatif dari backcast seperti itu, saya ragu upaya itu akan membantu kecuali pada awalnya ketika hanya ada beberapa hari atau minggu harga untuk X tersedia.
sumber
Jadi masalahnya adalah salah satu data yang hilang (tidak semua Y memiliki X yang sesuai, di mana korespondensi dioperasikan melalui titik waktu). Saya tidak berpikir ada banyak yang harus dilakukan di sini daripada hanya membuang Y Anda tidak memiliki X untuk dan menghitung korelasi pada pasangan penuh.
Anda mungkin ingin membaca tentang rangkaian waktu keuangan, meskipun saya tidak memiliki referensi yang bagus pada saat ini (ide, siapa pun?). Harga saham sering menunjukkan volatilitas yang bervariasi waktu, yang dapat dimodelkan, misalnya oleh GARCH . Bisa dibayangkan bahwa dua seri waktu X dan Y Anda menunjukkan korelasi positif selama periode volatilitas rendah (ketika ekonomi tumbuh, semua harga saham cenderung meningkat), tetapi korelasi negatif ketika volatilitas keseluruhan tinggi (pada 9/11, maskapai mabuk selama uang melarikan diri ke investasi yang lebih aman). Jadi hanya menghitung korelasi keseluruhan mungkin terlalu tergantung pada kerangka waktu pengamatan Anda.
UPDATE: Saya pikir Anda mungkin ingin melihat model VAR (vector autoregressive) .
sumber
@Jeromy Anglim menentukan ini dengan benar. Memiliki informasi tambahan ketika hanya satu dari rangkaian waktu yang ada tidak akan memberikan nilai di sini. Dan pada prinsipnya, data harus diambil sampel pada saat yang sama agar menjadi bermakna menggunakan langkah-langkah korelasi konvensional.
Sebagai masalah yang lebih umum, saya akan menambahkan bahwa ada teknik untuk menangani data time series yang tidak beraturan. Anda dapat mencari "korelasi seri waktu yang tidak beraturan". Beberapa pekerjaan baru-baru ini telah dilakukan pada "Volatilitas dan Korelasi Realisasi" (Andersen, Bollerslev, Diebold, dan Labys 1999) menggunakan data frekuensi tinggi.
sumber
Mengingat informasi tambahan dalam komentar Anda, saya akan merekomendasikan untuk melihat dua korelasi. Yang pertama adalah periode waktu yang umum di mana perusahaan berada. Jadi, jika ada sekitar 2 tahun sebelumnya, Anda hanya akan membuang data itu dan melihat sisanya. Yang kedua adalah periode waktu relatif. Di yang kedua Anda tidak mengkorelasikan waktu aktual tetapi waktu diukur sejak perusahaan go public.
Yang pertama akan sangat dipengaruhi oleh kekuatan ekonomi umum yang dibagi dalam periode waktu yang sama. Yang terakhir akan dipengaruhi oleh properti yang dibagikan oleh perusahaan saat mereka berubah setelah IPO.
sumber
Cara lain untuk memecahkan masalah seperti itu adalah dengan memasukkan data yang hilang untuk seri pendek menggunakan model deret waktu yang mungkin atau mungkin tidak masuk akal dalam konteks tertentu.
Dalam konteks Anda, memasukkan harga saham ke masa lalu akan berarti bahwa Anda mengajukan pertanyaan kontra faktual berikut: Apa yang akan menjadi harga saham perusahaan X jika sudah go public n tahun di masa lalu daripada ketika itu benar-benar go public? Pemangkasan data seperti itu berpotensi dilakukan dengan memperhitungkan harga saham perusahaan terkait, tren pasar umum, dll. Tetapi, analisis semacam itu mungkin tidak masuk akal atau mungkin tidak diperlukan mengingat tujuan proyek Anda.
sumber
Yah banyak tergantung pada asumsi yang Anda buat. Jika Anda berasumsi bahwa data itu diam maka lebih banyak data untuk seri satu akan memberi Anda perkiraan volatilitas yang lebih baik. Estimasi ini dapat digunakan untuk meningkatkan estimasi korelasi. Jadi statemen yang mengikuti salah:
"Sejarah harga Y sebelum X dipublikasikan tidak berguna untuk menilai korelasi mereka selanjutnya"
sumber
Ini terdengar seperti masalah untuk algoritma pembelajaran mesin. Oleh karena itu, saya akan mencoba mencari serangkaian fitur yang menggambarkan aspek tertentu dari tren dan melatihnya. Seluruh teori pembelajaran mesin sedikit rumit untuk kotak jawaban ini, tetapi akan berguna bagi Anda untuk membacanya.
Tapi jujur, saya pikir sudah ada di luar sana. Di mana uang dapat dihasilkan, orang menaruh pikiran di dalamnya.
sumber