Berkaitan dengan jangka waktu volume

12

Perhatikan grafik berikut:

volume twitter dan perdagangan

Garis merah (sumbu kiri) menggambarkan volume perdagangan saham tertentu. Garis biru (sumbu kanan) menjelaskan volume pesan twitter untuk stok itu. Misalnya, pada 9 Mei (05-09) sekitar 1.100 juta perdagangan dan 4.000 tweet dibuat.

Saya ingin menghitung apakah ada korelasi antara jangka waktu, baik pada hari yang sama atau dengan jeda - misalnya: volume tweet berkorelasi dengan volume perdagangan satu hari kemudian. Saya membaca banyak artikel yang telah membuat analisis seperti itu, misalnya Mengkorelasikan Finansial Time Series dengan Kegiatan Micro-Blogging , tetapi mereka tidak menjelaskan bagaimana analisis semacam itu dibuat dalam istilah praktis. Berikut ini dinyatakan dalam artikel:

masukkan deskripsi gambar di sini

Namun, saya memiliki sedikit pengalaman dengan analisis statistik dan tidak tahu bagaimana menjalankan ini pada seri yang saya miliki. Saya menggunakan SPSS (juga dikenal sebagai PASW) dan pertanyaan saya adalah: apa langkah yang harus diambil untuk membuat analisis dari titik di mana saya memiliki datafile yang mendasari gambar di atas? Apakah pengujian semacam itu merupakan fitur default (dan apa sebutannya) dan / atau bagaimana saya bisa menjalankannya?

Bantuan apa pun akan sangat dihargai :-)

Pr0no
sumber
1
Anda dapat menghitungnya ... Anda tidak dapat membandingkannya dengan nilai-nilai kritis kecuali kedua seri tersebut bi-variate normal
IrishStat
Saya telah menempelkan data mentah di sini: pastebin.com/tZajRae9 Apakah ada cara untuk mengetahui apakah seri ini bi-variate normal? Saya akan sangat menghargai komentar Anda.
Pr0no
Setelah mendeteksi perubahan Outliers / Level di setiap seri, seri hasil penyesuaian menunjukkan model AR (1). Setelah memasukkan tidak hanya penyesuaian Outlier / level Shift DAN AR yang diidentifikasi secara empiris (1) kedua deret bebas dari korelasi-otomatis (dalam struktur). Korelasi silang dari dua seri pengganti ini menunjukkan tidak ada korelasi silang substantif (di antara struktur) sehingga jumlah tweet tampaknya tidak membantu prediksi volume.
IrishStat

Jawaban:

6

Dua pemeriksaan untuk normalitas bivariat periksa tiga hal:

  1. periksa apakah seri pengamatan pertama sedikit normal,
  2. periksa apakah pengamatan seri kedua sedikit normal,
  3. mundur satu sama lain dan periksa apakah residu normal.

Untuk memeriksa normalitas pada setiap langkah ini, gunakan plot qq normal atau Anda dapat menggunakan tes hipotesis normalitas apa pun.

Atau sebagai alternatif, Anda dapat memeriksa apakah setiap kombinasi linear yang mungkin (koefisien nyata) dari kedua seri tersebut sedikit normal. Tapi itu mungkin akan sulit.

Sunting: (6 tahun kemudian) Saya akan menyimpan di atas untuk anak cucu, tetapi perhatikan saya memiliki jawaban yang lebih baru untuk pertanyaan serupa di sini .

Taylor
sumber
Saya telah mengambil langkah 1 dan 2 dan menghasilkan boxplots berikut: i.imgur.com/SDOTE.png Kecuali untuk pengamatan outlier 3 sampai 5, semuanya terlihat normal. Namun, Sig. nilai untuk Uji Shapiro-Wilk adalah 0,000, yang akan menunjukkan penyimpangan yang signifikan dari normalitas. Dengan pencilan dihapus, Shapiro Wilk Sig. adalah 0,201 untuk tweet dan 0,004 untuk perdagangan. Apakah ini menunjukkan tidak ada korelasi yang mungkin? Juga, ini adalah deret waktu - menghapus outliers berarti menghapus hari dalam jangka waktu yang diteliti. Apakah ini praktik yang diterima?
Pr0no
Saya juga membuat plot pp untuk langkah 3. Atau setidaknya, dalam interpretasi saya inilah yang saya butuhkan (regresi linier dengan plot probabilitas normal): i.imgur.com/EZ3Ic.png Ada komentar?
Pr0no
Distribusi marginal tidak terlihat normal. Ada bagian kecil tentang kesimpulan pada tautan halaman wikipedia . Menghapus outlier umumnya bukan ide yang baik. Mungkin bootstrap interval kepercayaan.
Taylor
1
Pertanyaannya adalah tentang korelasi - tetapi jawabannya adalah tentang normalitas. Jawabannya dibatalkan berkali-kali dan diterima. Apa yang saya lewatkan di sini?
Richard Hardy
Distribusi normal bivariat adalah model paling sederhana yang memotivasi / membenarkan menggunakan korelasi Pearson.
Taylor
11

Koefisien korelasi antara deret waktu tidak berguna. Lihat KOEFISIEN KORELASI - Nilai kritis untuk Signifikansi Pengujian . Ini pertama kali ditunjukkan oleh U. Yule pada tahun 1926 Yule, GU, 1926, "Mengapa kita kadang-kadang mendapatkan korelasi omong kosong antara deret waktu? Sebuah studi dalam pengambilan sampel dan sifat deret waktu", Journal of Royal Statistics Society 89, 1 –64 . Anda mungkin ingin google "mengapa kita mendapatkan korelasi omong kosong" untuk lebih.

Alasan untuk ini adalah tes untuk korelasi normalitas sendi membalas. Normalitas sendi mengharuskan setiap seri menjadi normal. Normalitas membutuhkan kemandirian. Untuk menguji hubungan antara deret waktu, harap tinjau Identifikasi Fungsi Transfer dalam buku deret waktu yang bagus seperti Analisis Deret Waktu: Metode Univariat dan Multivariat, oleh William WS Wei, David P. Reilly .

Jawaban Tantangan

Dalam hal jawaban atas tantangan Anda. Diketahui, oleh beberapa ( Yule, GU, 1926 ) bahwa korelasi dua deret waktu dapat cacat khususnya jika salah satu deret dipengaruhi oleh pulsa / perubahan level / pulsa musiman dan / atau tren waktu lokal. Karena itu saya akan mengambil setiap seri SEPARATELY dan mengidentifikasi struktur ARIMA dan setiap pulsa / perubahan level / pulsa musiman dan / atau tren waktu lokal yang mungkin berlaku dan membuat proses kesalahan.

Dengan dua proses kesalahan bersih, satu untuk masing-masing dari dua seri asli, saya akan menghitung korelasi silang yang kemudian dapat digunakan untuk mengukur tingkat asosiasi di atas dan di luar struktur auto-korelatif dalam setiap seri. Solusi ini tepat disebut pendekatan pra-pemutihan ganda.

Lihat:

IrishStat
sumber
Terima kasih untuk balasan Anda. Tetapi apakah Anda kemudian mengatakan bahwa menurut definisi, makalah yang saya maksudkan, tidak memiliki nilai? Kedua, apakah ini berarti bahwa menurut definisi dua seri tidak pernah dapat dikorelasikan di mana korelasi memiliki makna?
Pr0no
3
Korelasi dapat dihitung karena itu adalah aritmatika sederhana. Yang tidak dapat dihitung (dengan mudah) adalah probabilitas bahwa korelasinya signifikan secara statistik. Pikirkan kembali saat pertama kali Anda diperkenalkan dengan koefisien korelasi. Itu dalam konteks sampel independen N di mana dua karakteristik / nilai dihitung untuk masing-masing sampel independen N dan kepadatan bersama adalah normal bivariat.
IrishStat
1
Mengapa ini memerlukan normalitas bersama, dan tidak hanya distribusi (simetris?) Yang sama? yaitu tidakkah keseragaman sendi juga bekerja?
naught101
1
@ NAUGHT101. Nilai kritis untuk koefisien korelasi tersedia berdasarkan asumsi normalitas sendi dan tidak diketahui orang lain.
IrishStat
@IrishStat Terima kasih atas jawaban Anda yang telah diedit. Itu dihargai. Untuk pengujian normalitas, silakan lihat i.imgur.com/SDOTE.png untuk plot qq dari variabel yang terpisah. Setelah outlier dihapus, plot pp, dari apa yang saya pahami yang mengukur norma-bersama, terlihat seperti ini di i.imgur.com/EZ3Ic.png Ada komentar?
Pr0no