Mungkin, ini adalah pertanyaan yang sangat mendasar tetapi saya sepertinya tidak dapat menemukan jawaban yang kuat untuk itu. Saya harap di sini, saya bisa.
Saat ini saya membaca makalah sebagai persiapan untuk tesis master saya sendiri. Saat ini, saya sedang membaca sebuah makalah yang meneliti hubungan antara tweet dan fitur pasar saham.
Dalam salah satu hipotesis mereka, mereka mengusulkan bahwa "peningkatan volume tweet dikaitkan dengan peningkatan volume perdagangan".
Saya akan mengharapkan mereka, dalam korelasi berpasangan, untuk berkorelasi tweetVolume
dengan tradingVolume
, tetapi mereka melaporkan menggunakan versi log: LN(tweetVolume)
dan LN(tradingVolume)
.
Untuk tesis saya, saya telah mereplikasi sedikit dari makalah ini. Saya telah mengumpulkan tweet tentang 100 perusahaan selama lebih dari 6 bulan ( tweetVolume
) dan volume perdagangan saham untuk jangka waktu yang sama. Jika saya mengkorelasikan variabel absolut, saya menemukan r=.282, p.000
tetapi ketika saya menggunakan verifikasi log, saya menemukan r=.488, p=.000
.
Saya tidak mengerti mengapa peneliti kadang-kadang menggunakan versi log variabel mereka dan mengapa korelasi tampak jauh lebih tinggi jika Anda melakukannya. Apa alasannya di sini, dan mengapa OK untuk menggunakan variabel yang dicatat?
Bantuan Anda sangat dihargai :-)
Jawaban:
Alasan untuk menggunakan variabel yang dicatat termasuk dalam dua kategori: Statistik dan substantif.
Secara statistik, jika variabel Anda condong ke kanan (yaitu, mereka memiliki ekor panjang di ujung atas) maka ukuran seperti korelasi atau regresi dapat dipengaruhi banyak oleh satu atau beberapa kasus di ujung atas pada satu atau keduanya variabel (outlier, poin leverage, poin berpengaruh). Mengambil log dapat membantu ini dengan mengurangi atau menghilangkan kemiringan.
Secara substansial, beberapa konsep lebih baik dalam hal rasio daripada perbedaan. Ambil dua ukuran volume yang Anda diskusikan. Sekarang, bandingkan dua perusahaan: Satu perusahaan kecil yang berdagang di NASDAQ yang hanya sedikit orang pernah dengar, yang lain mega perusahaan. Yang pertama akan mendapatkan sangat sedikit tweet per hari. Yang terakhir akan mendapatkan banyak; sama untuk volume perdagangan. Misalkan (hanya untuk memilih angka) bahwa perusahaan A biasanya mendapat 100 tweet per hari dan yang terakhir mendapat 100.000.
Jika tweet perusahaan A naik dari 100 menjadi 500 (perbedaan 400, rasio 5) itu berita besar - sesuatu pasti sedang terjadi. Tetapi jika perusahaan B naik dari 100.000 menjadi 100.400 (perbedaan 400, rasio sangat dekat dengan 1) tidak ada yang peduli. Setara kasarnya adalah jika berubah dari 100.000 menjadi 500.000.
sumber