Mengapa menggunakan variabel yang dicatat?

12

Mungkin, ini adalah pertanyaan yang sangat mendasar tetapi saya sepertinya tidak dapat menemukan jawaban yang kuat untuk itu. Saya harap di sini, saya bisa.

Saat ini saya membaca makalah sebagai persiapan untuk tesis master saya sendiri. Saat ini, saya sedang membaca sebuah makalah yang meneliti hubungan antara tweet dan fitur pasar saham.

Dalam salah satu hipotesis mereka, mereka mengusulkan bahwa "peningkatan volume tweet dikaitkan dengan peningkatan volume perdagangan".

Saya akan mengharapkan mereka, dalam korelasi berpasangan, untuk berkorelasi tweetVolumedengan tradingVolume, tetapi mereka melaporkan menggunakan versi log: LN(tweetVolume)dan LN(tradingVolume).

Untuk tesis saya, saya telah mereplikasi sedikit dari makalah ini. Saya telah mengumpulkan tweet tentang 100 perusahaan selama lebih dari 6 bulan ( tweetVolume) dan volume perdagangan saham untuk jangka waktu yang sama. Jika saya mengkorelasikan variabel absolut, saya menemukan r=.282, p.000tetapi ketika saya menggunakan verifikasi log, saya menemukan r=.488, p=.000.

Saya tidak mengerti mengapa peneliti kadang-kadang menggunakan versi log variabel mereka dan mengapa korelasi tampak jauh lebih tinggi jika Anda melakukannya. Apa alasannya di sini, dan mengapa OK untuk menggunakan variabel yang dicatat?

Bantuan Anda sangat dihargai :-)

Pr0no
sumber
1
Jika Anda melihat utas terkait di kanan bawah halaman penggunaan logaritma telah dibahas beberapa kali sebelumnya. Khususnya lihat, Dalam regresi linier, kapan tepat menggunakan log variabel independen alih-alih nilai aktual? .
Andy W

Jawaban:

24

Alasan untuk menggunakan variabel yang dicatat termasuk dalam dua kategori: Statistik dan substantif.

Secara statistik, jika variabel Anda condong ke kanan (yaitu, mereka memiliki ekor panjang di ujung atas) maka ukuran seperti korelasi atau regresi dapat dipengaruhi banyak oleh satu atau beberapa kasus di ujung atas pada satu atau keduanya variabel (outlier, poin leverage, poin berpengaruh). Mengambil log dapat membantu ini dengan mengurangi atau menghilangkan kemiringan.

Secara substansial, beberapa konsep lebih baik dalam hal rasio daripada perbedaan. Ambil dua ukuran volume yang Anda diskusikan. Sekarang, bandingkan dua perusahaan: Satu perusahaan kecil yang berdagang di NASDAQ yang hanya sedikit orang pernah dengar, yang lain mega perusahaan. Yang pertama akan mendapatkan sangat sedikit tweet per hari. Yang terakhir akan mendapatkan banyak; sama untuk volume perdagangan. Misalkan (hanya untuk memilih angka) bahwa perusahaan A biasanya mendapat 100 tweet per hari dan yang terakhir mendapat 100.000.

Jika tweet perusahaan A naik dari 100 menjadi 500 (perbedaan 400, rasio 5) itu berita besar - sesuatu pasti sedang terjadi. Tetapi jika perusahaan B naik dari 100.000 menjadi 100.400 (perbedaan 400, rasio sangat dekat dengan 1) tidak ada yang peduli. Setara kasarnya adalah jika berubah dari 100.000 menjadi 500.000.

Peter Flom - Pasang kembali Monica
sumber
terima kasih atas balasan cepat Anda. Dua pertanyaan lagi datang dari jawaban Anda. Pertama, jika saya memiliki 3 properti untuk objek (volume perdagangan saham, pengembalian, dan volatilitas) dan mengambil versi yang dicatat untuk salah satu dari mereka? Apa yang Anda katakan untuk tweet perusahaan A dan B, mungkin juga menghitung pengembalian mereka: jika saham perusahaan A naik dari 1 total 1,50 maka pengembaliannya adalah (50%) 0,50. Perusahaan B membutuhkan peningkatan dari 400 menjadi 600 (200) untuk% yang sama. Dan berasal dari itu: jika pengembalian negatif, LN (-0,50) jelas tidak berfungsi. Apakah kemudian diizinkan untuk mengambil -LN (0,50)?
Pr0no
Juga, jika saya mengerti dengan benar, mengambil variabel yang dicatat bukan pilihan bebas - itu harus diperdebatkan dengan skweness-chart (secara statistik)? Dan secara substansial lebih merupakan alasan logis untuk mengambil kayu yang benar-benar memberikan keuntungan untuk melakukannya? Dengan kata lain, apakah ada aturan praktis di sini, mendefinisikan ambang di atas yang harus Anda ambil versi log atau itu masalah interpretasi?
Pr0no
1
Anda tidak ingin mengambil log persentase dalam kasus ini: Mengambil persentase melakukan apa yang akan dilakukan log. Artinya, itu membuat hal-hal rasio. Tentu saja Anda dapat mengambil log dari beberapa variabel dan bukan yang lain. Mengambil log tidak memerlukan grafik skewness, tetapi biasanya variabel yang seharusnya dicatat adalah skew kanan. Tetapi yang utama adalah substansi . Jika tidak masuk akal untuk mengambil log, maka jangan lakukan itu. Alih-alih, gunakan metode statistik yang berfungsi dengan variabel miring. SUBSTANCE diutamakan.
Peter Flom - Reinstate Monica