Katakanlah saya memiliki beberapa data historis, misalnya, harga saham masa lalu, fluktuasi harga tiket pesawat, data keuangan masa lalu perusahaan ...
Sekarang seseorang (atau formula) datang dan berkata "mari kita ambil / gunakan log distribusi" dan di sinilah saya pergi MENGAPA ?
Pertanyaan:
- MENGAPA seseorang harus mengambil log distribusi?
- APA log distribusi 'memberi / menyederhanakan' bahwa distribusi asli tidak bisa / tidak?
- Apakah transformasi log 'lossless'? Yaitu, ketika mentransformasikan ke ruang-log dan menganalisis data, apakah kesimpulan yang sama berlaku untuk distribusi asli? Bagaimana bisa?
- Dan terakhir KAPAN mengambil log distribusi? Dalam kondisi apa seseorang memutuskan untuk melakukan ini?
Saya benar-benar ingin memahami distribusi berbasis log (misalnya lognormal) tetapi saya tidak pernah mengerti aspek kapan / mengapa - yaitu, log distribusi adalah distribusi normal, jadi apa? Apa yang dikatakan dan saya dan mengapa repot-repot? Karena itu pertanyaannya!
UPDATE : Per komentar whuber saya melihat posting dan untuk beberapa alasan saya mengerti penggunaan log transformasi dan aplikasinya dalam regresi linier, karena Anda dapat menggambar hubungan antara variabel independen dan log dari variabel dependen. Namun, pertanyaan saya bersifat umum dalam arti menganalisis distribusi itu sendiri - tidak ada hubungan yang bisa saya simpulkan untuk membantu memahami alasan mengambil log untuk menganalisis distribusi. Saya harap saya masuk akal: - /
Dalam analisis regresi, Anda memiliki batasan pada jenis / kesesuaian / distribusi data dan Anda dapat mentransformasikannya dan menentukan hubungan antara variabel dependen independen dan (tidak berubah). Tetapi kapan / mengapa kita melakukan itu untuk distribusi secara terpisah di mana kendala jenis / kesesuaian / distribusi tidak selalu berlaku dalam suatu kerangka kerja (seperti regresi). Saya harap klarifikasi ini membuat segalanya lebih jelas daripada membingungkan :)
Pertanyaan ini layak mendapat jawaban yang jelas untuk "MENGAPA dan KAPAN"
Jawaban:
Transformasi yang tidak beralasan atau tidak benar termasuk perbedaan harus dihindari dengan rajin karena mereka sering merupakan upaya yang keliru / kurang dipahami untuk menangani anomali / perubahan level / tren waktu / perubahan waktu atau perubahan dalam parameter atau perubahan varian kesalahan. Sebuah contoh klasik dari ini dibahas mulai dari slide 60 di sini http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation di mana tiga anomali pulsa ( tidak diobati) menyebabkan transformasi log yang tidak beralasan oleh para peneliti awal. Sayangnya beberapa peneliti kami saat ini masih membuat kesalahan yang sama.
Transformasi daya optimal ditemukan melalui Box-Cox Test di mana
sumber
Skala log menginformasikan perubahan relatif (multiplikatif), sedangkan skala linier menginformasikan perubahan absolut (tambahan). Kapan Anda menggunakan masing-masing? Saat Anda peduli dengan perubahan relatif, gunakan skala log; ketika Anda peduli tentang perubahan absolut, gunakan skala linier. Ini berlaku untuk distribusi, tetapi juga untuk setiap kuantitas atau perubahan kuantitas.
Catatan, saya menggunakan kata "peduli" di sini dengan sangat khusus dan sengaja. Tanpa model atau tujuan, pertanyaan Anda tidak dapat dijawab; model atau tujuan menentukan skala mana yang penting. Jika Anda mencoba memodelkan sesuatu, dan mekanismenya bertindak melalui perubahan relatif, skala log sangat penting untuk menangkap perilaku yang terlihat dalam data Anda. Tetapi jika mekanisme yang mendasari model aditif, Anda akan ingin menggunakan skala linier.
Jika kami mengonversi ke ruang log, perubahan relatif muncul sebagai perubahan absolut.
Sekarang, dengan mengambil perbedaan absolut dalam ruang log , kami menemukan bahwa keduanya diubah oleh 0,0413.
Kedua ukuran perubahan ini penting, dan mana yang penting bagi Anda hanya bergantung pada model investasi Anda. Ada dua model. (1) Menginvestasikan jumlah pokok tetap, atau (2) berinvestasi dalam jumlah saham tetap.
Model 1: Berinvestasi dengan jumlah pokok tetap.
Model 2: jumlah saham tetap.
Sekarang anggaplah kita menganggap nilai saham sebagai variabel acak berfluktuasi dari waktu ke waktu, dan kami ingin membuat model yang mencerminkan secara umum bagaimana perilaku saham. Dan katakanlah kita ingin menggunakan model ini untuk memaksimalkan laba. Kami menghitung distribusi probabilitas yang nilai xnya dalam satuan 'harga saham', dan nilai y dalam probabilitas mengamati harga saham yang diberikan. Kami melakukan ini untuk saham A, dan saham B. Jika Anda berlangganan skenario pertama, di mana Anda memiliki jumlah pokok yang ingin Anda investasikan, maka mengambil log dari distribusi ini akan menjadi informatif. Mengapa? Yang Anda pedulikan adalah bentuk distribusi di ruang relatif. Apakah saham bergerak dari 1 ke 10, atau 10 ke 100 tidak masalah bagi Anda, bukan? Kedua case berukuran 10 kali lipatkeuntungan relatif. Ini muncul secara alami dalam distribusi skala log di bahwa keuntungan unit sesuai dengan lipat keuntungan secara langsung. Untuk dua saham dengan nilai rata-rata berbeda tetapi perubahan relatifnya terdistribusi secara identik (mereka memiliki distribusi perubahan persentase harian yang sama ), distribusi log mereka akan sama dalam bentuk yang baru saja digeser. Sebaliknya, distribusi liniernya tidak akan identik, dengan distribusi bernilai tinggi memiliki varian yang lebih tinggi.
Jika Anda melihat distribusi yang sama ini dalam ruang linier, atau absolut, Anda akan berpikir bahwa harga saham dengan nilai lebih tinggi sesuai dengan fluktuasi yang lebih besar. Untuk tujuan investasi Anda, di mana hanya keuntungan relatif yang penting, ini belum tentu benar.
Contoh 2. Reaksi kimia. Misalkan kita memiliki dua molekul A dan B yang mengalami reaksi reversibel.
yang didefinisikan oleh konstanta laju individu
Keseimbangan mereka ditentukan oleh hubungan:
EDIT . Paralel yang menarik yang membantu saya membangun intuisi adalah contoh rata-rata aritmatika vs geometrik. Rata-rata aritmatika (vanilla) menghitung rata-rata angka dengan mengasumsikan model tersembunyi di mana perbedaan mutlak adalah masalah. Contoh. Mean aritmatika 1 dan 100 adalah 50,5. Misalkan kita berbicara tentang konsentrasi, di mana hubungan kimia antara konsentrasi adalah multiplikatif. Maka konsentrasi rata-rata harus benar-benar dihitung pada skala log. Ini disebut rata-rata geometris. Rata-rata geometris 1 dan 100 adalah 10! Dalam hal perbedaan relatif, ini masuk akal: 10/1 = 10, dan 100/10 = 10, yaitu., Perubahan relatif antara nilai rata-rata dan dua adalah sama. Secara positif kami menemukan hal yang sama; 50.5-1 = 49.5, dan 100-50.5 = 49.5.
sumber