Kapan (dan mengapa) Anda harus mengambil log distribusi (angka)?

174

Katakanlah saya memiliki beberapa data historis, misalnya, harga saham masa lalu, fluktuasi harga tiket pesawat, data keuangan masa lalu perusahaan ...

Sekarang seseorang (atau formula) datang dan berkata "mari kita ambil / gunakan log distribusi" dan di sinilah saya pergi MENGAPA ?

Pertanyaan:

MENGAPA seseorang harus mengambil log distribusi?
APA log distribusi 'memberi / menyederhanakan' bahwa distribusi asli tidak bisa / tidak?
Apakah transformasi log 'lossless'? Yaitu, ketika mentransformasikan ke ruang-log dan menganalisis data, apakah kesimpulan yang sama berlaku untuk distribusi asli? Bagaimana bisa?
Dan terakhir KAPAN mengambil log distribusi? Dalam kondisi apa seseorang memutuskan untuk melakukan ini?

Saya benar-benar ingin memahami distribusi berbasis log (misalnya lognormal) tetapi saya tidak pernah mengerti aspek kapan / mengapa - yaitu, log distribusi adalah distribusi normal, jadi apa? Apa yang dikatakan dan saya dan mengapa repot-repot? Karena itu pertanyaannya!

UPDATE : Per komentar whuber saya melihat posting dan untuk beberapa alasan saya mengerti penggunaan log transformasi dan aplikasinya dalam regresi linier, karena Anda dapat menggambar hubungan antara variabel independen dan log dari variabel dependen. Namun, pertanyaan saya bersifat umum dalam arti menganalisis distribusi itu sendiri - tidak ada hubungan yang bisa saya simpulkan untuk membantu memahami alasan mengambil log untuk menganalisis distribusi. Saya harap saya masuk akal: - /

Dalam analisis regresi, Anda memiliki batasan pada jenis / kesesuaian / distribusi data dan Anda dapat mentransformasikannya dan menentukan hubungan antara variabel dependen independen dan (tidak berubah). Tetapi kapan / mengapa kita melakukan itu untuk distribusi secara terpisah di mana kendala jenis / kesesuaian / distribusi tidak selalu berlaku dalam suatu kerangka kerja (seperti regresi). Saya harap klarifikasi ini membuat segalanya lebih jelas daripada membingungkan :)

Pertanyaan ini layak mendapat jawaban yang jelas untuk "MENGAPA dan KAPAN"

distributions data-transformation logarithm PhD
sumber

Karena ini mencakup hampir dasar yang sama dengan pertanyaan sebelumnya di sini dan di sini , baca utas-utas itu dan perbarui pertanyaan Anda untuk fokus pada aspek apa pun dari masalah ini yang belum ditangani. Perhatikan juga, # 4 (dan bagian dari # 3) adalah pertanyaan mendasar tentang logaritma yang jawabannya mudah ditemukan di banyak tempat.

whuber

Klarifikasi membantu. Anda mungkin ingin merenungkan fakta, bahwa regresi dengan hanya istilah yang konstan (dan tidak ada variabel independen lainnya) sama dengan menilai variasi data di sekitar rata-rata mereka. Oleh karena itu, jika Anda benar-benar memahami efek dari mengambil log variabel dependen dalam regresi, Anda sudah memahami situasi (lebih sederhana) yang Anda tanyakan di sini. Singkatnya, begitu Anda memiliki jawaban untuk keempat pertanyaan untuk regresi, Anda tidak perlu bertanya lagi tentang "distribusi dalam isolasi."

whuber

@whuber: Begitu ... jadi saya mengerti alasan untuk mengambil log dalam regresi, tetapi hanya karena saya telah diajari begitu - saya memahaminya dari kebutuhan untuk melakukannya, yaitu, untuk memastikan data sesuai dengan asumsi regresi linier. Itu satu-satunya pemahaman saya. Mungkin yang saya lewatkan adalah "pemahaman nyata" tentang efek mengambil log dan karenanya kebingungan ... ada bantuan? ;)

PhD

Ah, tetapi Anda tahu lebih banyak dari itu, karena setelah menggunakan log dalam regresi, Anda tahu bahwa hasilnya ditafsirkan secara berbeda dan Anda tahu untuk berhati-hati dalam mengubah nilai yang dipasang dan interval kepercayaan. Saya menyarankan agar Anda tidak bingung dan bahwa Anda mungkin sudah tahu banyak jawaban untuk empat pertanyaan ini, meskipun pada awalnya Anda tidak menyadarinya :-).

whuber

Pembaca di sini mungkin juga ingin melihat utas yang berkaitan erat ini: interpretasi-of-log-transformed-prediktor , & Cara menafsirkan koefisien yang ditransformasikan secara logaritma dalam regresi linier .

gung

Jawaban:

$\log Y = \beta_0 + \beta_1t$ $Y$ $Y$ $Y$ $Y^2$ . Saya tidak ingat sumber asli untuk yang berikut ini, tetapi ia dengan baik merangkum peran transformasi kekuatan. Penting untuk dicatat bahwa asumsi distribusi selalu tentang proses kesalahan bukan pada Y yang teramati sehingga merupakan "tidak-tidak" yang pasti untuk menganalisis seri asli untuk transformasi yang sesuai kecuali seri ditentukan oleh konstanta sederhana.

Transformasi yang tidak beralasan atau tidak benar termasuk perbedaan harus dihindari dengan rajin karena mereka sering merupakan upaya yang keliru / kurang dipahami untuk menangani anomali / perubahan level / tren waktu / perubahan waktu atau perubahan dalam parameter atau perubahan varian kesalahan. Sebuah contoh klasik dari ini dibahas mulai dari slide 60 di sini http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation di mana tiga anomali pulsa ( tidak diobati) menyebabkan transformasi log yang tidak beralasan oleh para peneliti awal. Sayangnya beberapa peneliti kami saat ini masih membuat kesalahan yang sama.

Transformasi daya optimal ditemukan melalui Box-Cox Test di mana

-1. adalah timbal balik
-.5 adalah akar kuadrat recriprocal
0,0 adalah transformasi log
0,5 adalah transformasi toot persegi dan
1.0 tidak bertransformasi.

$Y_t=u +a_t$ $Y$ $a_t$ $a_t$ $Y_t$ $a_t$ $Y_t$ $Y$ $Y$ $Y$ $X$ $Y$ $X$ $\log Y$ $\log X$ . Singkatnya transformasi seperti obat-obatan ada yang baik dan ada yang buruk untuk Anda! Mereka harus digunakan hanya bila perlu dan kemudian dengan hati-hati.

IrishStat
sumber

Saya setuju bahwa siapa pun yang meninggalkan downvote (s) harus meninggalkan komentar mengapa ini downvote. Bagi Irishstat, akan jauh lebih mudah untuk membaca posting Anda jika Anda memanfaatkan opsi pemformatan untuk meninggalkan jawaban, terutama yang tersedia untuk menandai persamaan dalam lateks. Lihat bagian bantuan penyuntingan penurunan harga . Tautan itu tersedia setiap kali Anda mengetik respons di sudut kanan atas kotak posting (di lingkaran oranye dengan tanda tanya).

Andy W

Tabel yang dikutip ditemukan dalam Pengantar Analisis Regresi Linier Oleh Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining.

user1717828

@ user1717828 tu .. Saya selalu menjadi penggemar Montgomery karena ia memiliki jenggot panjang yang melibatkan rangkaian waktu

IrishStat

Apakah tidak selalu benar bahwa momen kedua dan varians sebanding satu sama lain? Kami memiliki persamaan klasik yang mengatakan: varians sama dengan momen kedua dikurangi momen pertama kuadrat.

information_interchange

Seperti yang Anda katakan varians adalah fungsi dari momen kedua. Di mana saya menyiratkan sebaliknya. Selain itu varians dapat berubah (secara deterministik) pada titik yang berbeda dalam waktu. LIHAT pdfs.semanticscholar.org/09c4/... yang tidak diatasi oleh transformasi daya.

IrishStat

108

Skala log menginformasikan perubahan relatif (multiplikatif), sedangkan skala linier menginformasikan perubahan absolut (tambahan). Kapan Anda menggunakan masing-masing? Saat Anda peduli dengan perubahan relatif, gunakan skala log; ketika Anda peduli tentang perubahan absolut, gunakan skala linier. Ini berlaku untuk distribusi, tetapi juga untuk setiap kuantitas atau perubahan kuantitas.

Catatan, saya menggunakan kata "peduli" di sini dengan sangat khusus dan sengaja. Tanpa model atau tujuan, pertanyaan Anda tidak dapat dijawab; model atau tujuan menentukan skala mana yang penting. Jika Anda mencoba memodelkan sesuatu, dan mekanismenya bertindak melalui perubahan relatif, skala log sangat penting untuk menangkap perilaku yang terlihat dalam data Anda. Tetapi jika mekanisme yang mendasari model aditif, Anda akan ingin menggunakan skala linier.

$\$$ $\$$ $\$$

$\$$ $\$$ $\$$ $\$$

$\$$

Jika kami mengonversi ke ruang log, perubahan relatif muncul sebagai perubahan absolut.

$\log_{10}(\$1)$ $\log_{10}(\$1.10)$
$\log_{10}(\$100)$ $\log_{10}(\$110)$

Sekarang, dengan mengambil perbedaan absolut dalam ruang log , kami menemukan bahwa keduanya diubah oleh 0,0413.

Kedua ukuran perubahan ini penting, dan mana yang penting bagi Anda hanya bergantung pada model investasi Anda. Ada dua model. (1) Menginvestasikan jumlah pokok tetap, atau (2) berinvestasi dalam jumlah saham tetap.

Model 1: Berinvestasi dengan jumlah pokok tetap.

$\$$ $\$$ $\$$ $\$$ $\$$ $\$$ $\$$ $\$$

Model 2: jumlah saham tetap.

$\$$

Sekarang anggaplah kita menganggap nilai saham sebagai variabel acak berfluktuasi dari waktu ke waktu, dan kami ingin membuat model yang mencerminkan secara umum bagaimana perilaku saham. Dan katakanlah kita ingin menggunakan model ini untuk memaksimalkan laba. Kami menghitung distribusi probabilitas yang nilai xnya dalam satuan 'harga saham', dan nilai y dalam probabilitas mengamati harga saham yang diberikan. Kami melakukan ini untuk saham A, dan saham B. Jika Anda berlangganan skenario pertama, di mana Anda memiliki jumlah pokok yang ingin Anda investasikan, maka mengambil log dari distribusi ini akan menjadi informatif. Mengapa? Yang Anda pedulikan adalah bentuk distribusi di ruang relatif. Apakah saham bergerak dari 1 ke 10, atau 10 ke 100 tidak masalah bagi Anda, bukan? Kedua case berukuran 10 kali lipatkeuntungan relatif. Ini muncul secara alami dalam distribusi skala log di bahwa keuntungan unit sesuai dengan lipat keuntungan secara langsung. Untuk dua saham dengan nilai rata-rata berbeda tetapi perubahan relatifnya terdistribusi secara identik (mereka memiliki distribusi perubahan persentase harian yang sama ), distribusi log mereka akan sama dalam bentuk yang baru saja digeser. Sebaliknya, distribusi liniernya tidak akan identik, dengan distribusi bernilai tinggi memiliki varian yang lebih tinggi.

Jika Anda melihat distribusi yang sama ini dalam ruang linier, atau absolut, Anda akan berpikir bahwa harga saham dengan nilai lebih tinggi sesuai dengan fluktuasi yang lebih besar. Untuk tujuan investasi Anda, di mana hanya keuntungan relatif yang penting, ini belum tentu benar.

Contoh 2. Reaksi kimia. Misalkan kita memiliki dua molekul A dan B yang mengalami reaksi reversibel.

$A\Leftrightarrow B$

yang didefinisikan oleh konstanta laju individu

$k_{ab}$ $A\Rightarrow B$ $k_{ba}$ $B\Rightarrow A$

Keseimbangan mereka ditentukan oleh hubungan:

$K=\frac{k_{ab}}{k_{ba}}=\frac{[A]}{[B]}$

$A$ $B$

$K^*=k_{ab}-k_{ba}=[A]-[B]$

$(0,\inf)$

EDIT . Paralel yang menarik yang membantu saya membangun intuisi adalah contoh rata-rata aritmatika vs geometrik. Rata-rata aritmatika (vanilla) menghitung rata-rata angka dengan mengasumsikan model tersembunyi di mana perbedaan mutlak adalah masalah. Contoh. Mean aritmatika 1 dan 100 adalah 50,5. Misalkan kita berbicara tentang konsentrasi, di mana hubungan kimia antara konsentrasi adalah multiplikatif. Maka konsentrasi rata-rata harus benar-benar dihitung pada skala log. Ini disebut rata-rata geometris. Rata-rata geometris 1 dan 100 adalah 10! Dalam hal perbedaan relatif, ini masuk akal: 10/1 = 10, dan 100/10 = 10, yaitu., Perubahan relatif antara nilai rata-rata dan dua adalah sama. Secara positif kami menemukan hal yang sama; 50.5-1 = 49.5, dan 100-50.5 = 49.5.

vector07
sumber

Ini adalah jawaban yang sangat membantu dan saya suka contohnya. Bisakah Anda menambahkan lebih banyak tentang "kapan" secara khusus untuk menggunakan log-transform? Anda mengatakan "Ketika Anda peduli tentang perubahan relatif, gunakan skala log; Ketika Anda peduli tentang perubahan absolut, gunakan skala linier." Tetapi apakah ada kasus ketika Anda peduli tentang perubahan relatif tetapi tidak harus melakukan log-transformasi, dan jika demikian, bagaimana Anda mendeteksi kasus-kasus itu? Sebagai contoh, makalah ini membuat kasus bahwa data yang tidak mengikuti log distribusi normal tidak boleh ditransformasikan log: ncbi.nlm.nih.gov/pmc/articles/PMC4120293

skeller88

@ skeller88 Saya setuju dengan makalah ini; ini adalah respons sempit terhadap pertanyaan yang lebih luas (dan filosofis!) tentang 'mengapa kita mengubah distribusi?' Saya pikir jawabannya adalah bahwa kami memiliki perangkat statistik yang dikembangkan dengan baik untuk membedakan antara distribusi normal, tetapi perangkat yang kurang berkembang untuk distribusi lain, bahkan mungkin distribusi yang tidak disebutkan namanya (mayoritas). Pendekatan untuk mengevaluasi distribusi yang terlihat funky bisa dengan mengambil lognya hanya untuk melihat apakah itu terlihat lebih normal; tetapi seperti yang dijelaskan IrishStat secara teknis di atas, jalan ini penuh dengan bahaya (dari pasak persegi, variasi lubang bundar).

vector07

Ada penjelasan yang relevan dari efek ini dan mengapa itu penting untuk pohon keputusan yang lebih sedikit towardsdatascience.com/...

Keith