Ekonom (seperti saya) menyukai transformasi log. Kami terutama menyukainya dalam model regresi, seperti ini:
lnYi=β1+β2lnXi+ϵi
Mengapa kita sangat menyukainya? Berikut adalah daftar alasan yang saya berikan kepada siswa ketika saya memberi kuliah tentang itu:
- Ini menghormati positif dari . Berkali-kali dalam aplikasi dunia nyata di bidang ekonomi dan di tempat lain , secara alami, Y adalah angka positif. Mungkin harga, tarif pajak, jumlah yang diproduksi, biaya produksi, pengeluaran untuk beberapa kategori barang, dll. Nilai-nilai yang diprediksi dari regresi linier yang tidak diubah mungkin negatif. Nilai-nilai yang diprediksi dari regresi log-transformed tidak pernah bisa negatif. Mereka Y j = exp ( β 1 + β 2 ln X j ) ⋅ 1YY(Lihatjawaban sebelumnya sayauntuk derivasi).Yˆj=exp(β1+β2lnXj)⋅1N∑exp(ei)
- Bentuk fungsional log-log secara mengejutkan fleksibel. Perhatikan:
Yang memberi kita:
Itu banyak bentuk yang berbeda. Garis (yang kemiringannya ditentukan olehexp ( β 1 ) , sehingga dapat memiliki kemiringan positif), hiperbola, parabola, dan bentuk "seperti akar kuadrat". Saya telah menggambarnya denganβ1=0danϵ=0, tetapi dalam aplikasi sebenarnya tidak ada yang benar, sehingga kemiringan dan ketinggian kurva padaX=
lnYiYiYi=β1+β2lnXi+ϵi=exp(β1+β2lnXi)⋅exp(ϵi)=(Xi)β2exp(β1)⋅exp(ϵi)
exp(β1)β1=0ϵ=0 akan dikendalikan oleh mereka daripada ditetapkan pada 1.X=1
- Seperti TrynnaDoStat menyebutkan, bentuk log-log "menarik" nilai-nilai besar yang sering membuat data lebih mudah untuk dilihat dan kadang-kadang menormalkan varians lintas pengamatan.
- Koefisien diartikan sebagai elastisitas. Ini adalah persentase kenaikan Y dari kenaikan satu persen di X .β2YX
- Jika adalah variabel dummy, Anda memasukkannya tanpa mencatatnya. Dalam hal ini, β 2 adalah perbedaan persen dalam Y antara kategori X = 1 dan kategori X = 0 .Xβ2YX=1X=0
- Jika adalah waktu, sekali lagi Anda memasukkannya tanpa mencatatnya, biasanya. Dalam hal ini, β 2 adalah tingkat pertumbuhan dalam Y --- diukur dalam satuan waktu X mana pun yang diukur. Jika X adalah tahun, maka koefisiennya adalah laju pertumbuhan tahunan di Y , misalnya.Xβ2YXXY
- Koefisien kemiringan, , menjadi skala-invarian. Ini berarti, di satu sisi, bahwa ia tidak memiliki satuan, dan, di sisi lain, bahwa jika Anda skala ulang (yaitu mengubah satuan) X atau Y , itu sama sekali tidak akan berpengaruh pada nilai estimasi β 2 . Ya, setidaknya dengan OLS dan penduga terkait lainnya.β2XYβ2
- Jika data Anda terdistribusi secara normal, maka transformasi log membuatnya berdistribusi normal. Data yang terdistribusi normal memiliki banyak hal untuk mereka.
Para ahli statistik umumnya mendapati para ekonom terlalu antusias dengan transformasi data yang khusus ini. Ini, saya pikir, adalah karena mereka menilai poin saya 8 dan paruh kedua poin saya menjadi sangat penting. Jadi, dalam kasus-kasus di mana data tidak terdistribusi secara log-normal atau di mana pencatatan data tidak menghasilkan data yang ditransformasi memiliki varians yang sama di seluruh pengamatan, seorang ahli statistik akan cenderung tidak begitu menyukai transformasi. Ekonom kemungkinan akan terjun ke depan karena apa yang benar-benar kita sukai dari transformasi adalah poin 1,2, dan 4-7.
Pertama mari kita lihat apa yang biasanya terjadi ketika kita mengambil log dari sesuatu yang condong ke kanan.
Baris atas berisi histogram untuk sampel dari tiga distribusi yang berbeda dan semakin miring.
Baris bawah berisi histogram untuk log mereka.
Jika kami ingin distribusi kami terlihat lebih normal, transformasi pasti meningkatkan kasus kedua dan ketiga. Kita dapat melihat bahwa ini dapat membantu.
Jadi mengapa ini berhasil?
Perhatikan bahwa ketika kita melihat gambar bentuk distribusi, kita tidak mempertimbangkan mean atau standar deviasi - yang hanya mempengaruhi label pada sumbu.
Jadi kita bisa membayangkan melihat semacam variabel "standar" (sambil tetap positif, semua memiliki lokasi yang sama dan menyebar, katakanlah)
Mengambil log "menarik" nilai-nilai yang lebih ekstrim di sebelah kanan (nilai tinggi) relatif terhadap median, sedangkan nilai-nilai di paling kiri (nilai-nilai rendah) cenderung ditarik kembali, lebih jauh dari median.
Tetapi ketika kita mengambil kayu, kayu itu akan ditarik kembali ke median; setelah mengambil log itu hanya sekitar 2 rentang interkuartil di atas median.
Bukan kebetulan bahwa rasio 750/150 dan 150/30 keduanya 5 ketika log (750) dan log (30) berakhir dengan jarak yang sama dari median log (y). Begitulah cara kerja log - mengubah rasio konstan menjadi perbedaan konstan.
Tidak selalu halnya bahwa log akan sangat membantu. Sebagai contoh jika Anda mengambil mengatakan variabel acak lognormal dan menggesernya secara substansial ke kanan (yaitu menambahkan konstanta besar untuk itu) sehingga mean menjadi besar relatif terhadap standar deviasi, kemudian mengambil log itu akan membuat perbedaan yang sangat kecil untuk bentuk. Itu akan menjadi kurang miring - tetapi hampir tidak.
Tetapi transformasi lain - akar kuadrat, katakanlah - juga akan menarik nilai besar seperti itu. Mengapa log pada khususnya, lebih populer?
Banyak data ekonomi dan keuangan berperilaku seperti ini, misalnya (efek konstan atau hampir konstan pada skala persentase). Skala log masuk akal dalam hal ini. Selain itu, sebagai akibat dari efek skala-persentase. penyebaran nilai cenderung lebih besar dengan meningkatnya rata-rata - dan mengambil log juga cenderung menstabilkan penyebaran. Itu biasanya lebih penting daripada normalitas. Memang, ketiga distribusi dalam diagram asli berasal dari keluarga di mana deviasi standar akan meningkat dengan rata-rata, dan dalam setiap kasus mengambil log menstabilkan varians. [Tapi ini tidak terjadi dengan data miring yang benar. Ini sangat umum dalam jenis data yang muncul di area aplikasi tertentu.]
Ada juga saat-saat ketika akar kuadrat akan membuat segalanya lebih simetris, tetapi cenderung terjadi dengan distribusi yang kurang miring daripada yang saya gunakan dalam contoh saya di sini.
Kami dapat (cukup mudah) membangun satu set tiga contoh condong kanan yang lebih ringan, di mana akar kuadrat membuat satu condong ke kiri, satu simetris dan yang ketiga masih condong ke kanan (tetapi sedikit kurang condong dari sebelumnya).
Bagaimana dengan distribusi miring kiri?
Jika Anda menerapkan transformasi log ke distribusi simetris, itu akan cenderung membuatnya condong ke kiri karena alasan yang sama sering membuat condong ke kanan menjadi lebih simetris - lihat diskusi terkait di sini .
Sejalan dengan itu, jika Anda menerapkan transformasi log pada sesuatu yang sudah condong ke kiri, itu akan cenderung membuatnya lebih condong ke kiri, menarik hal-hal di atas median menjadi lebih erat, dan meregangkan hal-hal di bawah median ke bawah bahkan lebih keras.
Jadi transformasi log tidak akan membantu saat itu.
Lihat juga transformasi kekuatan / tangga Tukey. Distribusi yang dibiarkan miring dapat dibuat lebih simetris dengan mengambil kekuatan (lebih dari 1 - kuadrat katakan), atau dengan eksponensial. Jika memiliki batas atas yang jelas, seseorang dapat mengurangi pengamatan dari batas atas (memberikan hasil yang condong ke kanan) dan kemudian berusaha untuk mengubah itu.
sumber
Sekarang, dalam distribusi miring kanan Anda memiliki beberapa nilai yang sangat besar. Transformasi log pada dasarnya menggulung nilai-nilai ini ke pusat distribusi sehingga membuatnya lebih mirip distribusi normal.
sumber
Semua jawaban ini adalah nada penjualan untuk transformasi log natural. Ada peringatan untuk penggunaannya, peringatan yang dapat digeneralisasikan untuk setiap dan semua transformasi. Sebagai aturan umum, semua transformasi matematika membentuk kembali PDF dari variabel mentah yang mendasarinya apakah bertindak untuk mengompres, memperluas, membalikkan, mengubah skala, apa pun. Tantangan terbesar ini hadiah dari sudut pandang murni praktis pandang adalah bahwa, bila digunakan dalam model regresi di mana prediksi output model yang kunci, transformasi dari variabel dependen, Y-hat, tunduk pada bias retransformasi yang berpotensi signifikan. Perhatikan bahwa transformasi log alami tidak kebal terhadap bias ini, mereka hanya tidak terkena dampaknya seperti beberapa transformasi akting serupa lainnya. Ada makalah yang menawarkan solusi untuk bias ini tetapi mereka benar-benar tidak berfungsi dengan baik. Menurut pendapat saya, Anda berada di tempat yang lebih aman dan tidak main-main dengan mencoba mengubah Y sama sekali dan menemukan bentuk fungsional yang kuat yang memungkinkan Anda mempertahankan metrik asli. Misalnya, selain log alami, ada transformasi lain yang memampatkan ekor variabel miring dan kurtotic seperti sinus hiperbolik terbalik atau Lambert W. Kedua transformasi ini bekerja sangat baik dalam menghasilkan PDF simetris dan, karena itu, Gaussian-seperti kesalahan, dari informasi yang berat-tailed, tapi hati-hati untuk bias ketika Anda mencoba untuk membawa prediksi kembali ke dalam skala asli untuk DV, Y . Itu bisa jelek.
sumber
Banyak poin menarik telah dibuat. Beberapa lagi?
1) Saya akan menyarankan bahwa masalah lain dengan regresi linier adalah bahwa 'sisi kiri' dari persamaan regresi adalah E (y): nilai yang diharapkan. Jika distribusi kesalahan tidak simetris, maka pantas untuk studi nilai yang diharapkan lemah. Nilai yang diharapkan tidak menjadi perhatian utama ketika kesalahan asimetris. Orang bisa mengeksplorasi regresi kuantil sebagai gantinya. Kemudian studi tentang, katakanlah, median, atau poin persentase lainnya mungkin layak bahkan jika kesalahannya asimetris.
2) Jika seseorang memilih untuk mengubah variabel respons, maka orang mungkin ingin mengubah satu dari lebih dari variabel penjelas dengan fungsi yang sama. Misalnya, jika seseorang memiliki hasil 'final' sebagai respons, maka seseorang mungkin memiliki hasil 'dasar' sebagai variabel penjelas. Untuk interpretasi, masuk akal mentransformasikan 'final' dan 'baseline' dengan fungsi yang sama.
3) Argumen utama untuk mengubah variabel penjelas sering sekitar linearitas hubungan respons-penjelas. Saat ini, seseorang dapat mempertimbangkan opsi lain seperti spline kubik terbatas atau polinomial fraksional untuk variabel penjelas. Tentu ada kejelasan tertentu jika linearitas dapat ditemukan.
sumber