Apa alasan transformasi log digunakan dengan distribusi yang condong ke kanan?

18

Saya pernah mendengar itu

transformasi log adalah yang paling populer untuk distribusi yang condong ke kanan dalam regresi linier atau regresi kuantil

Saya ingin tahu apakah ada alasan yang mendasari pernyataan ini? Mengapa transformasi log cocok untuk distribusi yang condong ke kanan?

Bagaimana dengan distribusi miring kiri?

pengguna3269
sumber

Jawaban:

26

Ekonom (seperti saya) menyukai transformasi log. Kami terutama menyukainya dalam model regresi, seperti ini:

lnYi=β1+β2lnXi+ϵi

Mengapa kita sangat menyukainya? Berikut adalah daftar alasan yang saya berikan kepada siswa ketika saya memberi kuliah tentang itu:

  1. Ini menghormati positif dari . Berkali-kali dalam aplikasi dunia nyata di bidang ekonomi dan di tempat lain , secara alami, Y adalah angka positif. Mungkin harga, tarif pajak, jumlah yang diproduksi, biaya produksi, pengeluaran untuk beberapa kategori barang, dll. Nilai-nilai yang diprediksi dari regresi linier yang tidak diubah mungkin negatif. Nilai-nilai yang diprediksi dari regresi log-transformed tidak pernah bisa negatif. Mereka Y j = exp ( β 1 + β 2 ln X j )1YY(Lihatjawaban sebelumnya sayauntuk derivasi).Y^j=exp(β1+β2lnXj)1Nexp(ei)
  2. Bentuk fungsional log-log secara mengejutkan fleksibel. Perhatikan: Yang memberi kita: Itu banyak bentuk yang berbeda. Garis (yang kemiringannya ditentukan olehexp ( β 1 ) , sehingga dapat memiliki kemiringan positif), hiperbola, parabola, dan bentuk "seperti akar kuadrat". Saya telah menggambarnya denganβ1=0danϵ=0, tetapi dalam aplikasi sebenarnya tidak ada yang benar, sehingga kemiringan dan ketinggian kurva padaX=
    lnYi=β1+β2lnXi+ϵiYi=exp(β1+β2lnXi)exp(ϵi)Yi=(Xi)β2exp(β1)exp(ϵi)
    Mencintai bentuk fungsional log-logexp(β1)β1=0ϵ=0 akan dikendalikan oleh mereka daripada ditetapkan pada 1.X=1
  3. Seperti TrynnaDoStat menyebutkan, bentuk log-log "menarik" nilai-nilai besar yang sering membuat data lebih mudah untuk dilihat dan kadang-kadang menormalkan varians lintas pengamatan.
  4. Koefisien diartikan sebagai elastisitas. Ini adalah persentase kenaikan Y dari kenaikan satu persen di X .β2YX
  5. Jika adalah variabel dummy, Anda memasukkannya tanpa mencatatnya. Dalam hal ini, β 2 adalah perbedaan persen dalam Y antara kategori X = 1 dan kategori X = 0 .Xβ2YX=1X=0
  6. Jika adalah waktu, sekali lagi Anda memasukkannya tanpa mencatatnya, biasanya. Dalam hal ini, β 2 adalah tingkat pertumbuhan dalam Y --- diukur dalam satuan waktu X mana pun yang diukur. Jika X adalah tahun, maka koefisiennya adalah laju pertumbuhan tahunan di Y , misalnya.Xβ2YXXY
  7. Koefisien kemiringan, , menjadi skala-invarian. Ini berarti, di satu sisi, bahwa ia tidak memiliki satuan, dan, di sisi lain, bahwa jika Anda skala ulang (yaitu mengubah satuan) X atau Y , itu sama sekali tidak akan berpengaruh pada nilai estimasi β 2 . Ya, setidaknya dengan OLS dan penduga terkait lainnya.β2XYβ2
  8. Jika data Anda terdistribusi secara normal, maka transformasi log membuatnya berdistribusi normal. Data yang terdistribusi normal memiliki banyak hal untuk mereka.

Para ahli statistik umumnya mendapati para ekonom terlalu antusias dengan transformasi data yang khusus ini. Ini, saya pikir, adalah karena mereka menilai poin saya 8 dan paruh kedua poin saya menjadi sangat penting. Jadi, dalam kasus-kasus di mana data tidak terdistribusi secara log-normal atau di mana pencatatan data tidak menghasilkan data yang ditransformasi memiliki varians yang sama di seluruh pengamatan, seorang ahli statistik akan cenderung tidak begitu menyukai transformasi. Ekonom kemungkinan akan terjun ke depan karena apa yang benar-benar kita sukai dari transformasi adalah poin 1,2, dan 4-7.

Tagihan
sumber
7
Ini adalah poin standar tetapi sangat bagus untuk menyatukannya secara ringkas. Banyak akun hanya membahas beberapa poin ini. Poin kecil: Saya pikir kontras Anda antara sikap ekonom dan sikap ahli statistik sedikit berlebihan. Sebagai contoh, pentingnya link over error dijalankan melalui literatur model linier umum, meskipun bisa dilakukan dengan lebih banyak trumpeting. Keene, Oliver N. 1995. Transformasi log adalah spesial. Statistik dalam Kedokteran 14: 811-819. DOI: 10.1002 / sim.4780140810 adalah contoh lain.
Nick Cox
21

Pertama mari kita lihat apa yang biasanya terjadi ketika kita mengambil log dari sesuatu yang condong ke kanan.

Baris atas berisi histogram untuk sampel dari tiga distribusi yang berbeda dan semakin miring.

Baris bawah berisi histogram untuk log mereka.

masukkan deskripsi gambar di sini

yxz

Jika kami ingin distribusi kami terlihat lebih normal, transformasi pasti meningkatkan kasus kedua dan ketiga. Kita dapat melihat bahwa ini dapat membantu.


Jadi mengapa ini berhasil?

Perhatikan bahwa ketika kita melihat gambar bentuk distribusi, kita tidak mempertimbangkan mean atau standar deviasi - yang hanya mempengaruhi label pada sumbu.

Jadi kita bisa membayangkan melihat semacam variabel "standar" (sambil tetap positif, semua memiliki lokasi yang sama dan menyebar, katakanlah)

Mengambil log "menarik" nilai-nilai yang lebih ekstrim di sebelah kanan (nilai tinggi) relatif terhadap median, sedangkan nilai-nilai di paling kiri (nilai-nilai rendah) cenderung ditarik kembali, lebih jauh dari median.

masukkan deskripsi gambar di sini

xyz

y

Tetapi ketika kita mengambil kayu, kayu itu akan ditarik kembali ke median; setelah mengambil log itu hanya sekitar 2 rentang interkuartil di atas median.

y

masukkan deskripsi gambar di sini

Bukan kebetulan bahwa rasio 750/150 dan 150/30 keduanya 5 ketika log (750) dan log (30) berakhir dengan jarak yang sama dari median log (y). Begitulah cara kerja log - mengubah rasio konstan menjadi perbedaan konstan.

Tidak selalu halnya bahwa log akan sangat membantu. Sebagai contoh jika Anda mengambil mengatakan variabel acak lognormal dan menggesernya secara substansial ke kanan (yaitu menambahkan konstanta besar untuk itu) sehingga mean menjadi besar relatif terhadap standar deviasi, kemudian mengambil log itu akan membuat perbedaan yang sangat kecil untuk bentuk. Itu akan menjadi kurang miring - tetapi hampir tidak.


Tetapi transformasi lain - akar kuadrat, katakanlah - juga akan menarik nilai besar seperti itu. Mengapa log pada khususnya, lebih populer?

-0,162

Banyak data ekonomi dan keuangan berperilaku seperti ini, misalnya (efek konstan atau hampir konstan pada skala persentase). Skala log masuk akal dalam hal ini. Selain itu, sebagai akibat dari efek skala-persentase. penyebaran nilai cenderung lebih besar dengan meningkatnya rata-rata - dan mengambil log juga cenderung menstabilkan penyebaran. Itu biasanya lebih penting daripada normalitas. Memang, ketiga distribusi dalam diagram asli berasal dari keluarga di mana deviasi standar akan meningkat dengan rata-rata, dan dalam setiap kasus mengambil log menstabilkan varians. [Tapi ini tidak terjadi dengan data miring yang benar. Ini sangat umum dalam jenis data yang muncul di area aplikasi tertentu.]

Ada juga saat-saat ketika akar kuadrat akan membuat segalanya lebih simetris, tetapi cenderung terjadi dengan distribusi yang kurang miring daripada yang saya gunakan dalam contoh saya di sini.

Kami dapat (cukup mudah) membangun satu set tiga contoh condong kanan yang lebih ringan, di mana akar kuadrat membuat satu condong ke kiri, satu simetris dan yang ketiga masih condong ke kanan (tetapi sedikit kurang condong dari sebelumnya).


Bagaimana dengan distribusi miring kiri?

Jika Anda menerapkan transformasi log ke distribusi simetris, itu akan cenderung membuatnya condong ke kiri karena alasan yang sama sering membuat condong ke kanan menjadi lebih simetris - lihat diskusi terkait di sini .

Sejalan dengan itu, jika Anda menerapkan transformasi log pada sesuatu yang sudah condong ke kiri, itu akan cenderung membuatnya lebih condong ke kiri, menarik hal-hal di atas median menjadi lebih erat, dan meregangkan hal-hal di bawah median ke bawah bahkan lebih keras.

Jadi transformasi log tidak akan membantu saat itu.

Lihat juga transformasi kekuatan / tangga Tukey. Distribusi yang dibiarkan miring dapat dibuat lebih simetris dengan mengambil kekuatan (lebih dari 1 - kuadrat katakan), atau dengan eksponensial. Jika memiliki batas atas yang jelas, seseorang dapat mengurangi pengamatan dari batas atas (memberikan hasil yang condong ke kanan) dan kemudian berusaha untuk mengubah itu.

Glen_b -Reinstate Monica
sumber
Glen_b terima kasih atas jawaban yang luar biasa ini. Anda memberi kami data empiris untuk diilustrasikan dan kemudian memberikan penjelasan intuitif mengapa / bagaimana transformasi ini bekerja. Sangat dihargai.
Ram
5

y=ln(x)x-aksis relatif lebih kecil pada sumbu y.

http://www.librow.com/content/common/images/articles/article-11/graph-ln.gif

Sekarang, dalam distribusi miring kanan Anda memiliki beberapa nilai yang sangat besar. Transformasi log pada dasarnya menggulung nilai-nilai ini ke pusat distribusi sehingga membuatnya lebih mirip distribusi normal.

TrynnaDoStat
sumber
1

Semua jawaban ini adalah nada penjualan untuk transformasi log natural. Ada peringatan untuk penggunaannya, peringatan yang dapat digeneralisasikan untuk setiap dan semua transformasi. Sebagai aturan umum, semua transformasi matematika membentuk kembali PDF dari variabel mentah yang mendasarinya apakah bertindak untuk mengompres, memperluas, membalikkan, mengubah skala, apa pun. Tantangan terbesar ini hadiah dari sudut pandang murni praktis pandang adalah bahwa, bila digunakan dalam model regresi di mana prediksi output model yang kunci, transformasi dari variabel dependen, Y-hat, tunduk pada bias retransformasi yang berpotensi signifikan. Perhatikan bahwa transformasi log alami tidak kebal terhadap bias ini, mereka hanya tidak terkena dampaknya seperti beberapa transformasi akting serupa lainnya. Ada makalah yang menawarkan solusi untuk bias ini tetapi mereka benar-benar tidak berfungsi dengan baik. Menurut pendapat saya, Anda berada di tempat yang lebih aman dan tidak main-main dengan mencoba mengubah Y sama sekali dan menemukan bentuk fungsional yang kuat yang memungkinkan Anda mempertahankan metrik asli. Misalnya, selain log alami, ada transformasi lain yang memampatkan ekor variabel miring dan kurtotic seperti sinus hiperbolik terbalik atau Lambert W. Kedua transformasi ini bekerja sangat baik dalam menghasilkan PDF simetris dan, karena itu, Gaussian-seperti kesalahan, dari informasi yang berat-tailed, tapi hati-hati untuk bias ketika Anda mencoba untuk membawa prediksi kembali ke dalam skala asli untuk DV, Y . Itu bisa jelek.

Mike Hunter
sumber
3
Ini sepertinya berakhir dengan fokus pada apa yang harus dilakukan dengan distribusi berekor berat (oleh kurtotik yang Anda maksud adalah memiliki kurtosis tinggi). Saya pikir Anda perlu menjelaskan bagaimana itu terkait dengan pertanyaan. Begitu pula dengan cara LambertWberkaitan dengan pertanyaan tidak jelas. Saya tidak mengerti bagaimana bias transformasi kurang menjadi masalah yang mungkin untuk transformasi logaritmik daripada untuk transformasi terkait (yang mana?) Seperti dalam hal ini dan dalam hal lain logaritmik berperilaku seperti yang Anda harapkan sebagai anggota keluarga yang lebih luas, karena contoh menjadi perantara yang berlaku antara akar kuadrat dan timbal balik.
Nick Cox
3
Kita semua puas dengan berbagai aspek peraturan, tetapi banyak dari kita terus berinteraksi di sini karena kita telah melihat kebijaksanaan mereka dan telah menemukan cara konstruktif untuk mengatasi batasan yang jelas. Aturan ini sangat mendasar: pos yang tidak menjawab pertanyaan bukan milik. Ia cenderung menjaga setiap utas koheren, terbatas, bersih, dan sesuai topik. Ini adalah kunci untuk membuat materi yang cenderung lebih bermanfaat dan menarik daripada yang akan Anda temukan di situs tanya jawab lainnya.
whuber
3
Anda telah bermain-main dengan ini tetapi dalam pandangan saya itu tetap sangat bermasalah sebagai jawaban. 1. Anda memperluas pertanyaan dengan beberapa cara, misalnya dengan membawa distribusi berekor berat juga. Itu bisa menjadi hal yang wajar untuk dilakukan di beberapa utas, tetapi di sini ada utas yang terfokus dengan jawaban berkualitas tinggi dan jawaban ekstra di sini adalah pada umumnya mengeruhkan air. Ketika ada jawaban yang baik untuk suatu pertanyaan, pasti ada alasan yang sangat bagus untuk jawaban yang baru.
Nick Cox
4
2. Pernyataan tentang bias transformasi tetap melambaikan tangan; tidak ada ketepatan teknis untuk jawaban yang cocok dengan klaim, termasuk pernyataan misterius bahwa log kurang bermasalah daripada transformasi serupa lainnya.
Nick Cox
4
3. Detail tentang Lambert's Wtetap samar. Secara lebih luas, pesannya adalah bahwa transformasi meragukan kecuali bahwa asinh dan Lambert bisa baik. Ini tampaknya kontradiktif dan tidak dijelaskan dengan baik. Anda jelas sangat berpengetahuan tetapi ini membutuhkan gaya ekspositor yang lebih lurus untuk menjadi berharga. Karenanya saya tidak bisa memperbaiki ini dengan hati nurani yang baik. Keputusan Anda sebelumnya untuk menghapusnya lebih baik dalam pandangan saya. Di sini dan di tempat lain saya tidak berpikir Anda cukup menangkap gaya CV: tidak ada resep yang kaku tetapi jawaban harus difokuskan; cerewet, posting diskursif biasanya tidak cocok.
Nick Cox
0

Banyak poin menarik telah dibuat. Beberapa lagi?

1) Saya akan menyarankan bahwa masalah lain dengan regresi linier adalah bahwa 'sisi kiri' dari persamaan regresi adalah E (y): nilai yang diharapkan. Jika distribusi kesalahan tidak simetris, maka pantas untuk studi nilai yang diharapkan lemah. Nilai yang diharapkan tidak menjadi perhatian utama ketika kesalahan asimetris. Orang bisa mengeksplorasi regresi kuantil sebagai gantinya. Kemudian studi tentang, katakanlah, median, atau poin persentase lainnya mungkin layak bahkan jika kesalahannya asimetris.

2) Jika seseorang memilih untuk mengubah variabel respons, maka orang mungkin ingin mengubah satu dari lebih dari variabel penjelas dengan fungsi yang sama. Misalnya, jika seseorang memiliki hasil 'final' sebagai respons, maka seseorang mungkin memiliki hasil 'dasar' sebagai variabel penjelas. Untuk interpretasi, masuk akal mentransformasikan 'final' dan 'baseline' dengan fungsi yang sama.

3) Argumen utama untuk mengubah variabel penjelas sering sekitar linearitas hubungan respons-penjelas. Saat ini, seseorang dapat mempertimbangkan opsi lain seperti spline kubik terbatas atau polinomial fraksional untuk variabel penjelas. Tentu ada kejelasan tertentu jika linearitas dapat ditemukan.

Gordon Hilton Fick
sumber