Mengapa tidak melakukan log-transform semua variabel yang tidak menjadi perhatian utama?

10

Buku dan diskusi sering menyatakan bahwa ketika menghadapi masalah (yang ada beberapa) dengan prediktor, log-transformimg adalah suatu kemungkinan. Sekarang, saya mengerti bahwa ini tergantung pada distribusi dan normalitas dalam prediktor bukan asumsi regresi; tetapi transformasi log tidak membuat data lebih seragam, lebih sedikit terpengaruh oleh outlier dan sebagainya.

Saya berpikir tentang log mentransformasikan semua variabel kontinu saya yang bukan dari interesr utama, yaitu variabel yang hanya saya sesuaikan.

Apakah itu salah? Baik? Tak berguna?

Adam Robinsson
sumber

Jawaban:

24

Sekarang, saya mengerti bahwa ini tergantung pada distribusi dan normalitas dalam prediktor

transformasi log memang membuat data lebih seragam

Sebagai klaim umum, ini salah --- tetapi bahkan jika itu masalahnya, mengapa keseragaman menjadi penting?

Pertimbangkan, misalnya,

i) prediktor biner yang hanya mengambil nilai 1 dan 2. Mengambil log akan menjadikannya sebagai prediktor biner yang hanya mengambil nilai 0 dan log 2. Tidak benar-benar memengaruhi apa pun kecuali intersep dan penskalaan istilah yang melibatkan prediktor ini. Bahkan nilai p dari prediktor tidak akan berubah, seperti halnya nilai yang dipasang.

masukkan deskripsi gambar di sini

ii) mempertimbangkan prediktor condong ke kiri. Sekarang ambil log. Biasanya menjadi lebih condong ke kiri.

masukkan deskripsi gambar di sini

iii) data yang seragam menjadi condong ke kiri

masukkan deskripsi gambar di sini

(Meskipun demikian, sering kali perubahan tidak selalu ekstrem)

kurang terpengaruh oleh outlier

Sebagai klaim umum, ini salah. Pertimbangkan outlier rendah dalam suatu prediksi.

masukkan deskripsi gambar di sini

Saya berpikir tentang log mentransformasikan semua variabel kontinu saya yang tidak menarik

Ke ujung Apa? Jika awalnya hubungan itu linier, mereka tidak akan lagi.

masukkan deskripsi gambar di sini

Dan jika mereka sudah melengkung, melakukan ini secara otomatis mungkin membuat mereka lebih buruk (lebih melengkung), tidak lebih baik.

-

Mengambil catatan prediktor (baik yang menarik atau tidak) terkadang cocok, tetapi tidak selalu demikian.

Glen_b -Reinstate Monica
sumber
2
Terima kasih banyak atas jawaban yang luar biasa ini. Saya pikir banyak dari kita, setidaknya saya, perlu melihatnya divisualisasikan dengan cara ini. Tetapi apakah Anda juga setuju bahwa data yang condong ke kanan harus mengalami transformasi log? Lebih dari condong dan bentuk lainnya?
Adam Robinsson
1
Tidak secara umum, tidak. Dalam beberapa kondisi yang sangat spesifik, mungkin.
Glen_b -Reinstate Monica
Saya juga terkejut melihat bahwa tidak ada yang menyebutkan interpretabilitas model. Jika Anda log mengubah Anda variabel dependen, itu menjadi sedikit lebih sulit untuk menafsirkan model - terutama untuk orang awam atau mereka yang tidak memiliki latar belakang statistik / matematika. Sebagai contoh, katakanlah Anda memiliki model yang memperkirakan ketinggian pohon dalam ft. Diberikan keliling batang dalam inci. Interpretasi dari sedang, untuk peningkatan satu inci pada keliling, tinggi rata-rata pohon bertambah dengan log setengah kaki lebih rumit (lanjutan)β^=0,50
StatsStudent
(tidak bisa) daripada bisa mengatakan, misalnya, untuk peningkatan satu inci dalam jumlah keliling lingkaran, ketinggian rata-rata pohon meningkat setengah kaki. Nanti lebih mudah untuk ditafsirkan dan lebih mudah untuk menghitung di lapangan tanpa kalkulator.
StatsStudent
10

Menurut pendapat saya, tidak masuk akal untuk melakukan transformasi log (dan transformasi data apa pun , dalam hal ini) hanya untuk kepentingan itu. Seperti jawaban sebelumnya yang disebutkan, tergantung pada data, beberapa transformasi mungkin tidak valid , atau tidak berguna . Saya sangat menyarankan Anda untuk membaca materi pengantar IMHO bagus tentang transformasi data : http://fmwww.bc.edu/repec/bocode/t/transint.html . Harap perhatikan bahwa contoh kode dalam dokumen ini ditulis dalam bahasa Stata , tetapi sebaliknya dokumen tersebut cukup umum dan, karenanya, bermanfaat bagi pengguna non-Stata juga.

Beberapa teknik dan alat sederhana untuk menangani masalah umum terkait data , seperti kurangnya normalitas , pencilan , dan distribusi campuran dapat ditemukan dalam artikel ini (perhatikan, bahwa stratifikasi sebagai pendekatan untuk menangani distribusi campuran kemungkinan besar merupakan yang paling sederhana - pendekatan yang lebih umum dan kompleks untuk ini adalah analisis campuran , juga dikenal sebagai model campuran hingga , deskripsi yang berada di luar cakupan jawaban ini). Transformasi Box-Cox, disebutkan secara singkat dalam dua referensi di atas, adalah transformasi data yang agak penting, terutama untuk data yang tidak normal (dengan beberapa peringatan). Untuk detail lebih lanjut tentang transformasi Box-Cox, silakan lihat artikel pengantar ini .

Aleksandr Blekh
sumber
2
Referensi hebat Aleksandr. Terima kasih telah berbagi skeptisisme yang sangat dibutuhkan itu. Terima kasih.
Adam Robinsson
1
@AdamRobinsson: Dengan senang hati, Adam! Senang Anda menyukai jawaban saya.
Aleksandr Blekh
8

Transformasi log tidak SELALU membuat segalanya lebih baik. Jelas, Anda tidak bisa log-mentransformasikan variabel yang mencapai nilai nol atau negatif, dan bahkan yang positif yang memeluk nol bisa keluar dengan outlier negatif jika log-transformed.

Anda seharusnya tidak hanya mencatat semuanya secara rutin, tetapi merupakan praktik yang baik untuk BERPIKIR tentang mengubah prediktor positif yang dipilih (yang sesuai, sering kali berupa log tetapi mungkin hal lain) sebelum memasang model. Hal yang sama berlaku untuk variabel respons. Pengetahuan subjek juga penting. Beberapa teori dari fisika atau sosiologi atau apa pun mungkin secara alami mengarah pada transformasi tertentu. Secara umum, jika Anda melihat variabel yang condong positif, di situlah log (atau mungkin akar kuadrat atau timbal balik) dapat membantu.

Beberapa teks regresi menunjukkan bahwa Anda harus melihat plot diagnostik sebelum mempertimbangkan perubahan apa pun, tetapi saya tidak setuju. Saya pikir lebih baik melakukan pekerjaan terbaik yang Anda bisa dalam membuat pilihan ini sebelum memasang model apa pun, sehingga Anda memiliki titik awal terbaik; kemudian lihat diagnostik untuk melihat apakah Anda perlu menyesuaikan dari sana.

Russ Lenth
sumber
Semua menambahkan bahwa pertimbangan ini berlaku untuk prediktor yang penting dan tidak penting.
Russ Lenth
Terima kasih @ rvl! Saya selalu bingung dengan perbedaan antara kapan dan bagaimana memilih transformasi; buku sering menyatakan bahwa, seperti yang Anda tulis, Anda perlu memeriksa bentuk semua variabel sebelum menyentuh regresi. Terima kasih telah memberikan wawasan Anda.
Adam Robinsson
@ rvl, terima kasih atas jawaban Anda. Apakah Anda log-mengubah snoqdataset di utas CrossValidated ini (mengingat tujuannya adalah agar sesuai dengan campuran Gaussians)?
Zhubarb
-3

1) menghitung data (y> 0) -> log (y) atau y = exp (b0 + biXi) 2) menghitung data + nol (y> = 0) -> model rintangan (binomial + count reg.) 3) semua efek multikplastik (& kesalahan) akan menjadi aditif 4) varians ~ rata -> log (y) atau y = exp (b0 + biXi) 5) ...

Ivan Kshnyasev
sumber
Jawaban ini sulit dibaca dan tidak jelas apakah ia mencoba menjawab pertanyaan.
Juho Kokkala
1
TEX