Dalam tulisan ini berjudul "MEMILIH ANTARA MODEL LINEAR UMUM YANG DITERAPKAN UNTUK DATA MEDIS" para penulis menulis:
Dalam model linier umum, rata-rata ditransformasikan, oleh fungsi tautan, alih-alih mengubah respons itu sendiri. Dua metode transformasi dapat menghasilkan hasil yang sangat berbeda; misalnya, rata-rata respons yang ditransformasi-log tidak sama dengan logaritma dari respons rata-rata . Secara umum, yang pertama tidak dapat dengan mudah ditransformasikan menjadi respons yang berarti. Dengan demikian, mentransformasikan rata-rata sering memungkinkan hasil menjadi lebih mudah diinterpretasikan, terutama dalam parameter rata-rata tetap pada skala yang sama dengan respons yang diukur.
Tampaknya mereka menyarankan pemasangan model linier umum (GLM) dengan tautan log daripada model linier (LM) dengan respons log-transformed. Saya tidak memahami kelebihan dari pendekatan ini, dan tampaknya sangat tidak biasa bagi saya.
Variabel respons saya terlihat berdistribusi normal. Saya mendapatkan hasil yang serupa dalam hal koefisien dan kesalahan standar mereka dengan kedua pendekatan.
Masih saya bertanya-tanya: Jika suatu variabel memiliki distribusi log-normal, bukankah rata-rata variabel log-transformed lebih disukai daripada log dari variabel rata-rata yang tidak diubah , karena mean adalah ringkasan alami dari distribusi normal, dan log Variabel -transformed biasanya terdistribusi, sedangkan variabel itu sendiri tidak?
Jawaban:
Meskipun mungkin tampak bahwa rata-rata dari variabel yang ditransformasi-log lebih disukai (karena ini adalah bagaimana log-normal biasanya diparameterisasi), dari sudut pandang praktis, log rata-rata biasanya jauh lebih berguna.
Ini terutama benar ketika model Anda tidak sepenuhnya benar, dan mengutip George Box: "Semua model salah, ada yang berguna"
Misalkan beberapa kuantitas terdistribusi secara normal, tekanan darah mengatakan (Saya bukan petugas medis!), Dan kami memiliki dua populasi, pria dan wanita. Seseorang mungkin berhipotesis bahwa tekanan darah rata-rata lebih tinggi pada wanita daripada pada pria. Ini persis sesuai dengan menanyakan apakah log tekanan darah rata-rata lebih tinggi pada wanita daripada pada pria. Ini tidak sama dengan menanyakan apakah rata-rata tekanan darah log pada wanita lebih tinggi daripada pria .
Jangan bingung dengan parameterisasi buku teks dari distribusi - itu tidak memiliki arti "nyata". Distribusi log-normal diparameterisasi dengan rata-rata log ( ) karena kenyamanan matematis, tetapi sama-sama kita dapat memilih untuk membuat parameter dengan rata-rata dan varians aktualnyaμln
Jelas, melakukan hal itu membuat aljabarnya sangat rumit, tetapi tetap berfungsi dan memiliki arti yang sama.
Melihat formula di atas, kita dapat melihat perbedaan penting antara mentransformasikan variabel dan mentransformasikan mean. Log rata-rata, , meningkat dengan meningkat, sedangkan rata-rata log, tidak.σ 2 ln μ lnln(μ) σ2ln μln
Ini berarti bahwa wanita dapat, secara rata-rata, memiliki tekanan darah lebih tinggi daripada pria, walaupun paramater rata-rata dari distribusi normal log ( ) adalah sama, hanya karena parameter varians lebih besar. Fakta ini akan terjawab oleh tes yang menggunakan log (Tekanan Darah).μln
Sejauh ini, kami mengasumsikan bahwa tekanan darah benar-benar normal. Jika distribusi sebenarnya tidak cukup log normal, maka mengubah data akan (biasanya) membuat segalanya lebih buruk daripada di atas - karena kita tidak akan tahu apa arti sebenarnya dari parameter "berarti" kami. Yaitu kita tidak akan tahu kedua persamaan untuk mean dan varian yang saya berikan di atas adalah benar. Menggunakan mereka untuk mengubah bolak-balik kemudian akan memperkenalkan kesalahan tambahan.
sumber
Berikut adalah dua sen dari kursus analisis data lanjutan yang saya ambil saat mempelajari biostatistik (meskipun saya tidak memiliki referensi selain catatan profesor saya):
Itu bermuara pada apakah Anda perlu mengatasi linearitas dan heteroskedastisitas (varians tidak sama) dalam data Anda, atau hanya linearitas.
Dia mencatat bahwa mentransformasikan data mempengaruhi asumsi linearitas dan varians dari suatu model. Misalnya, jika residu Anda menunjukkan masalah dengan keduanya, Anda dapat mempertimbangkan untuk mengubah data, yang berpotensi dapat memperbaiki keduanya. Transformasi mengubah kesalahan dan variansnya.
Sebaliknya, menggunakan fungsi tautan hanya memengaruhi asumsi linearitas, bukan varians. Log diambil dari nilai rata-rata (nilai yang diharapkan), dan dengan demikian varian residu tidak terpengaruh.
Singkatnya, jika Anda tidak memiliki masalah dengan varians tidak konstan, ia menyarankan menggunakan fungsi tautan alih transformasi, karena Anda tidak ingin mengubah varians Anda dalam kasus itu (Anda sudah memenuhi asumsi).
sumber
Jika respons yang benar tidak simetris (tidak terdistribusi seperti biasa) tetapi respons yang ditransformasikan log adalah normal maka regresi linier pada respons yang diubah digunakan dan koefisien eksponen memberi kita rasio rata-rata geometrik.
Jika respons yang benar adalah simetris (didistribusikan sebagai normal) tetapi hubungan antara penjelas (X) dan respons tidak linier tetapi nilai log diharapkan adalah fungsi linier X maka GLM dengan log link digunakan dan koefisien eksponen memberi kita rasio rata-rata aritmatika
sumber