Kembali mentransformasikan hasil regresi saat memodelkan log (y)

11

Saya menyesuaikan regresi pada . Apakah valid untuk mendukung estimasi titik transformasi (dan interval kepercayaan / prediksi) dengan eksponensial? Saya tidak percaya begitu, karena tetapi menginginkan pendapat orang lain.E [ f ( X ) ] f ( E [ X ] )log(y)E[f(X)]f(E[X])

Contoh saya di bawah ini menunjukkan konflik dengan transformasi balik (.239 vs .219).

set.seed(123)

a=-5
b=2

x=runif(100,0,1)
y=exp(a*x+b+rnorm(100,0,.2))
# plot(x,y)

### NLS Fit
f <- function(x,a,b) {exp(a*x+b)} 
fit <- nls(y ~ exp(a*x+b),  start = c(a=-10, b=15)) 
co=coef(fit)
# curve(f(x=x, a=co[1], b=co[2]), add = TRUE,col=2,lwd=1.2) 
predict(fit,newdata=data.frame(x=.7))
[1] 0.2393773

### LM Fit
# plot(x,log(y))
# abline(lm(log(y)~x),col=2)
fit=lm(log(y)~x)
temp=predict(fit,newdata=data.frame(x=.7),interval='prediction')
exp(temp)
        fit       lwr       upr
1 0.2199471 0.1492762 0.3240752
Lembah kecil
sumber
1
Apakah ini bukan salah satu masalah yang dipecahkan oleh GLM gaussian log-linked?
generic_user
@ARM Ya saya percaya begitu. Terima kasih telah menunjukkannya. Namun menggunakan GLM lebih sulit untuk mendapatkan interval prediksi tapi saya pikir saya bisa menyelesaikannya.
Glen
1
@Glen Lakukan pencarian untuk mengolesi Duan di situs ini.
Dimitriy V. Masterov

Jawaban:

13

Itu tergantung pada apa yang ingin Anda peroleh di ujung yang lain.

Interval kepercayaan untuk parameter yang ditransformasikan mentransformasikannya dengan baik. Jika memiliki cakupan nominal pada skala log, maka akan memiliki cakupan yang sama kembali pada skala asli, karena monotonitas transformasi.

Interval prediksi untuk pengamatan di masa depan juga mentransformasikannya dengan baik.

Interval untuk rata-rata pada skala log umumnya tidak akan menjadi interval yang cocok untuk rata-rata pada skala asli.

Namun, kadang-kadang Anda dapat secara tepat atau sekitar menghasilkan estimasi yang masuk akal untuk rata-rata pada skala asli dari model pada skala log.

Namun, perawatan diperlukan atau Anda mungkin menghasilkan perkiraan yang memiliki sifat yang agak mengejutkan (mungkin untuk menghasilkan perkiraan yang tidak memiliki populasi rata-rata misalnya; ini bukan ide semua orang tentang hal yang baik).

Jadi misalnya, dalam kasus lognormal, ketika Anda berekspresi kembali, Anda memiliki perkiraan , dan Anda mungkin mencatat bahwa rata-rata populasi adalah , jadi Anda mungkin berpikir untuk meningkatkan dengan menskalakannya dengan beberapa perkiraan .exp ( μ i + 1exp(μi)exp( ^ μ i )exp(1exp(μi+12σ2)exp(μi^)exp(12σ2)

Orang setidaknya harus bisa mendapatkan estimasi yang konsisten dan memang beberapa asimtotik distribusi melalui teorema Slutsky (khususnya bentuk produk) selama seseorang dapat secara konsisten memperkirakan penyesuaian. Teorema pemetaan berkelanjutan mengatakan bahwa Anda dapat jika Anda dapat memperkirakan secara konsisten ... yang merupakan kasusnya.σ2

Jadi selama adalah penaksir yang konsisten dari , maka konvergen dalam distribusi ke distribusi (yang dengan inspeksi kemudian akan didistribusikan secara asimptotik secara lognormal. ). Karena akan konsisten untuk , bu teorema pemetaan berkelanjutan, akan konsisten untuk , dan karenanya kami memiliki penduga yang konsisten dari berarti pada skala aslinya.σ2exp( ^ μ i )exp(1σ^2σ2exp(μi^)exp(12σ^2) ^ μ i μiexp( ^ μ i )exp(μi)exp(μi^)exp(12σ2)μi^μiexp(μi^)exp(μi)

Lihat di sini .

Beberapa pos terkait:

Kembali transformasi model MLR

Kembali Transformasi

Interval kepercayaan kembali ditransformasikan

Glen_b -Reinstate Monica
sumber
1
Terima kasih, saya melihat posting sebelumnya dan, sementara mencerahkan, masih agak bingung, maka pertanyaan saya.
Glen
+1 Jawaban bagus! Hanya klarifikasi cepat: Dari mana berasal sebagai scaler untuk ? Saya melihatnya dalam definisi lognormal di Wikipedia tetapi tidak dijelaskan di sana juga, apakah itu hanya mengintegrasikan maksud dari PDF? 12σ2^
usεr11852
1
Anda harus bisa mendapatkannya hanya dengan langsung mengintegrasikan: mana adalah kepadatan untuk lognormal, tetapi mungkin lebih mudah dilakukan dengan menghitung untuk normal (di mana ), tetapi mungkin lebih baik untuk menemukan MGF untuk - yang tidak lebih sulit - dan dari saat-saat untuk sangat mudah diperoleh (dengan mengganti oleh pada gilirannya), pada dasarnya mendapatkan momen yang lebih tinggi secara gratis. f E ( e X ) X = log Y X Y t 1 , 2 , . . .E(Y)=0yf(y)dyfE(eX)X=logYXYt1,2,...
Glen_b -Reinstate Monica
1
exetxe...x12
1
teμt+12σ2t2