Perangkap yang harus dihindari saat mengubah data?

15

Saya mencapai hubungan linier yang kuat antara variabel dan Y saya setelah mengubah responsnya. Modelnya adalah Y X tetapi saya mengubahnya menjadi XYYX meningkatkanR2dari 0,19 ke 0,76.YXXR2

Jelas saya melakukan beberapa operasi yang layak pada hubungan ini. Adakah yang bisa mendiskusikan kesulitan melakukan hal ini, seperti bahaya transformasi berlebihan atau kemungkinan pelanggaran prinsip statistik?

Info5ek
sumber
1
Dari apa yang Anda miliki, dari aljabar sendiri sepertinya hanya . Bisakah Anda memposting data atau menampilkan grafik? Adakah alasan ilmiah untuk mengharapkan Y = 0 saat X = 0 ? YX2Y=0X=0
Nick Cox
1
@NickCox: Saya pikir adalah notasi konvensional untuk E Y = β 0 + β 1 X ; mungkin OP berbicara R daripada matematika (sesuatu yang tentu saja tidak dianjurkan). YXEY=β0+β1X
Scortchi
@Scortchi Saya khawatir Anda benar. Melihat data akan membantu.
Nick Cox
Dalam hal ini, 0 X akan menyiratkan 0 Y karena Y menyebabkan kematian dan X adalah total KM yang dikemudikan oleh semua pengemudi.
Info5ek
2
@ AaronHall Persamaannya tidak selalu sia - sia, karena (dikalikan kembali dengan ituX, yang mungkin merupakan model yang berpotensi masuk akal dalam beberapa situasi). NamunR2pada bentuk persamaan yang diberikan dalam pertanyaan tidak banyak digunakan Anda tidak dapat membandingkannya dengan sesuatu yang dipasang pada skala yang berbeda. (Kebetulan, jika itu adalah jawaban Anda pada jawaban saya, penjelasan tentang apa yang menurut Anda salah dalam jawaban akan berguna.)Y=β0X+β1X+XϵR2
Glen_b -Reinstate Monica

Jawaban:

20

Anda tidak dapat benar-benar membandingkan sebelum dan sesudah, karena variabilitas yang mendasari dalam Y berbeda. Jadi Anda benar-benar tidak dapat merasa nyaman apa pun dari perubahan R 2 . Itu memberi tahu Anda apa-apa yang berharga dalam membandingkan kedua model.R2YR2

Kedua model berbeda dalam beberapa hal, sehingga mereka memiliki arti yang berbeda - mereka mengasumsikan hal-hal yang sangat berbeda tentang bentuk hubungan dan variabilitas dari istilah kesalahan (ketika dipertimbangkan dalam hal hubungan antara dan X ). Jadi jika Anda tertarik untuk memodelkan Y (jika Y itu sendiri bermakna), buatlah model yang bagus untuk itu. Jika Anda tertarik dalam pemodelanYXYY (/Y bermakna), menghasilkan model yang bagus untuk itu. JikaY membawa makna, lalu buat model yang bagus untuk itu. Tetapi bandingkan setiap model yang bersaing pada skala yang sebanding. R2pada respon yang berbeda hanya tidak sebanding.Y/XR2

Jika Anda hanya mencoba hubungan yang berbeda dengan harapan menemukan transformasi dengan tinggi - atau ukuran 'kecocokan' lainnya - properti dari setiap kesimpulan yang mungkin ingin Anda lakukan akan dipengaruhi oleh keberadaan proses pencarian itu.R2

Estimasi akan cenderung bias jauh dari nol, kesalahan standar akan terlalu kecil, nilai-p akan terlalu kecil, interval kepercayaan terlalu sempit. Model Anda rata-rata akan tampak 'terlalu baik' (dalam arti bahwa perilaku out-of-sample mereka akan mengecewakan dibandingkan dengan perilaku in-sample).

Untuk menghindari overfitting semacam ini, Anda perlu, jika mungkin, untuk melakukan identifikasi model dan estimasi pada himpunan bagian data yang berbeda (dan evaluasi model pada sepertiga). Jika Anda mengulangi prosedur semacam ini pada banyak "pemisahan" dari data yang diambil secara acak, Anda mendapatkan pemahaman yang lebih baik tentang bagaimana hasil Anda dapat direproduksi.

Ada banyak posting di sini dengan poin yang relevan tentang masalah ini: mungkin ada baiknya mencoba beberapa pencarian.

(Jika Anda memiliki alasan apriori yang baik untuk memilih transformasi tertentu, itu masalah yang berbeda. Tetapi mencari ruang transformasi untuk menemukan sesuatu yang cocok membawa semua jenis masalah 'pengintai data' dengannya.)

Glen_b -Reinstate Monica
sumber
Terima kasih atas tanggapannya Glen. Alasan saya melakukan transformasi ini adalah karena itu satu-satunya yang tidak memberi saya bias residual. Saya mencoba standar y / x, log (y), sqrt (y) dan berbagai kombinasi dari mereka. Semua menghasilkan plot residu yang miring. Hanya setelah melakukan transformasi dua tahap, saya mendapatkan residu yang muncul secara acak. Namun Anda menyatakan bahwa model ini berpotensi tidak informatif untuk data out-of-sample karena saya mungkin hanya menyesuaikan data, benar?
Info5ek
Ya, tapi itu masalah dengan segala bentuk model-spesifikasi ketika melihat data, jadi itu sering terjadi. Dalam banyak situasi sulit untuk dihindari, di mana pemisahan sampel dapat terjadi. (Validasi silang dapat menjadi alat yang berguna untuk situasi seperti itu.)
Glen_b -Reinstate Monica
Akan bermanfaat untuk mengetahui alasan downvote. Apa yang salah dengan jawabannya? Mungkin bisa diperbaiki. (Jika tidak dapat diperbaiki, mengapa downvote?)
Glen_b -Reinstate Monica
1
@Glen_b: Tricky untuk memvalidasi silang prosedur yang tidak jelas - di setiap lipatan Anda harus mengulangi proses melihat diagnosa, memikirkan transformasi lain ketika Anda tidak menyukainya, mencobanya, & sebagainya.
Scortchi
1
@Scortchi Ya, jika transformasi tidak dipilih dari kumpulan kandidat yang diketahui oleh beberapa aturan sederhana, mungkin tidak mungkin.
Glen_b -Reinstate Monica
16

Ada masalah yang lebih besar daripada yang diidentifikasi oleh @Glen_b.

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

Dan saya mendapatkan dari 0,49 dan nilai-P yaitu 5,5 × 10 - 16 .R25.5×1016

Anda memiliki di kedua sisi persamaan.X

Peter Flom - Pasang kembali Monica
sumber
2
Tidak yakin itu masalah yang berbeda untuk tidak memiliki alasan apriori yang baik untuk mengekspresikan model satu arah daripada yang lain. Jika Anda membiarkan &Z=W=YXZ=X then you can just as well say that the first model (YX) has Z2 on both sides of the equation.
Scortchi - Reinstate Monica
4
If W & Z are random noise, regressing Y on X gives a strong relationship. Whence the asymmetry that labels one regression spurious rather than the other without consideration of what the variables even mean? This kind of thing was debated between Pearson & Yule (Aldrich (1995)) & I'm with Yule: what's spurious isn't the correlation but the claim of a causal relationship based on that correlation.
Scortchi - Reinstate Monica
1
Yeah, but here, the regression started with X and Y. Doesn't it matter which variables are, so to speak, the variables?
Peter Flom - Reinstate Monica
2
Can't see why it should, except insofar as, as @Glen_b points out in his first sentence, if your goal was to predict Y, then a high coefficient of determination of a model for W is nothing to crow about. And of course if you have strong ideas about what the error term looks like, one model is more tractable than the other.
Scortchi - Reinstate Monica
4
You raise a good point about W & Z, @Scortchi, but it seems to me that it matters what you consider the variables you care about are, & what variables you created just to get a better model. Which are the real variables is determined by the meaning of X etc, in the context of the substantive question. I infer from the text that the OP wants to understand the relationship b/t X & Y, & created W & Z to improve the model fit. Ie, in this concrete case, it seems to me that Peter is right, you can't try to improve your model by putting X on both sides.
gung - Reinstate Monica
4

There are two elements to @Peter's example, which it might be useful to disentangle:

(1) Model mis-specification. The models

yi=β0+β1xi+εi(1)

&

wi=γ0+γ1zi+ζi(2)

, where wi=yixi & zi=xi, can't both be true. If you re-express each in terms of the other's response they become non-linear in the parameters, with heteroskedastic errors.

wi=β0zi2+β1+εizi2(1)

yi=(γ0xi+γ1xi+ζixi)2(2)

If Y is assumed to be a Gaussian random variable independent of X, then that's a special case of Model 1 in which β1=0, & you shouldn't be using Model 2. But equally if W is assumed to be a Gaussian random variable independent of Z, you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.

(2) Transformation of the response. If you knew Y & X to be independent Gaussian random variables, why should the relation between W & Z still surprise you, or would you call it spurious? The conditional expectation of W can be approximated with the delta method:

EYx=EYzβ0+VarY8β03/2z

It is indeed a function of z.

Following through the example ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

enter image description here

Neither Model 1 nor Model 2 is much use for predicting y from x, but both are all right for predicting w from z: mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of w against z, might be tempted to think that intervening to increase z will reduce w—we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.

Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.

Scortchi - Reinstate Monica
sumber
3

The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results in R2 that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.

Frank Harrell
sumber