Saya mencapai hubungan linier yang kuat antara variabel dan Y saya setelah mengubah responsnya. Modelnya adalah Y ∼ X tetapi saya mengubahnya menjadi √ meningkatkanR2dari 0,19 ke 0,76.
Jelas saya melakukan beberapa operasi yang layak pada hubungan ini. Adakah yang bisa mendiskusikan kesulitan melakukan hal ini, seperti bahaya transformasi berlebihan atau kemungkinan pelanggaran prinsip statistik?
regression
data-transformation
r-squared
Info5ek
sumber
sumber
Jawaban:
Anda tidak dapat benar-benar membandingkan sebelum dan sesudah, karena variabilitas yang mendasari dalam Y berbeda. Jadi Anda benar-benar tidak dapat merasa nyaman apa pun dari perubahan R 2 . Itu memberi tahu Anda apa-apa yang berharga dalam membandingkan kedua model.R2 Y R2
Kedua model berbeda dalam beberapa hal, sehingga mereka memiliki arti yang berbeda - mereka mengasumsikan hal-hal yang sangat berbeda tentang bentuk hubungan dan variabilitas dari istilah kesalahan (ketika dipertimbangkan dalam hal hubungan antara dan X ). Jadi jika Anda tertarik untuk memodelkan Y (jika Y itu sendiri bermakna), buatlah model yang bagus untuk itu. Jika Anda tertarik dalam pemodelanY X Y Y (/Y−−√ bermakna), menghasilkan model yang bagus untuk itu. Jika √Y−−√ membawa makna, lalu buat model yang bagus untuk itu. Tetapi bandingkan setiap model yang bersaing pada skala yang sebanding. R2pada respon yang berbeda hanya tidak sebanding.Y/X−−−−√ R2
Jika Anda hanya mencoba hubungan yang berbeda dengan harapan menemukan transformasi dengan tinggi - atau ukuran 'kecocokan' lainnya - properti dari setiap kesimpulan yang mungkin ingin Anda lakukan akan dipengaruhi oleh keberadaan proses pencarian itu.R2
Estimasi akan cenderung bias jauh dari nol, kesalahan standar akan terlalu kecil, nilai-p akan terlalu kecil, interval kepercayaan terlalu sempit. Model Anda rata-rata akan tampak 'terlalu baik' (dalam arti bahwa perilaku out-of-sample mereka akan mengecewakan dibandingkan dengan perilaku in-sample).
Untuk menghindari overfitting semacam ini, Anda perlu, jika mungkin, untuk melakukan identifikasi model dan estimasi pada himpunan bagian data yang berbeda (dan evaluasi model pada sepertiga). Jika Anda mengulangi prosedur semacam ini pada banyak "pemisahan" dari data yang diambil secara acak, Anda mendapatkan pemahaman yang lebih baik tentang bagaimana hasil Anda dapat direproduksi.
Ada banyak posting di sini dengan poin yang relevan tentang masalah ini: mungkin ada baiknya mencoba beberapa pencarian.
(Jika Anda memiliki alasan apriori yang baik untuk memilih transformasi tertentu, itu masalah yang berbeda. Tetapi mencari ruang transformasi untuk menemukan sesuatu yang cocok membawa semua jenis masalah 'pengintai data' dengannya.)
sumber
Ada masalah yang lebih besar daripada yang diidentifikasi oleh @Glen_b.
Dan saya mendapatkan dari 0,49 dan nilai-P yaitu 5,5 × 10 - 16 .R2 5.5×10−16
Anda memiliki di kedua sisi persamaan.X
sumber
There are two elements to @Peter's example, which it might be useful to disentangle:
(1) Model mis-specification. The models
&
, wherewi=yixi−−√ & zi=xi−−√ , can't both be true. If you re-express each in terms of the other's response they become non-linear in the parameters, with heteroskedastic errors.
IfY is assumed to be a Gaussian random variable independent of X , then that's a special case of Model 1 in which β1=0 , & you shouldn't be using Model 2. But equally if W is assumed to be a Gaussian random variable independent of Z , you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.
(2) Transformation of the response. If you knewY & X to be independent Gaussian random variables, why should the relation between W & Z still surprise you, or would you call it spurious? The conditional expectation of W can be approximated with the delta method:
It is indeed a function ofz .
Following through the example ...
Neither Model 1 nor Model 2 is much use for predictingy from x , but both are all right for predicting w from z : mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of w against z , might be tempted to think that intervening to increase z will reduce w —we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.
Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.
sumber
The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results inR2 that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.
sumber