Apakah ada alasan apa yang dapat saya pikirkan, untuk mengubah data dengan akar kuadrat? Maksud saya yang selalu saya amati adalah bahwa R ^ 2 meningkat. Tapi ini mungkin hanya karena memusatkan data! Pikiran apa pun dihargai!
regression
data-transformation
variance-stabilizing
MarkDollar
sumber
sumber
Jawaban:
Secara umum, regresi parametrik / GLM mengasumsikan bahwa hubungan antara variabel dan setiap variabel adalah linier, bahwa residu setelah Anda memasang model mengikuti distribusi normal dan bahwa ukuran residu tetap hampir sama sepanjang jalan. di sepanjang garis Anda yang terpasang. Ketika data Anda tidak sesuai dengan asumsi ini, transformasi dapat membantu.Y X
Harus intuitif bahwa jika sebanding dengan maka kuadrat-rooting Y linierisasi hubungan ini, mengarah ke model yang lebih sesuai dengan asumsi dan yang menjelaskan lebih banyak varian (memiliki R 2 yang lebih tinggi ). Square rooting Y juga membantu ketika Anda memiliki masalah bahwa ukuran residu Anda semakin meningkat seiring dengan nilai X AndaY X2 Y R2 Y X meningkat (yaitu penyebaran titik data di sekitar garis yang dipasang akan lebih ditandai saat Anda bergerak di sepanjang itu). Pikirkan bentuk fungsi akar kuadrat: awalnya meningkat tajam tetapi kemudian jenuh. Jadi menerapkan transformasi akar kuadrat mengembang jumlah yang lebih kecil tetapi menstabilkan yang lebih besar. Jadi, Anda dapat menganggapnya sebagai mendorong residu kecil pada nilai rendah dari garis pas dan menekan residu besar pada nilai tinggi ke arah garis. (Ini adalah singkatan mental bukan matematika yang tepat!)X X
Seperti Dmitrij dan ocram katakan, ini hanyalah satu kemungkinan transformasi yang akan membantu dalam keadaan tertentu, dan alat-alat seperti rumus Box-Cox dapat membantu Anda memilih yang paling berguna. Saya akan menyarankan kebiasaan untuk selalu melihat plot residu terhadap nilai-nilai pas (dan juga plot probabilitas normal atau histogram residual) ketika Anda cocok dengan model. Anda akan menemukan bahwa Anda pada akhirnya akan dapat melihat dari jenis transformasi apa yang akan membantu.
sumber
Namun ini nilai tetap apriori bisa (dan mungkin) tidak optimal. Di R, Anda dapat mempertimbangkan fungsi dari
car
pustakapowerTransform
yang membantu memperkirakan nilai optimal untuk transformasi Box-Cox untuk setiap variabel yang berpartisipasi dalam regresi linier atau data apa pun yang bekerja dengan Anda (lihatexample(powerTransform)
detail selengkapnya).sumber
Ketika variabel mengikuti distribusi Poisson, hasil transformasi akar kuadrat akan lebih dekat ke Gaussian.
sumber
Mengambil akar kuadrat kadang-kadang dianjurkan untuk membuat variabel non-normal tampak seperti variabel normal dalam masalah regresi. Logaritma adalah transformasi lain yang mungkin terjadi.
sumber
Matriks jarak yang dihitung dengan Bray-Curtis biasanya tidak metrik untuk beberapa data, sehingga menimbulkan nilai eigen negatif. Salah satu solusi untuk mengatasi masalah ini adalah mentransformasikannya (logaritmik, akar kuadrat atau akar kuadrat ganda) itu.
sumber