Apa yang bisa menjadi alasan untuk menggunakan transformasi akar kuadrat pada data?

15

Apakah ada alasan apa yang dapat saya pikirkan, untuk mengubah data dengan akar kuadrat? Maksud saya yang selalu saya amati adalah bahwa R ^ 2 meningkat. Tapi ini mungkin hanya karena memusatkan data! Pikiran apa pun dihargai!

MarkDollar
sumber
Saya telah menjawab pertanyaan ini dan pertanyaan yang lebih umum di sini stats.stackexchange.com/questions/18844/…
IrishStat
3
Jika variabel dependen berbeda, R-square tidak dapat dibandingkan.

Jawaban:

13

Secara umum, regresi parametrik / GLM mengasumsikan bahwa hubungan antara variabel dan setiap variabel adalah linier, bahwa residu setelah Anda memasang model mengikuti distribusi normal dan bahwa ukuran residu tetap hampir sama sepanjang jalan. di sepanjang garis Anda yang terpasang. Ketika data Anda tidak sesuai dengan asumsi ini, transformasi dapat membantu. YX

Harus intuitif bahwa jika sebanding dengan maka kuadrat-rooting Y linierisasi hubungan ini, mengarah ke model yang lebih sesuai dengan asumsi dan yang menjelaskan lebih banyak varian (memiliki R 2 yang lebih tinggi ). Square rooting Y juga membantu ketika Anda memiliki masalah bahwa ukuran residu Anda semakin meningkat seiring dengan nilai X AndaYX2YR2YXmeningkat (yaitu penyebaran titik data di sekitar garis yang dipasang akan lebih ditandai saat Anda bergerak di sepanjang itu). Pikirkan bentuk fungsi akar kuadrat: awalnya meningkat tajam tetapi kemudian jenuh. Jadi menerapkan transformasi akar kuadrat mengembang jumlah yang lebih kecil tetapi menstabilkan yang lebih besar. Jadi, Anda dapat menganggapnya sebagai mendorong residu kecil pada nilai rendah dari garis pas dan menekan residu besar pada nilai tinggi ke arah garis. (Ini adalah singkatan mental bukan matematika yang tepat!)XX

Seperti Dmitrij dan ocram katakan, ini hanyalah satu kemungkinan transformasi yang akan membantu dalam keadaan tertentu, dan alat-alat seperti rumus Box-Cox dapat membantu Anda memilih yang paling berguna. Saya akan menyarankan kebiasaan untuk selalu melihat plot residu terhadap nilai-nilai pas (dan juga plot probabilitas normal atau histogram residual) ketika Anda cocok dengan model. Anda akan menemukan bahwa Anda pada akhirnya akan dapat melihat dari jenis transformasi apa yang akan membantu.

Freya Harrison
sumber
Hai, terima kasih! Saya tahu funtion boxcox, tapi saya bertanya-tanya untuk alasan praktis apa transformasi sqrt masuk akal! Terima kasih!
MarkDollar
1
jika varians dari kesalahan secara linier terkait dengan tingkat seri satu mengambil transformasi logaritmik. Jika standar deviasi berhubungan secara linier dengan level seri, maka diperlukan transformasi akar kuadrat. Pemilihan tidak ada hubungannya dengan ukuran residu karena berkaitan dengan tingkat y dan semua harus dilakukan dengan kopling / de-kopling momen pertama dan kedua.
IrishStat
1
Freya, +1 untuk singkatan mental >> matematika yang tepat. Apakah intuisi itu juga menjadi alasan untuk menggunakan L.5-metrics-for-clustering ?
denis
Hai Denis, saya khawatir saya tidak tahu apa-apa tentang pengelompokan.
Freya Harrison
10

λ=0,5

yN(Xβ,σ2sayan)

Namun ini nilai tetap apriori bisa (dan mungkin) tidak optimal. Di R, Anda dapat mempertimbangkan fungsi dari carpustaka powerTransformyang membantu memperkirakan nilai optimal untuk transformasi Box-Cox untuk setiap variabel yang berpartisipasi dalam regresi linier atau data apa pun yang bekerja dengan Anda (lihat example(powerTransform)detail selengkapnya).

Dmitrij Celov
sumber
5

Ketika variabel mengikuti distribusi Poisson, hasil transformasi akar kuadrat akan lebih dekat ke Gaussian.

Harvey Motulsky
sumber
Bisakah Anda memberikan beberapa argumen untuk klaim ini?
utdiscant
Itu tidak benar-benar membantu banyak untuk distribusi individu dengan nilai spesifik dari parameter, tetapi itu membuat keluarga distribusi diperoleh ketika parameter bervariasi, lebih dekat ke keluarga normal dengan varians konstan
kjetil b halvorsen
3

Mengambil akar kuadrat kadang-kadang dianjurkan untuk membuat variabel non-normal tampak seperti variabel normal dalam masalah regresi. Logaritma adalah transformasi lain yang mungkin terjadi.

okram
sumber
0

Matriks jarak yang dihitung dengan Bray-Curtis biasanya tidak metrik untuk beberapa data, sehingga menimbulkan nilai eigen negatif. Salah satu solusi untuk mengatasi masalah ini adalah mentransformasikannya (logaritmik, akar kuadrat atau akar kuadrat ganda) itu.

Ahmed Nur Osman
sumber