Kedua jawaban di utas ini, satu dan dua menyatakan bahwa harus ditransformasikan sebelum menerapkan transformasi lain pada prediktor. Memang bab Weisberg tentang transformasi lebih fokus pada DV daripada prediktor, dan begitu juga halaman manual paket mobil R PowerTransform ().
Namun, kita tahu bahwa normalitas distribusi DV bukanlah persyaratan dalam OLS untuk memperkirakan koefisien BLUE dan, bahkan ketika residu tidak terdistribusi secara normal, OLS masih merupakan estimator yang masuk akal .
Jadi mengapa penekanan pada transformasi ? Ada beberapa alasan yang saya pikir sebenarnya lebih disukai untuk tidak mengubah : pertama itu membuat hubungan IVs lebih sulit untuk dibaca dan kedua, dalam prediksi, itu membutuhkan transformasi balik dari nilai estimasi ke skala asli . Tergantung apa yang Anda lakukan ini bisa menjadi masalah.
sumber
Jawaban:
Transformasi X tidak memengaruhi bentuk distribusi kondisional, atau heteroskedastisitas, jadi mentransformasikan X hanya berfungsi untuk menangani hubungan nonlinear. (Jika Anda memasang model aditif yang mungkin berguna untuk membantu menghilangkan interaksi, tetapi bahkan itu yang paling baik dibiarkan mengubah Y)
Contoh di mana mentransformasikan hanya X masuk akal:
Jika itu - kurangnya kecocokan dalam mean bersyarat - adalah masalah utama Anda, maka mentransformasikan X mungkin masuk akal, tetapi jika Anda mentransformasikannya karena bentuk Y bersyarat atau karena heteroskedastisitas, jika Anda menyelesaikannya dengan transformasi ( belum tentu pilihan terbaik, tetapi kami mengambil transformasi sebagai yang diberikan untuk pertanyaan ini), maka Anda harus mengubah Y dengan beberapa cara untuk mengubahnya.
Pertimbangkan, misalnya, model di mana varian bersyarat sebanding dengan rata-rata:
Contoh di mana mengubah hanya X tidak bisa menyelesaikan masalah:
Memindahkan nilai pada sumbu x tidak akan mengubah fakta bahwa spread lebih besar untuk nilai di sebelah kanan daripada nilai di sebelah kiri. Jika Anda ingin memperbaiki varians perubahan ini dengan transformasi, Anda harus menekan nilai Y tinggi dan merentangkan nilai Y rendah.
Sekarang, jika Anda mempertimbangkan untuk mengubah Y, itu akan mengubah bentuk hubungan antara respons dan prediktor ... jadi Anda akan sering berharap untuk mengubah X juga jika Anda menginginkan model linier (jika linier sebelum mentransformasikannya, tidak akan sesudahnya). Terkadang (seperti pada plot kedua di atas), transformasi Y = akan membuat hubungan lebih linier pada saat yang sama - tetapi tidak selalu demikian.
Jika Anda mengubah X dan Y, Anda ingin melakukan Y terlebih dahulu, karena perubahan dalam bentuk hubungan antara Y dan X - biasanya Anda perlu melihat seperti apa hubungan setelah Anda bertransformasi. Transformasi X selanjutnya akan bertujuan untuk memperoleh linearitas hubungan.
Jadi secara umum, jika Anda mengubah sama sekali, Anda sering perlu mengubah Y, dan jika Anda melakukan itu, Anda hampir selalu ingin melakukannya terlebih dahulu.
sumber
Transformasi Y awalnya merupakan pendekatan anakronistik untuk analisis data. Kakek buyut buyut lelaki kami melakukan itu, jadi mengapa kita tidak? Banyak alasan dan posting Anda yang mencerminkan bahwa asumsi Gaussian semata-mata didasarkan pada kesalahan dari model BUKAN seri Y mati.
sumber