Apakah ada transformasi seperti Box-Cox untuk variabel independen? Artinya, transformasi yang mengoptimalkan variabel sehingga akan membuat lebih cocok untuk model linier?y~f(x)
Jika demikian, apakah ada fungsi untuk melakukan ini R
?
r
regression
data-transformation
normality-assumption
Tal Galili
sumber
sumber
R
dan, memikirkannya sejenak, saya tidak yakin persis bagaimana seseorang akan melakukan ini sama sekali. Kriteria apa yang akan Anda optimalkan untuk memastikan transformasi "paling linier"? menggoda, tetapi, seperti terlihat dalam jawaban saya di sini , sendiri tidak dapat digunakan untuk melihat apakah asumsi linearitas model terpenuhi. Apakah Anda memiliki beberapa kriteria dalam pikiran?Jawaban:
John Tukey menganjurkan " metode tiga titik " -nya untuk menemukan ekspresi ulang variabel untuk menjalin hubungan.
Saya akan mengilustrasikan dengan latihan dari bukunya, Exploratory Data Analysis . Ini adalah data tekanan uap merkuri dari percobaan di mana suhu bervariasi dan tekanan uap diukur.
Relasinya sangat nonlinier: lihat panel kiri dalam ilustrasi.
Karena ini adalah latihan eksplorasi , kami berharap ini menjadi interaktif. Analis diminta untuk memulai dengan mengidentifikasi tiga poin "khas" dalam plot : satu di dekat setiap ujung dan satu di tengah. Saya telah melakukannya di sini dan menandainya dengan warna merah. (Ketika saya pertama kali melakukan latihan ini sejak lama, saya menggunakan serangkaian poin yang berbeda tetapi tiba pada hasil yang sama.)
Dalam metode tiga titik, satu pencarian - dengan kekuatan kasar atau sebaliknya - untuk transformasi Box-Cox yang bila diterapkan pada salah satu koordinat - baik y atau x - akan (a) menempatkan titik-titik tipikal kira-kira pada suatu line dan (b) menggunakan kekuatan "baik", biasanya dipilih dari "tangga" kekuasaan yang mungkin dapat ditafsirkan oleh analis.
Untuk alasan yang akan menjadi jelas nanti, saya telah memperpanjang keluarga Box-Cox dengan membiarkan "offset" sehingga transformasi dalam bentuk
Berikut ini adalah( λ , α ) λ α
R
implementasi cepat dan kotor . Pertama-tama ia menemukan solusi optimal , kemudian membulatkan λ ke nilai terdekat pada tangga dan, dengan tunduk pada batasan itu, mengoptimalkan α (dalam batas wajar). Ini sangat cepat karena semua perhitungan hanya didasarkan pada tiga poin khas dari dataset asli. (Anda bisa melakukannya dengan pensil dan kertas, bahkan, itulah yang dilakukan Tukey.)Ketika metode tiga titik diterapkan pada nilai tekanan (y) dalam dataset uap merkuri, kita mendapatkan panel tengah plot.
parms
Kami telah mencapai titik analog dengan konteks pertanyaan: untuk alasan apa pun (biasanya untuk menstabilkan varians residual), kami telah menyatakan kembali variabel dependen , tetapi kami menemukan bahwa hubungan dengan variabel independen adalah nonlinear. Jadi sekarang kita beralih untuk mengekspresikan kembali variabel independen dalam upaya untuk meluruskan hubungan. Ini dilakukan dengan cara yang sama, hanya membalikkan peran x dan y:
parms
sumber
data <- cbind(temperature, pressure)
R
Lihatlah slide-slide ini pada "Diagnostik Regresi" oleh John Fox (tersedia dari sini , lengkap dengan referensi), yang secara singkat membahas masalah transformasi nonlinier. Ini mencakup "aturan menggembung" Tukey untuk memilih transformasi daya (ditangani oleh jawaban yang diterima), tetapi juga menyebutkan keluarga transformasi Box-Cox dan Yeo-Johnson. Lihat Bagian 3.6 dari slide. Untuk pengambilan yang lebih formal oleh penulis yang sama lihat J. Fox, Analisis Regresi Terapan dan Model Linear Umum, Edisi Kedua (Sage, 2008) .
Adapun paket R aktual yang membantu dengan ini, benar-benar melihat paket mobil , yang ditulis oleh J. Fox dan S. Weisberg. Paket ini menyertai J. Fox dan S. Weisberg, Sahabat R untuk Regresi Terapan, Edisi Kedua, (Sage, 2011) , yang lain harus dibaca. Dengan menggunakan paket itu Anda dapat memulai dari
basicPower()
(transformasi daya sederhana),bcPower()
(transformasi Box-Cox) danyjPower()
(transformasi Yeo-Johnson). Ada juga powerTransform () :Periksa kedua buku untuk detail lebih lanjut tentang teori di balik transformasi ini dan pada pendekatan komputasi.
sumber
sumber