Saya ingin melakukan regresi linier berganda dan kemudian memprediksi nilai-nilai baru dengan sedikit ekstrapolasi. Saya memiliki variabel respons di kisaran -2 hingga +7, dan tiga prediktor (kisaran sekitar +10 - +200). Distribusi hampir normal. Tetapi hubungan antara respons dan prediktornya tidak linier, saya melihat kurva pada plot. Misalnya seperti ini: http://cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg
Saya ingin menerapkan transformasi untuk mencapai linearitas. Saya mencoba mengubah variabel respons dengan memeriksa berbagai fungsi dan melihat plot yang dihasilkan untuk melihat hubungan linier antara respons dan prediktor. Dan saya menemukan bahwa ada banyak fungsi yang dapat memberi saya hubungan linier yang terlihat. Misalnya fungsi
dll. berikan hasil yang sama: http://cs10418.userapi.com/u17020874/153949434/x_06f13dbf.jpg
Setelah saya akan mengubah nilai prediksi (untuk sebagai dan seterusnya). Distribusi kurang lebih mirip dengan normal. y′=1
Bagaimana saya bisa memilih transformasi terbaik untuk data saya? Apakah ada cara kuantitatif (dan tidak terlalu rumit) untuk mengevaluasi linearitas? Untuk membuktikan bahwa transformasi yang dipilih adalah yang terbaik atau menemukannya secara otomatis jika memungkinkan.
Atau satu-satunya cara adalah dengan melakukan regresi berganda non-linear?
plot(lm(1/(y+5)~r))
Jawaban:
Ini agak seni, tetapi ada beberapa hal standar dan mudah yang selalu bisa dicoba.
Hal pertama yang harus dilakukan adalah mengekspresikan kembali variabel dependen ( ) untuk membuat residual menjadi normal. Itu tidak benar-benar berlaku dalam contoh ini, di mana titik-titik tampak jatuh sepanjang kurva nonlinier halus dengan sedikit pencar. Jadi kami melanjutkan ke langkah selanjutnya.y
Hal berikutnya adalah untuk mengekspresikan kembali variabel independen ( ) untuk linierisasi hubungan. Ada cara sederhana dan mudah untuk melakukan ini. Pilih tiga titik representatif di sepanjang kurva, lebih disukai di kedua ujung dan tengah. Dari gambar pertama saya membacakan pasangan terurut = , , dan . Tanpa informasi apa pun selain tampaknya selalu positif, pilihan yang baik adalah menjelajahi transformasi Box-Cox untuk berbagai kekuatan , biasanya dipilih kelipatan atau dan biasanya antara( r , y ) ( 10 , 7 ) ( 90 , 0 ) ( 180 , - 2 ) r r → ( r p - 1 ) / p p 1 / 2 1 / 3 - 1 1 p 0 log ( r )r (r,y) (10,7) (90,0) (180,−2) r r→(rp−1)/p p 1/2 1/3 −1 dan . (Nilai pembatas sebagai mendekati adalah .) Transformasi ini akan membuat hubungan linear perkiraan asalkan kemiringan antara dua titik pertama sama dengan kemiringan antara pasangan kedua.1 p 0 log(r)
Misalnya, kemiringan data yang tidak diubah adalah = - dan = . Ini sangat berbeda: satu sekitar empat kali yang lain. Mencoba memberikan kemiringan , dll., Yang berfungsi ke dan : sekarang salah satunya hanya dua kali yang lain, yang merupakan peningkatan. Melanjutkan dengan cara ini (spreadsheet mudah digunakan), saya menemukan bahwa berfungsi dengan baik: lerengnya sekarang dan(0−7)/(90−10) 0.088 (−2−0)/(180−90) −0.022 p=−1/2 -16,6-32,4p≈0-7.3-6,6y=α+βlog(r)y(0−7)/(90−1/2−1−1/2−10−1/2−1−1/2) −16.6 −32.4 p≈0 −7.3 −6.6 , nilai yang hampir sama. Akibatnya, Anda harus mencoba model dari bentuk . Kemudian ulangi: paskan satu baris, periksa residu, identifikasi transformasi untuk membuatnya mendekati simetris, dan iterate.y=α+βlog(r) y
John Tukey memberikan rincian dan banyak contoh dalam buku klasiknya Exploratory Data Analysis (Addison-Wesley, 1977). Dia memberikan prosedur yang serupa (tetapi sedikit lebih terlibat) untuk mengidentifikasi transformasi penstabilan varians dari . Satu dataset sampel yang ia suplai sebagai latihan menyangkut data berusia seabad tentang tekanan uap merkuri yang diukur pada berbagai suhu. Dengan mengikuti prosedur ini memungkinkan seseorang untuk menemukan kembali hubungan Clausius-Clapeyron ; residu hingga kecocokan akhir dapat diartikan sebagai efek mekanika kuantum yang terjadi pada jarak atom!y
sumber
r
diperbaiki, karena dengan demikian adalah proksi untuk varian residual. Jika Anda mengekspresikan kembali (variabel independen), maka tidak berharga atau menyesatkan: lihat stats.stackexchange.com/questions/13314/… . R 2r
Jika variabel respons Anda (atau lebih tepatnya, apa yang akan menjadi residu dari variabel respons Anda) pada skala asli memiliki distribusi Normal seperti yang Anda maksudkan, kemudian mentransformasikannya untuk membuat hubungan linear dengan variabel lain akan berarti bahwa itu tidak lagi menjadi Normal dan itu juga akan mengubah hubungan antara varians dan nilai rata-ratanya. Jadi dari bagian deskripsi Anda, saya pikir Anda lebih baik menggunakan regresi non-linear daripada mengubah respons. Jika tidak, setelah transformasi linear dari respons, Anda akan memerlukan struktur kesalahan yang lebih kompleks (meskipun ini bisa menjadi masalah penilaian dan Anda perlu memeriksa, menggunakan metode grafis).
Atau, selidiki transformasi variabel penjelas . Selain transformasi lurus, Anda juga memiliki opsi untuk menambahkan dalam istilah kuadratik.
Lebih umum, transformasi lebih merupakan seni daripada sains, jika tidak ada teori yang ada untuk menyarankan apa yang harus Anda gunakan sebagai dasar transformasi.
sumber