Saat melakukan regresi polinomial untuk ke , orang terkadang menggunakan polinomial mentah, terkadang polinomial ortogonal. Tetapi ketika mereka menggunakan apa yang tampaknya sepenuhnya sewenang-wenang.X
Di sini dan di sini polinomial mentah digunakan. Tetapi di sini dan di sini , polinomial ortogonal tampaknya memberikan hasil yang benar. Apa, bagaimana, mengapa ?!
Berbeda dengan itu, ketika belajar tentang regresi polinom dari buku teks (misalnya ISLR ), yang bahkan tidak menyebutkan polinomial mentah atau ortogonal - hanya model yang akan dipasang diberikan.
Jadi kapan kita harus menggunakan apa?
Dan mengapa nilai p individu untuk , dll banyak berbeda antara dua nilai ini?X 2
regression
polynomial
l7ll7
sumber
sumber
Jawaban:
Variabel dan tidak linier independen. Jadi bahkan jika tidak ada efek kuadrat, menambahkan untuk model akan mengubah estimasi efek .X 2 X 2 XX X2 X2 X
Mari kita simak dengan simulasi yang sangat sederhana.
Sekarang dengan istilah kuadrat dalam model yang pas.
Tentu saja tes omnibus masih signifikan, tetapi saya pikir hasil yang kami cari bukan yang ini. Solusinya adalah dengan menggunakan polinomial ortogonal.
Perhatikan bahwa koefisien
x
dalam model pertama danpoly(x,2)1
dalam model kedua tidak sama, dan bahkan intersepsi berbeda. Ini karenapoly
memberikan vektor ortonormal, yang juga ortogonal ke vektorrep(1, length(x))
. Jadipoly(x,2)1
bukanx
tapi(x -mean(x))/sqrt(sum((x-mean(x))**2))
...Poin penting adalah bahwa tes Wald, dalam model terakhir ini, independen. Anda dapat menggunakan polinomial ortogonal untuk memutuskan sampai tingkat mana Anda ingin pergi, hanya dengan melihat tes Wald: di sini Anda memutuskan untuk mempertahankan tetapi tidak . Tentu saja Anda akan menemukan model yang sama dengan membandingkan dua model pas pertama, tetapi lebih sederhana dengan cara ini - jika Anda mempertimbangkan naik ke tingkat yang lebih tinggi, itu benar-benar jauh lebih sederhana.X 2X X2
Setelah Anda memutuskan syarat mana yang harus dipertahankan, Anda mungkin ingin kembali ke polinomial mentah dan untuk interpretabilitas atau prediksi.X 2X X2
sumber
Untuk memberikan penilaian yang naif terhadap situasi:
umumnya: misalkan Anda memiliki dua sistem fungsi basis yang berbeda , serta untuk beberapa fungsi (hilbert-) ruang, biasa , yaitu ruang semua fungsi persegi-integrable. { ˜ p } ∞ n = 1 L 2 ( [ a , b ] ){pn}∞n=1 {p~}∞n=1 L2([a,b])
Ini berarti bahwa masing-masing dari dua basis dapat digunakan untuk menjelaskan setiap elemen , yaitu untuk Anda miliki untuk beberapa koefisien dan , (dalam -sense):L2([a,b]) y∈L2([a,b]) θn θ~n∈R n=1,2,… L2
Namun, di sisi lain, jika Anda memotong kedua set fungsi basis di beberapa angka , yaitu Anda mengambil serta rangkaian fungsi basis terpotong ini sangat mungkin menggambarkan dua "bagian yang berbeda" dari .k<∞
Namun, di sini dalam kasus khusus di mana satu basis, , hanyalah dari basis lainnya, , keseluruhan prediksi akan sama untuk setiap model terpotong ( dan rekanan ortogonalnya akan menggambarkan subruang -dimensi ).{p~}∞n=1 {pn}∞n=1 y {p}kn=1 k L2([a,b])
Tetapi masing-masing fungsi basis individu dari dua basis "berbeda" akan menghasilkan kontribusi yang berbeda untuk predcisi ini (jelas karena fungsi / prediktornya berbeda!) Menghasilkan nilai- dan koefisien yang berbeda.p
Oleh karena itu, dalam hal prediksi tidak ada (dalam hal ini).
Dari sudut pandang komputasi, model matriks yang terdiri dari fungsi-fungsi dasar ortogonal memiliki sifat numerik / komputasi yang bagus untuk estimator kuadrat terkecil. Sementara pada saat yang sama dari sudut pandang statistik, hasil orthogonalization dalam estimasi tidak berkorelasi, karena bawah asumsi standar.var(θ~^)=Iσ²
Pertanyaan alami muncul jika ada sistem basis terpotong terbaik. Namun jawaban untuk pertanyaan ini tidak sederhana atau unik dan tergantung misalnya pada definisi kata "terbaik", yaitu apa yang Anda coba arsipkan.
sumber