R kuadrat dan regresi polinomial orde tinggi

8

Plot di bawah ini menunjukkan saturasi jalan terhadap dampak pada waktu perjalanan (dinormalisasi menjadi waktu perjalanan aliran bebas).

Kurva biru (fungsi BPR) menyajikan model standar yang digunakan di lapangan untuk menghubungkan waktu perjalanan dan saturasi.

Untuk data empiris yang saya kumpulkan, saya merencanakan polinomial urutan ketiga, yang ditunjukkan dengan warna merah. Untuk menilai kecocokan ini, saya menemukanR2untuk pemesanan urutan ketiga ini. Ini diberikan sebagai 0,72.

Saya berbicara dengan seorang rekan tentang R2dan dia menunjuk saya ke artikel ini. Mengapa Tidak Ada R-Squared untuk Regresi Nonlinear?

Saya telah menemukan banyak artikel R2 digunakan untuk menilai kecocokan polinomial orde tinggi dan saya sekarang agak bingung.

Adalah R2tidak pantas dalam hal ini? Apa yang harus saya gunakan?

masukkan deskripsi gambar di sini

Belajar dengan lambat
sumber
5
Regresi polinomial adalah linier - itu adalah koefisien yang menentukan linieritas model, bukan matriks model. Sebenarnya, periksa pos fantastis ini . Jadi saya pikir Anda berada di jalan yang benar.
Antoni Parellada
Terima kasih @AntoniParellada. Itu dibuat untuk bacaan yang sangat baik. Saya juga egois senang karena saya tidak perlu mengulang beberapa analisis;)
LearningSlowly

Jawaban:

5

Pertimbangkan polinomial:

β0+β1x+β2x2++βkxk

Perhatikan bahwa polinomialnya non-linear xtetapi itu linear dalam . Jika kami mencoba memperkirakan , ini adalah regresi linier! Linearitas dalam adalah apa masalah. Ketika memperkirakan persamaan di atas dengan kuadrat terkecil, semua hasil regresi linier akan berlaku.ββ

yi=β0+β1xi+β2xi2++βkxik+ϵi
β=(β0,β1,,βk)

Biarkan menjadi jumlah total kuadrat, menjadi jumlah kuadrat yang dijelaskan, dan menjadi jumlah residu kuadrat. The koefisien determinasi didefinisikan sebagai:SSTSSESSR R2

R2=1SSRSST

Dan hasil regresi linier yang memberikan interpretasi yang lazim sebagai fraksi varian yang dijelaskan oleh model.SST=SSE+SSRR2

SST = SSE + SSR: Kapan itu benar dan kapan itu tidak benar?

Biarkan menjadi nilai perkiraan dan biarkan menjadi residual. Selanjutnya, mari kita mendefinisikan nilai perkiraan yang direndahkan sebagai .y^iyiei=yiy^ifi=y^iy¯

Biarkan menunjukkan produk dalam . Secara sepele kita memiliki: Perhatikan bahwa adalah produk dalam yang valid. Maka kita memiliki:.,.

f+e,f+e=f,f+2f,e+e,e=f,f+e,eif f and e orthogonal, i.e. their inner product is 0
Sebuah,b=sayaSebuahsayabsaya
  • f+e,f+e=saya(ysaya-y¯)2 adalah jumlah total dari kotak (SST).
  • f,f=saya(y^saya-y¯)2 adalah jumlah kotak yang dijelaskan (SSE).
  • e,e=saya(ysaya-y^saya)2 adalah jumlah sisa kuadrat (SSR).

Jadi benar jika direndahkan perkiraan adalah orthogonal untuk sisa . Ini benar dalam regresi linear kuadrat biasa setiap kali konstanta dimasukkan dalam regresi. Interpretasi lain dari kuadrat terkecil biasa adalah bahwa Anda memproyeksikan ke dalam rentang linier dari regresi, maka residu adalah ortogonal ke ruang itu dengan konstruksi. Ortogonalitas variabel sisi kanan dan residu tidak secara umum benar untuk prakiraan diperoleh dengan cara lain.SST=SSE+SSRfe yy^saya

Matthew Gunn
sumber