Memahami bentuk interval kepercayaan untuk regresi polinomial (MLR)

11

Saya mengalami kesulitan untuk memahami bentuk interval kepercayaan dari regresi polinomial.

Ini adalah contoh buatan, . Gambar kiri menggambarkan UPV (varians prediksi tidak berskala) dan grafik kanan menunjukkan interval kepercayaan dan (diukur) titik yang diukur pada X = 1,5, X = 2 dan X = 3.Y^=a+bX+cX2

Detail data yang mendasarinya:

  • set data terdiri dari tiga titik data (1.5; 1), (2; 2.5) dan (3; 2.5).

  • setiap titik "diukur" 10 kali dan setiap nilai yang diukur milik . MLR dengan model poynomial dilakukan pada 30 poin yang dihasilkan.y±0.5

  • interval kepercayaan dihitung dengan rumus dan (kedua formula diambil dari Myers, Montgomery, Anderson-Cook, "Metodologi Permukaan Respon" edisi keempat, halaman 407 dan 34)y(x0)-tα/2,df(error)

    UPV=Var[y^(x0)]σ^2=x0(XX)1x0
    μy| x0y(x0)+tα/2,df(error)
    y^(x0)tα/2,df(error)σ^2x0(XX)1x0
    μy|x0y^(x0)+tα/2,df(error)σ^2x0(XX)1x0.

tα/2,df(error)=2 dan σ^2=MSE=SSE/(np)0.075 .

Saya tidak terlalu tertarik pada nilai absolut dari interval kepercayaan, tetapi lebih pada bentuk UPV yang hanya bergantung pada .x0(XX)1x0

Gambar 1: masukkan deskripsi gambar di sini

  • varians yang diprediksi sangat tinggi di luar ruang desain adalah normal karena kami memperkirakan

  • tetapi mengapa varians lebih kecil antara X = 1,5 dan X = 2 daripada pada titik yang diukur?

  • dan mengapa varians menjadi lebih luas untuk nilai lebih dari X = 2 tetapi kemudian berkurang setelah X = 2.3 menjadi lebih kecil lagi dari pada titik yang diukur pada X = 3?

Bukankah logis untuk varians menjadi kecil pada titik-titik yang diukur dan besar di antara mereka?

Sunting: prosedur yang sama tetapi dengan titik data [(1.5; 1), (2.25; 2.5), (3; 2.5)] dan [(1.5; 1), (2; 2.5), (2.5; 2.2), (3; 2.5)].

Gambar 2: masukkan deskripsi gambar di sini

Gambar 3: masukkan deskripsi gambar di sini

Sangat menarik untuk dicatat, bahwa pada gambar 1 dan 2, UPV pada Poin persis sama dengan 1. Ini berarti bahwa interval kepercayaan akan sama persis dengan . Dengan semakin banyak poin (gambar 3), kita bisa mendapatkan nilai-UPV pada titik-titik yang diukur yang lebih kecil dari 1.y^±tα/2,df(error)MSE

John Tokka Tacos
sumber
2
Bisakah Anda mengedit posting Anda untuk memasukkan data yang Anda kerjakan?
Stephan Kolassa
@StephanKolassa Saya mencoba menjelaskan data apa yang saya gunakan. Namun demikian, pertanyaannya lebih bersifat umum dan tidak terikat pada contoh tertentu.
John Tokka Tacos
Jika Anda memberikan data, akan lebih mudah untuk menggambarkan jawaban.
Stephan Kolassa

Jawaban:

6

Dua cara utama untuk memahami fenomena regresi tersebut adalah aljabar - dengan memanipulasi persamaan dan formula Normal untuk solusinya - dan geometris. Aljabar, sebagaimana diilustrasikan dalam pertanyaan itu sendiri, baik. Tetapi ada beberapa formulasi geometris yang berguna untuk regresi. Dalam hal ini, memvisualisasikan data dalam ruang menawarkan wawasan(x,y)(x,x2,y) yang mungkin sulit didapat.

Kami membayar harga yang diperlukan untuk melihat objek tiga dimensi, yang sulit dilakukan pada layar statis. (Saya menemukan gambar yang berputar tanpa henti mengganggu dan tidak akan menimbulkan salah satu dari mereka pada Anda, meskipun mereka dapat membantu.) Jadi, jawaban ini mungkin tidak menarik bagi semua orang. Tetapi mereka yang ingin menambahkan dimensi ketiga dengan imajinasi mereka akan dihargai. Saya mengusulkan untuk membantu Anda dalam upaya ini melalui beberapa grafik yang dipilih dengan cermat.


Mari kita mulai dengan memvisualisasikan variabel independen . Dalam model regresi kuadratik

(1)yi=β0+β1(xi)+β2(xi2)+error,

dua istilah dan dapat bervariasi di antara pengamatan: mereka adalah variabel independen . Kita dapat memplot semua pasangan yang dipesan sebagai titik dalam sebuah pesawat dengan sumbu yang sesuai dengan dan Juga diungkapkan untuk memplot semua titik pada kurva dari pasangan yang mungkin dipesan(xi)(xi2)(xi,xi2)xx2.(t,t2):

Gambar 1

Visualisasikan respons (variabel dependen) dalam dimensi ketiga dengan memiringkan gambar ini kembali dan menggunakan arah vertikal untuk dimensi itu. Setiap respons diplot sebagai simbol titik. Data yang disimulasikan ini terdiri dari tumpukan sepuluh tanggapan untuk masing-masing dari tiga lokasi yang ditunjukkan pada gambar pertama; ketinggian yang mungkin dari setiap tumpukan ditunjukkan dengan garis vertikal abu-abu:(x,x2)

Gambar 2

Regresi kuadrat cocok pesawat ke titik-titik ini.

(Bagaimana kita tahu itu? Karena untuk setiap pilihan parameter himpunan titik dalam ruang yang memenuhi persamaan adalah himpunan nol dari fungsi yang mendefinisikan bidang yang tegak lurus dengan vektor Ini sedikit geometri analitik membeli kami beberapa dukungan kuantitatif untuk gambar, juga: karena parameter yang digunakan dalam ilustrasi ini adalah dan dan keduanya besar dibandingkan dengan pesawat ini akan hampir vertikal dan berorientasi secara diagonal pada bidang .)(β0,β1,β2),(x,x2,y)(1)β1(x)β2(x2)+(1)yβ0,(β1,β2,1).β1=55/8β2=15/2,1,(x,x2)

Berikut adalah bidang kuadrat terkecil yang dipasang pada titik-titik ini:

masukkan deskripsi gambar di sini

Pada bidang, yang kita anggap memiliki persamaan bentuk saya telah "mengangkat" kurva ke kurva dan menggambarkannya dalam warna hitam.y=f(x,x2),(t,t2)

t(t,t2,f(t,t2))

Mari kita miringkan semuanya lebih jauh ke belakang sehingga hanya sumbu dan yang ditampilkan, meninggalkan sumbu agar tidak terlihat turun dari layar Anda:xyx2

Gambar 4

Anda dapat melihat bagaimana kurva terangkat adalah regresi kuadrat yang diinginkan: itu adalah lokus dari semua pasangan berurutan mana adalah nilai pas ketika variabel independen diatur ke(x,y^)y^x.

Pita kepercayaan untuk kurva yang pas ini menggambarkan apa yang bisa terjadi pada kecocokan ketika titik data secara acak bervariasi. Tanpa mengubah sudut pandang, saya telah memplot lima pesawat yang pas (dan kurva yang terangkat) ke lima set data baru yang independen (yang hanya ditampilkan satu):

Gambar 5

Untuk membantu Anda melihat ini lebih baik, saya juga membuat pesawat hampir transparan. Jelas bahwa kurva yang terangkat cenderung memiliki persimpangan satu sama lain di dekat danx1.75x3.

Mari kita lihat hal yang sama dengan melayang di atas plot tiga dimensi dan melihat sedikit ke bawah dan sepanjang sumbu diagonal pesawat. Untuk membantu Anda melihat bagaimana pesawat berubah, saya juga telah mengompresi dimensi vertikal.

Gambar 6

Pagar emas vertikal menunjukkan semua titik di atas kurva sehingga Anda dapat lebih mudah melihat bagaimana ia terangkat ke semua lima pesawat yang terpasang. Secara konseptual, pita kepercayaan ditemukan dengan memvariasikan data, yang menyebabkan bidang yang dipasang bervariasi, yang mengubah kurva yang terangkat, di mana mereka menelusuri sebuah amplop dari nilai yang mungkin dipasang pada setiap nilai(t,t2)(x,x2).

Sekarang saya percaya penjelasan geometris yang jelas adalah mungkin. Karena titik-titik bentuk hampir berbaris di pesawat mereka, semua pesawat pas akan berputar (dan bergoyang sedikit) di sekitar beberapa garis umum yang terletak di atas titik-titik tersebut. (Misalkan menjadi proyeksi dari garis tersebut ke bidang : ia akan mendekati kurva pada gambar pertama.) Ketika bidang-bidang itu bervariasi, jumlah perubahan kurva yang diangkat ( secara vertikal) pada lokasi tertentu akan berbanding lurus dengan jarak terletak dari(xi,xi2)L(x,x2)(x,x2)(x,x2)L.

Gambar 7

Gambar ini kembali ke perspektif planar asli untuk menampilkan relatif terhadap kurva di bidang variabel independen. Dua titik pada kurva yang paling dekat dengan ditandai dengan warna merah. Di sini, kira-kira, adalah tempat pesawat yang pas akan cenderung paling dekat karena responsnya bervariasi secara acak. Dengan demikian, kurva yang terangkat pada nilai sesuai (sekitar dan ) akan cenderung bervariasi setidaknya dekat titik-titik ini.Lt(t,t2)Lx1.72.9

Secara aljabar, menemukan "titik-titik nodal" itu adalah masalah menyelesaikan persamaan kuadrat: dengan demikian, paling banyak dua di antaranya akan ada. Karena itu, kami dapat berharap, sebagai proposisi umum, bahwa pita kepercayaan dari kuadratik cocok dengan data mungkin memiliki hingga dua tempat di mana mereka datang paling dekat bersama - tetapi tidak lebih dari itu.(x,y)


Analisis ini secara konseptual berlaku untuk regresi polinomial tingkat tinggi, serta regresi berganda secara umum. Meskipun kita tidak dapat benar-benar "melihat" lebih dari tiga dimensi, matematika regresi linier menjamin bahwa intuisi yang berasal dari plot dua dan tiga dimensi dari tipe yang ditampilkan di sini tetap akurat dalam dimensi yang lebih tinggi.

whuber
sumber
Terima kasih atas jawaban yang bagus ini! Tidak pernah terjadi pada saya bahwa regresi kuadrat cocok dengan bidang ke titik. Formulasi geometris ini sangat intuitif, dan banyak membantu saya.
John Tokka Tacos
1
Ini adalah jawaban yang hebat - kami harus menyusun posting terbaik Anda dan menjadikannya menjadi buku sumber terbuka
Xavier Bourret Sicotte
1
@Xavier Terima kasih atas kata-kata baiknya. Saya telah memikirkan sesuatu seperti itu dan menyambut semua saran dan kritik yang membangun.
Whuber
1

Intuitif

Dalam arti yang sangat intuitif dan kasar Anda mungkin melihat kurva polinomial sebagai dua kurva linier dijahit bersama (satu naik satu menurun). Untuk kurva linear ini Anda mungkin ingat bentuk sempit di tengah .

Poin di sebelah kiri puncak memiliki pengaruh yang relatif kecil pada prediksi di sebelah kanan puncak, dan sebaliknya.

  • Jadi, Anda mungkin mengharapkan dua daerah sempit di kedua sisi puncak (di mana perubahan lereng masing-masing memiliki efek yang relatif kecil).

  • Wilayah di sekitar puncak relatif lebih tidak pasti karena perubahan kemiringan kurva memiliki efek yang lebih besar di wilayah ini. Anda dapat menggambar banyak kurva dengan pergeseran besar dari puncak yang masih masuk akal melalui titik pengukuran

Ilustrasi

Di bawah ini adalah ilustrasi dengan beberapa data berbeda, yang menunjukkan lebih mudah bagaimana pola ini (bisa dibilang simpul ganda) dapat muncul:

menunjukkan interval prediksi dengan simpul ganda

set.seed(1)
x <- c(rep(c(-6, -5, 6, 5), 5))
y <- 0.2*x^2 + rnorm(20, 0, 1)
plot(x, y, 
     ylim=c(-10,30), xlim=c(-10,10),
     pch=21, col=1, bg=1, cex=0.3)

data    = list(y=y,           x=x,                x2=x^2)
newdata = list(y=rep(0,3001), x=seq(-15,15,0.01), x2=seq(-15,15,0.01)^2  )

model <- lm(y~1+x+x2, data=data)
predictions = predict(model, newdata = newdata, interval="predict")
lines(newdata$x, predictions[,1])
lines(newdata$x, predictions[,2], lty=2)
lines(newdata$x, predictions[,3], lty=2)

Resmi

Untuk dilanjutkan: Saya akan menempatkan bagian nanti dengan penjelasan yang lebih formal. Seseorang harus dapat mengekspresikan pengaruh titik pengukuran tertentu pada interval kepercayaan di tempat yang berbeda . Dalam ungkapan ini kita harus melihat lebih jelas (eksplisit) bagaimana perubahan titik pengukuran (acak) tertentu memiliki pengaruh lebih besar terhadap kesalahan di area yang diinterpolasi lebih jauh dari titik pengukuranx

Saat ini saya tidak dapat menangkap gambar yang baik dari pola interval prediksi yang bergelombang, tetapi saya berharap bahwa ide kasar ini cukup menanggapi komentar Whuber tentang tidak mengenali pola ini dalam kuadrat cocok. Ini bukan tentang fit kuadrat dan lebih banyak tentang interpolasi secara umum, dalam kasus-kasus akurasi kurang kuat untuk prediksi ketika mereka dinyatakan jauh dari poin, terlepas dari interpolasi atau ekstrapolasi. (Tentu saja pola ini lebih berkurang ketika lebih banyak titik pengukuran, berbeda , ditambahkan)x

Sextus Empiricus
sumber
1
Saya mengalami kesulitan mempercayai karakterisasi ini atau kesimpulannya, karena saya cukup yakin regresi kuadrat tidak berlaku seperti ini. Bisakah Anda meyakinkan saya dengan memberikan beberapa alasan bagi mereka?
whuber
1
Saya kira itu tergantung pada posisi poin. Dalam contoh titik berada di kedua sisi puncak. Maka Anda mungkin menganggap posisi puncak sebagai semacam ekstrapolasi. Saya akan membuat contoh kasus yang lebih ekstrem nanti. (Saya juga bertanya-tanya bagaimana regresi dilakukan, tetapi saya membayangkan bahwa kesalahan dalam koefisien dianggap berkorelasi atau Anda memang tidak mendapatkan pola ini)
Sextus Empiricus
Itu memang tergantung pada posisi poin, tetapi dengan cara yang kompleks. (Aljabar menunjukkan bahwa kebalikan dari matriks kovarian dari data terlibat.) Tetapi berfokus pada "titik di sisi puncak" tidak selalu merupakan deskripsi yang tepat, atau bahkan berguna, tentang apa sedang terjadi. Kesalahan dalam koefisien hampir selalu berkorelasi kuat (kecuali jika Anda telah meyakinkan ortogonalitas dan ), jadi itulah bagian dari penjelasan. Untuk mendukung pertentangan ini, saya telah memposting analisis data bergambar seperti yang digunakan dalam pertanyaan. x x 2(xi,xi2)xx2
whuber