Saya mengalami kesulitan untuk memahami bentuk interval kepercayaan dari regresi polinomial.
Ini adalah contoh buatan, . Gambar kiri menggambarkan UPV (varians prediksi tidak berskala) dan grafik kanan menunjukkan interval kepercayaan dan (diukur) titik yang diukur pada X = 1,5, X = 2 dan X = 3.
Detail data yang mendasarinya:
set data terdiri dari tiga titik data (1.5; 1), (2; 2.5) dan (3; 2.5).
setiap titik "diukur" 10 kali dan setiap nilai yang diukur milik . MLR dengan model poynomial dilakukan pada 30 poin yang dihasilkan.
interval kepercayaan dihitung dengan rumus dan (kedua formula diambil dari Myers, Montgomery, Anderson-Cook, "Metodologi Permukaan Respon" edisi keempat, halaman 407 dan 34)y(x0)-tα/2,df(error)√
≤μy| x0≤y(x0)+tα/2,df(error)√
dan .
Saya tidak terlalu tertarik pada nilai absolut dari interval kepercayaan, tetapi lebih pada bentuk UPV yang hanya bergantung pada .
varians yang diprediksi sangat tinggi di luar ruang desain adalah normal karena kami memperkirakan
tetapi mengapa varians lebih kecil antara X = 1,5 dan X = 2 daripada pada titik yang diukur?
dan mengapa varians menjadi lebih luas untuk nilai lebih dari X = 2 tetapi kemudian berkurang setelah X = 2.3 menjadi lebih kecil lagi dari pada titik yang diukur pada X = 3?
Bukankah logis untuk varians menjadi kecil pada titik-titik yang diukur dan besar di antara mereka?
Sunting: prosedur yang sama tetapi dengan titik data [(1.5; 1), (2.25; 2.5), (3; 2.5)] dan [(1.5; 1), (2; 2.5), (2.5; 2.2), (3; 2.5)].
Sangat menarik untuk dicatat, bahwa pada gambar 1 dan 2, UPV pada Poin persis sama dengan 1. Ini berarti bahwa interval kepercayaan akan sama persis dengan . Dengan semakin banyak poin (gambar 3), kita bisa mendapatkan nilai-UPV pada titik-titik yang diukur yang lebih kecil dari 1.
sumber
Jawaban:
Dua cara utama untuk memahami fenomena regresi tersebut adalah aljabar - dengan memanipulasi persamaan dan formula Normal untuk solusinya - dan geometris. Aljabar, sebagaimana diilustrasikan dalam pertanyaan itu sendiri, baik. Tetapi ada beberapa formulasi geometris yang berguna untuk regresi. Dalam hal ini, memvisualisasikan data dalam ruang menawarkan wawasan(x,y) (x,x2,y) yang mungkin sulit didapat.
Kami membayar harga yang diperlukan untuk melihat objek tiga dimensi, yang sulit dilakukan pada layar statis. (Saya menemukan gambar yang berputar tanpa henti mengganggu dan tidak akan menimbulkan salah satu dari mereka pada Anda, meskipun mereka dapat membantu.) Jadi, jawaban ini mungkin tidak menarik bagi semua orang. Tetapi mereka yang ingin menambahkan dimensi ketiga dengan imajinasi mereka akan dihargai. Saya mengusulkan untuk membantu Anda dalam upaya ini melalui beberapa grafik yang dipilih dengan cermat.
Mari kita mulai dengan memvisualisasikan variabel independen . Dalam model regresi kuadratik
dua istilah dan dapat bervariasi di antara pengamatan: mereka adalah variabel independen . Kita dapat memplot semua pasangan yang dipesan sebagai titik dalam sebuah pesawat dengan sumbu yang sesuai dengan dan Juga diungkapkan untuk memplot semua titik pada kurva dari pasangan yang mungkin dipesan(xi) (x2i) (xi,x2i) x x2. (t,t2):
Visualisasikan respons (variabel dependen) dalam dimensi ketiga dengan memiringkan gambar ini kembali dan menggunakan arah vertikal untuk dimensi itu. Setiap respons diplot sebagai simbol titik. Data yang disimulasikan ini terdiri dari tumpukan sepuluh tanggapan untuk masing-masing dari tiga lokasi yang ditunjukkan pada gambar pertama; ketinggian yang mungkin dari setiap tumpukan ditunjukkan dengan garis vertikal abu-abu:(x,x2)
Regresi kuadrat cocok pesawat ke titik-titik ini.
(Bagaimana kita tahu itu? Karena untuk setiap pilihan parameter himpunan titik dalam ruang yang memenuhi persamaan adalah himpunan nol dari fungsi yang mendefinisikan bidang yang tegak lurus dengan vektor Ini sedikit geometri analitik membeli kami beberapa dukungan kuantitatif untuk gambar, juga: karena parameter yang digunakan dalam ilustrasi ini adalah dan dan keduanya besar dibandingkan dengan pesawat ini akan hampir vertikal dan berorientasi secara diagonal pada bidang .)(β0,β1,β2), (x,x2,y) (1) −β1(x)−β2(x2)+(1)y−β0, (−β1,−β2,1). β1=−55/8 β2=15/2, 1, (x,x2)
Berikut adalah bidang kuadrat terkecil yang dipasang pada titik-titik ini:
Pada bidang, yang kita anggap memiliki persamaan bentuk saya telah "mengangkat" kurva ke kurva dan menggambarkannya dalam warna hitam.y=f(x,x2), (t,t2)
Mari kita miringkan semuanya lebih jauh ke belakang sehingga hanya sumbu dan yang ditampilkan, meninggalkan sumbu agar tidak terlihat turun dari layar Anda:x y x2
Anda dapat melihat bagaimana kurva terangkat adalah regresi kuadrat yang diinginkan: itu adalah lokus dari semua pasangan berurutan mana adalah nilai pas ketika variabel independen diatur ke(x,y^) y^ x.
Pita kepercayaan untuk kurva yang pas ini menggambarkan apa yang bisa terjadi pada kecocokan ketika titik data secara acak bervariasi. Tanpa mengubah sudut pandang, saya telah memplot lima pesawat yang pas (dan kurva yang terangkat) ke lima set data baru yang independen (yang hanya ditampilkan satu):
Untuk membantu Anda melihat ini lebih baik, saya juga membuat pesawat hampir transparan. Jelas bahwa kurva yang terangkat cenderung memiliki persimpangan satu sama lain di dekat danx≈1.75 x≈3.
Mari kita lihat hal yang sama dengan melayang di atas plot tiga dimensi dan melihat sedikit ke bawah dan sepanjang sumbu diagonal pesawat. Untuk membantu Anda melihat bagaimana pesawat berubah, saya juga telah mengompresi dimensi vertikal.
Pagar emas vertikal menunjukkan semua titik di atas kurva sehingga Anda dapat lebih mudah melihat bagaimana ia terangkat ke semua lima pesawat yang terpasang. Secara konseptual, pita kepercayaan ditemukan dengan memvariasikan data, yang menyebabkan bidang yang dipasang bervariasi, yang mengubah kurva yang terangkat, di mana mereka menelusuri sebuah amplop dari nilai yang mungkin dipasang pada setiap nilai(t,t2) (x,x2).
Sekarang saya percaya penjelasan geometris yang jelas adalah mungkin. Karena titik-titik bentuk hampir berbaris di pesawat mereka, semua pesawat pas akan berputar (dan bergoyang sedikit) di sekitar beberapa garis umum yang terletak di atas titik-titik tersebut. (Misalkan menjadi proyeksi dari garis tersebut ke bidang : ia akan mendekati kurva pada gambar pertama.) Ketika bidang-bidang itu bervariasi, jumlah perubahan kurva yang diangkat ( secara vertikal) pada lokasi tertentu akan berbanding lurus dengan jarak terletak dari(xi,x2i) L (x,x2) (x,x2) (x,x2) L.
Gambar ini kembali ke perspektif planar asli untuk menampilkan relatif terhadap kurva di bidang variabel independen. Dua titik pada kurva yang paling dekat dengan ditandai dengan warna merah. Di sini, kira-kira, adalah tempat pesawat yang pas akan cenderung paling dekat karena responsnya bervariasi secara acak. Dengan demikian, kurva yang terangkat pada nilai sesuai (sekitar dan ) akan cenderung bervariasi setidaknya dekat titik-titik ini.L t→(t,t2) L x 1.7 2.9
Secara aljabar, menemukan "titik-titik nodal" itu adalah masalah menyelesaikan persamaan kuadrat: dengan demikian, paling banyak dua di antaranya akan ada. Karena itu, kami dapat berharap, sebagai proposisi umum, bahwa pita kepercayaan dari kuadratik cocok dengan data mungkin memiliki hingga dua tempat di mana mereka datang paling dekat bersama - tetapi tidak lebih dari itu.(x,y)
Analisis ini secara konseptual berlaku untuk regresi polinomial tingkat tinggi, serta regresi berganda secara umum. Meskipun kita tidak dapat benar-benar "melihat" lebih dari tiga dimensi, matematika regresi linier menjamin bahwa intuisi yang berasal dari plot dua dan tiga dimensi dari tipe yang ditampilkan di sini tetap akurat dalam dimensi yang lebih tinggi.
sumber
Intuitif
Dalam arti yang sangat intuitif dan kasar Anda mungkin melihat kurva polinomial sebagai dua kurva linier dijahit bersama (satu naik satu menurun). Untuk kurva linear ini Anda mungkin ingat bentuk sempit di tengah .
Poin di sebelah kiri puncak memiliki pengaruh yang relatif kecil pada prediksi di sebelah kanan puncak, dan sebaliknya.
Jadi, Anda mungkin mengharapkan dua daerah sempit di kedua sisi puncak (di mana perubahan lereng masing-masing memiliki efek yang relatif kecil).
Wilayah di sekitar puncak relatif lebih tidak pasti karena perubahan kemiringan kurva memiliki efek yang lebih besar di wilayah ini. Anda dapat menggambar banyak kurva dengan pergeseran besar dari puncak yang masih masuk akal melalui titik pengukuran
Ilustrasi
Di bawah ini adalah ilustrasi dengan beberapa data berbeda, yang menunjukkan lebih mudah bagaimana pola ini (bisa dibilang simpul ganda) dapat muncul:
Resmi
Untuk dilanjutkan: Saya akan menempatkan bagian nanti dengan penjelasan yang lebih formal. Seseorang harus dapat mengekspresikan pengaruh titik pengukuran tertentu pada interval kepercayaan di tempat yang berbeda . Dalam ungkapan ini kita harus melihat lebih jelas (eksplisit) bagaimana perubahan titik pengukuran (acak) tertentu memiliki pengaruh lebih besar terhadap kesalahan di area yang diinterpolasi lebih jauh dari titik pengukuranx
x
Saat ini saya tidak dapat menangkap gambar yang baik dari pola interval prediksi yang bergelombang, tetapi saya berharap bahwa ide kasar ini cukup menanggapi komentar Whuber tentang tidak mengenali pola ini dalam kuadrat cocok. Ini bukan tentang fit kuadrat dan lebih banyak tentang interpolasi secara umum, dalam kasus-kasus akurasi kurang kuat untuk prediksi ketika mereka dinyatakan jauh dari poin, terlepas dari interpolasi atau ekstrapolasi. (Tentu saja pola ini lebih berkurang ketika lebih banyak titik pengukuran, berbeda , ditambahkan)
sumber