Apakah pita kepercayaan dan prediksi di sekitar regresi non-linear seharusnya simetris di sekitar garis regresi? Berarti mereka tidak mengambil bentuk jam-kaca seperti dalam kasus band untuk regresi linier. Mengapa demikian?
Berikut adalah model yang dimaksud:
Ini gambarnya:
dan inilah persamaannya:
Jawaban:
Pita kepercayaan dan prediksi harus diharapkan untuk menjadi lebih luas di dekat ujungnya - dan untuk alasan yang sama bahwa mereka selalu melakukannya dalam regresi biasa; umumnya ketidakpastian parameter mengarah ke interval yang lebih luas di dekat ujung daripada di tengah
Anda dapat melihat ini dengan simulasi cukup mudah, baik dengan mensimulasikan data dari model yang diberikan, atau dengan mensimulasikan dari distribusi sampling dari vektor parameter.
Perhitungan biasa (kira-kira benar) yang dilakukan untuk regresi nonlinier melibatkan mengambil pendekatan linier lokal (ini diberikan dalam jawaban Harvey), tetapi bahkan tanpa yang kita bisa mendapatkan beberapa gagasan tentang apa yang terjadi.
Namun, melakukan perhitungan yang sebenarnya adalah nontrivial dan mungkin program mungkin mengambil jalan pintas dalam perhitungan yang mengabaikan efek itu. Mungkin juga untuk beberapa data dan beberapa model efeknya relatif kecil dan sulit dilihat. Memang dengan interval prediksi, terutama dengan varians yang besar tetapi banyak data kadang-kadang sulit untuk melihat kurva dalam regresi linier biasa - mereka dapat terlihat hampir lurus, dan relatif mudah untuk melihat penyimpangan dari kelurusan.
Berikut adalah contoh betapa sulitnya untuk melihat hanya dengan interval kepercayaan untuk rata-rata (interval prediksi bisa jauh lebih sulit untuk dilihat karena variasi relatif mereka jauh lebih sedikit). Berikut adalah beberapa data dan kuadrat terkecil nonlinear, dengan interval kepercayaan untuk rata-rata populasi (dalam hal ini dihasilkan dari distribusi sampling karena saya tahu model yang sebenarnya, tetapi sesuatu yang sangat mirip dapat dilakukan dengan pendekatan asimptotik atau dengan bootstrap):
Batas ungu terlihat hampir sejajar dengan prediksi biru ... tetapi sebenarnya tidak. Inilah kesalahan standar distribusi sampling dari prediksi rata-rata tersebut:
yang jelas tidak konstan.
Edit:
Ekspresi "sp" yang baru saja Anda posting datang langsung dari interval prediksi untuk regresi linier !
sumber
Y-hat +/- sp(Y-hat)
Matematika komputasi kepercayaan dan pita prediksi kurva yang cocok dengan regresi nonlinier dijelaskan dalam halaman Cross-Validated ini. Ini menunjukkan bahwa pita tidak selalu / biasanya simetris.
Dan inilah penjelasan dengan lebih banyak kata dan sedikit matematika:
Pertama, mari kita tentukan G | x, yang merupakan gradien dari parameter pada nilai X tertentu dan menggunakan semua nilai parameter yang paling cocok. Hasilnya adalah vektor, dengan satu elemen per parameter. Untuk setiap parameter, didefinisikan sebagai dY / dP, di mana Y adalah nilai Y dari kurva yang diberi nilai X tertentu dan semua nilai parameter paling cocok, dan P adalah salah satu parameter.)
G '| x adalah vektor gradien yang ditransposisikan, jadi itu adalah kolom daripada deretan nilai. Cov adalah matriks kovarians (terbalik Hessian dari iterasi terakhir). Ini adalah matriks persegi dengan jumlah baris dan kolom sama dengan jumlah parameter. Setiap item dalam matriks adalah kovarians antara dua parameter. Kami menggunakan Cov untuk merujuk ke matriks kovarians yang dinormalisasi , di mana setiap nilai adalah antara -1 dan 1.
Sekarang hitung
Hasilnya adalah angka tunggal untuk nilai X.
Pita keyakinan dan prediksi berpusat pada kurva paling pas, dan meluas di atas dan di bawah kurva dalam jumlah yang sama.
Pita kepercayaan meluas di atas dan di bawah kurva dengan:
Pita prediksi memperpanjang jarak lebih jauh di atas dan di bawah kurva, sama dengan:
Dalam kedua persamaan ini, nilai c (didefinisikan di atas) tergantung pada nilai X, sehingga pita kepercayaan dan prediksi bukanlah jarak konstan dari kurva. Nilai SS adalah jumlah dari kuadrat untuk fit, dan DF adalah jumlah derajat kebebasan (jumlah titik data dikurangi jumlah parameter). CriticalT adalah konstanta dari distribusi t berdasarkan tingkat kepercayaan yang Anda inginkan (secara tradisional 95%) dan jumlah derajat kebebasan. Untuk batas 95%, dan df yang cukup besar, nilai ini mendekati 1,96. Jika DF kecil, nilai ini lebih tinggi.
sumber