Jika perkiraan linier terbaik (menggunakan kuadrat terkecil) dari titik data saya adalah garis , bagaimana saya bisa menghitung kesalahan aproksimasi? Jika saya menghitung standar deviasi perbedaan antara pengamatan dan prediksi e i = r e a l ( x i ) - ( m x i + b ) , dapatkah saya nanti mengatakan bahwa nilai riil (tetapi tidak diamati) nilai y r = r e a l ( x 0 ) termasuk dalam interval ( y p = m x 0 + b ) dengan probabilitas ~ 68%, dengan asumsi distribusi normal?
Untuk memperjelas:
Saya membuat pengamatan tentang fungsi dengan mengevaluasi beberapa poin x i . Saya mencocokkan pengamatan ini dengan garis l ( x ) = m x + b . Untuk x 0 yang tidak saya amati, saya ingin tahu seberapa besar f ( x 0 ) - l ( x 0 ) . Menggunakan metode di atas, apakah benar mengatakan bahwa f ( x 0 ) ∈ [ l ( x 0 dengan prob. ~ 68%?
Jawaban:
@whuber telah mengarahkan Anda ke tiga jawaban yang bagus, tapi mungkin saya masih bisa menulis sesuatu yang bernilai. Pertanyaan eksplisit Anda, seperti yang saya pahami, adalah:
Mengingat model pasy^saya= m^xsaya+ b^ (pemberitahuan saya menambahkan 'topi') , dan asumsi residual saya biasanya didistribusikan, , saya bisa memprediksi bahwa belum respon tidak teramati, y n e w , dengan diketahui nilai prediksi, x n e w , akan jatuh dalam interval ( y - σ e , y + σN( 0 , σ^2e) yn e w xn e w , dengan probabilitas 68%?( y^- σe, y^+ σe)
Secara intuitif, jawabannya sepertinya harus 'ya', tetapi jawaban yang sebenarnya mungkin . Ini akan menjadi kasus ketika parameter (yaitu, & σ ) diketahui dan tanpa kesalahan. Karena Anda memperkirakan parameter ini, kami harus memperhitungkan ketidakpastiannya.m , b , σ
Pertama-tama mari kita pikirkan tentang standar deviasi residu Anda. Karena ini diperkirakan dari data Anda, mungkin ada beberapa kesalahan dalam estimasi. Akibatnya, distribusi harus Anda gunakan untuk membentuk interval prediksi Anda harus , tidak normal. Namun, karena t konvergen dengan cepat ke normal, ini cenderung menjadi masalah dalam praktik.tkesalahan df t
Jadi, bisa kita hanya menggunakan y baru ± t ( 1 - α / 2 , error df ) s , bukan y baru ± z ( 1 - α / 2 ) s , dan pergi jalan gembira kami? Sayangnya tidak ada. Masalah yang lebih besar adalah bahwa ada ketidakpastian tentang perkiraan Anda dari mean bersyarat dari respon di lokasi itu karena ketidakpastian dalam perkiraan Anda m & b . Demikian,y^baru± t( 1 - α / 2 , kesalahan df ) s y^baru± z( 1 - α / 2 )s m^ b^ standar deviasi dari prediksi Anda perlu untuk menggabungkan lebih dari sekedar skesalahan . Karena varians menambahkan , perkiraan varians dari prediksi akan menjadi:
Perhatikan bahwa " x " adalah subscript untuk mewakili nilai tertentu untuk baru pengamatan, dan bahwa " s 2 " adalah sesuai subscript. Artinya, interval prediksi Anda bergantung pada lokasi pengamatan baru di sepanjang x
Setelah menghitung nilai yang benar dengan cara ini, kita dapat menggunakannya dengan distribusi sesuai seperti yang disebutkan di atas.t
sumber