(Ini merupakan adaptasi dari Granger & Newbold (1986) "Forecasting Economic Time Series").
Dengan konstruksi, fungsi biaya kesalahan Anda adalah . Ini menggabungkan asumsi kritis (bahwa fungsi biaya kesalahan simetris di sekitar nol) - fungsi biaya kesalahan yang berbeda tidak harus memiliki nilai harapan bersyarat sebagai dari nilai yang diharapkan. Anda tidak dapat meminimalkan fungsi biaya kesalahan karena mengandung jumlah yang tidak diketahui. Jadi, Anda memutuskan untuk meminimalkan nilai yang diharapkan. Maka fungsi obyektif Anda menjadi argmin[ Y- g( X) ]2argmin
E[ Y- g( X) ]2= ∫∞- ∞[ y- g( X) ]2fY| X( y| x)dy
yang saya percaya menjawab juga pertanyaan kedua Anda. Ini adalah intuitif bahwa nilai yang diharapkan akan menjadi tergantung pada , karena kita mencoba untuk memperkirakan / meramalkan berdasarkan . Membusuk kotak untuk mendapatkanX YYXYX
E[ Y- g( X) ]2= ∫∞- ∞y2fY| X( y| x)dy- 2 g( X) ∫∞- ∞yfY| X( y| x)dy+ [ g( X) ]2∫∞- ∞fY| X( y| x)dy
Istilah pertama tidak mengandung sehingga tidak mempengaruhi minimalisasi, dan dapat diabaikan. Integral dalam term kedua sama dengan nilai ekspektasi bersyarat dari diberikan , dan integral dalam term terakhir sama dengan kesatuan. BegituYg( X)YX
argming( x )E[ Y- g( X) ]2= argming( x ){−2g(X)E(Y∣X)+[g(X)]2}
Derivatif pertama wrt adalah mengarah ke kondisi orde pertama untuk minimalisasi sedangkan turunan kedua sama dengan yang cukup untuk minimum.- 2 E ( Y ∣ X ) + 2 g ( X ) g ( X ) = E ( Y ∣ X ) 2 > 0g(X)−2E(Y∣X)+2g(X)g(X)=E(Y∣X)2 > 0
ADDENDUM: Logika pendekatan bukti "tambah dan kurangi".
OP bingung dengan pendekatan yang disebutkan dalam pertanyaan, karena tampaknya tautologis. Bukan, karena saat menggunakan taktik menambah dan mengurangi membuat bagian spesifik dari fungsi objektif nol untuk pilihan sewenang-wenang dari istilah yang ditambahkan dan dikurangkan, itu TIDAK menyamakan fungsi nilai , yaitu nilai tujuan. fungsi dievaluasi pada kandidat minimizer.
Untuk pilihan kita memiliki fungsi nilai
Untuk pilihan acak kita memiliki nilai funtion .V ( E ( Y ∣ X ) ) = E [ ( Y - E ( Y ∣ X ) ) 2 ∣ X ] g ( X ) = h ( X ) V ( h ( X ) ) = E [ ( Y - h (g( X) = E( Y∣ X)V( E( Y∣ X) ) = E[ ( Y- E( Y∣ X) )2∣ X]g( X) = h ( X)V( h ( X) ) = E[ ( Y- h ( X) )2∣ X]
Saya mengklaim itu
⇒ E ( Y 2 ∣ X ) - 2 E [ ( Y E ( Y ∣ X ) ) ∣ X ] + E [ ( E ( Y ∣ X ) ) 2 ∣
V( E( Y∣ X) ) ≤ V( h ( X) )
⇒ E( Y2∣ X) - 2 E[ ( YE( Y∣ X))∣X]+E[(E(Y∣X))2∣X]≤E(Y2∣X)−2E[(Yh(X))∣X]+E[(h(X))2∣X]
Istilah pertama LHS dan RHS dibatalkan. Juga mencatat bahwa ekspektasi luar adalah tergantung pada . Berdasarkan sifat-sifat harapan bersyarat, kita berakhir denganX
...⇒−2E(Y∣X)⋅E(Y∣X)+[E(Y∣X)]2≤−2E(Y∣X)h(X)+[h(X)]2
⇒0≤[E(Y∣X)]2−2E(Y∣X)h(X)+[h(X)]2
⇒0≤[E(Y∣X)−h(x)]2
yang berlaku dengan ketimpangan yang ketat jika . Jadi adalah minimizer global dan unik.
E ( Y ∣ X )h(x)≠E(Y∣X)E(Y∣X)
Tetapi ini juga mengatakan bahwa pendekatan "tambah-dan-kurangi" bukanlah cara pembuktian yang paling mencerahkan di sini.
Perhatikan bahwa untuk membuktikan jawabannya, Anda benar-benar hanya perlu menunjukkan itu
Adapun harapan yang harus diambil, Anda menerimanya secara kondisional, jika tidak, istilah
Tidak masuk akal, karena adalah variabel acak jika adalah dan bukan . Tunjukkan bahwa Anda benar-benar harus menulis atau untuk memperjelas ini. Sekarang diberikan klarifikasi ini, istilah adalah sebuah konstanta, dan dapat ditarik keluar dari ekspektasi, dan Anda memiliki:g(X) E EXY EY| X E[ (Y-g(X) )2| X] EY| X[ (Y-g(X) )2] (E( Y|X) -g(X) )
Maka Anda dapat menulis fungsi tujuan sebagai:
Minimizer sudah jelas dari sini. Perhatikan bahwa jika Anda juga rata-rata lebih dari , maka argumen yang sangat mirip dapat digunakan untuk menunjukkan:X
Ini menunjukkan bahwa jika Anda mengatur untuk masing-masing , maka Anda juga memiliki minimiser atas fungsi ini juga. Jadi dalam beberapa hal tidak terlalu penting apakah adalah atau .g( X) = EY| X( Y| X) X E EYX EY| X
sumber
Ada sudut pandang matematika yang sangat sederhana. Apa yang Anda miliki adalah masalah proyeksi dalam ruang Hilbert, seperti memproyeksikan vektor di ke subruang.Rn
Biarkan menunjukkan ruang probabilitas yang mendasarinya. Agar masalah masuk akal, pertimbangkan variabel acak dengan momen kedua hingga, yaitu ruang Hilbert . Masalahnya sekarang adalah ini: diberikan , cari proyeksi ke subruang , di mana adalah -subalgebra dari dihasilkan oleh . (Sama seperti dalam kasus dimensi terbatas, meminimalkan jarak ke ruang bagian berarti menemukan proyeksi). Proyeksi yang diinginkan adalah( Ω , F, μ ) L.2( Ω , F, μ ) X, Y∈ L2( Ω , F, μ ) Y L.2( Ω , FX, μ ) FX σ F X L.2 E( X| Y) , dengan konstruksi. (Ini sebenarnya mencirikan , jika seseorang memeriksa bukti keberadaannya).E( X| Y)
sumber
Mengenai pertanyaan terakhir Anda, ekspektasinya dapat berupa wrt (error tak bersyarat) atau wrt (kesalahan kondisional pada setiap nilai ). Untungnya, meminimalkan kesalahan bersyarat pada setiap nilai juga meminimalkan kesalahan tanpa syarat, jadi ini bukan perbedaan yang krusial.p ( x , y) p ( y∣ x ) X= x X= x
sumber