Masalah dengan bukti harapan Bersyarat sebagai prediktor terbaik

19

Saya punya masalah dengan bukti

$E(Y|X) \in \arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big]$

yang sangat mungkin mengungkapkan kesalahpahaman yang lebih dalam dari harapan dan harapan bersyarat.

Buktinya saya tahu sebagai berikut (versi lain dari bukti ini dapat ditemukan di sini )

\begin{aligned} \arg min_{g (X)} E [(Y - g (x))^{2}] \\ = & \arg min_{g (X)} E [(Y - E (Y | X) + E (Y | X) - g (X))^{2}] \\ = & \arg min_{g (x)} E [(Y - E (Y | X))^{2} + 2 (Y - E (Y | X)) (E (Y | X) - g (X)) + (E (Y | X) - g (X))^{2}] \\ = & \arg min_{g (x)} E [2 (Y - E (Y | X)) (E (Y | X) - g (X)) + (E (Y | X) - g (X))^{2}] \end{aligned}

$\begin{align*} &\arg \min_{g(X)} E\Big[\big(Y - g(x)\big)^2\Big]\\ = &\arg \min_{g(X)} E \Big[ \big(Y - E(Y|X) + E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ \big(Y - E(Y|X)\big)^2 + 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ \end{align*}$

Buktinya kemudian biasanya berlanjut dengan argumen yang menunjukkan bahwa , dan karenanya $2 E\Big[ \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big)\Big] = 0$

\begin{aligned} \arg min_{g (x)} E [(Y - g (x))^{2}] = \arg min_{g (x)} E [(E (Y | X) - g (X))^{2}] \end{aligned}

$\begin{align*} \arg \min_{g(x)} E\Big[\big(Y - g(x)\big)^2\Big] = \arg \min_{g(x)} E \Big[\big(E(Y|X) - g(X)\big)^2\Big] \end{align*}$

yang dapat dilihat diminimalkan ketika $g(X) = E(Y|X)$ .

Teka-teki saya tentang buktinya adalah sebagai berikut:

Mempertimbangkan

$E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]$ .

Tampak bagi saya bahwa, terlepas dari argumen apa pun yang menunjukkan bahwa istilah pertama selalu sama dengan nol, orang dapat melihat bahwa pengaturan $g(X) = E(Y|X)$ meminimalkan ekspresi seperti yang menyiratkan $\big(E(Y|X) - g(X)\big) =0$ dan karenanya

$E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big] = E( 0 + 0)$ = 0.

Tetapi jika ini benar, maka orang dapat mengulangi bukti yang menggantikan dengan fungsi , katakan , dan sampai pada kesimpulan bahwa yang meminimalkan ekspresi. Jadi pasti ada sesuatu yang saya salah paham (kan?). $E(Y|X)$ $X$ $h(X)$ $h(X)$

Saya memiliki beberapa keraguan tentang arti dalam pernyataan masalah. Bagaimana seharusnya notasi ditafsirkan? Apakah itu berarti $E[(Y−g(X))^2]$

$E_X[(Y−g(X))^2]$ , atau ? $E_Y[(Y−g(X))^2]$ $E_{XY}[(Y−g(X))^2]$

mathematical-statistics conditional-probability proof conditional-expectation Martin Van der Linden
sumber

11

(Ini merupakan adaptasi dari Granger & Newbold (1986) "Forecasting Economic Time Series").

Dengan konstruksi, fungsi biaya kesalahan Anda adalah . Ini menggabungkan asumsi kritis (bahwa fungsi biaya kesalahan simetris di sekitar nol) - fungsi biaya kesalahan yang berbeda tidak harus memiliki nilai harapan bersyarat sebagai dari nilai yang diharapkan. Anda tidak dapat meminimalkan fungsi biaya kesalahan karena mengandung jumlah yang tidak diketahui. Jadi, Anda memutuskan untuk meminimalkan nilai yang diharapkan. Maka fungsi obyektif Anda menjadi $\left[Y-g(X)\right]^2$ $\arg \min$

E {[Y - g (X)]}^{2} = \int_{- \infty}^{\infty} {[y - g (X)]}^{2} f_{Y | X} (y | x) d y

$E\left[Y-g(X)\right]^2 = \int_{-\infty}^{\infty}\left[y-g(X)\right]^2f_{Y|X}(y|x)dy$

yang saya percaya menjawab juga pertanyaan kedua Anda. Ini adalah intuitif bahwa nilai yang diharapkan akan menjadi tergantung pada , karena kita mencoba untuk memperkirakan / meramalkan berdasarkan . Membusuk kotak untuk mendapatkan $Y$ $X$ $Y$ $X$

E {[Y - g (X)]}^{2} = \int_{- \infty}^{\infty} y^{2} f_{Y | X} (y | x) d y - 2 g (X) \int_{- \infty}^{\infty} y f_{Y | X} (y | x) d y + [g (X)]^{2} \int_{- \infty}^{\infty} f_{Y | X} (y | x) d y

$E\left[Y-g(X)\right]^2 = \int_{-\infty}^{\infty}y^2f_{Y|X}(y|x)dy -2g(X)\int_{-\infty}^{\infty}yf_{Y|X}(y|x)dy \\+ \Big[g(X)\Big]^2\int_{-\infty}^{\infty}f_{Y|X}(y|x)dy$

Istilah pertama tidak mengandung sehingga tidak mempengaruhi minimalisasi, dan dapat diabaikan. Integral dalam term kedua sama dengan nilai ekspektasi bersyarat dari diberikan , dan integral dalam term terakhir sama dengan kesatuan. Begitu $g(X)$ $Y$ $X$

\arg min_{g (x)} E {[Y - g (X)]}^{2} = \arg min_{g (x)} {- 2 g (X) E (Y ∣ X) + [g (X)]^{2}}

$\arg \min_{g(x)} E\left[Y-g(X)\right]^2 = \arg \min_{g(x)} \Big\{ -2g(X)E(Y\mid X) + \Big[g(X)\Big]^2 \Big\}$

Derivatif pertama wrt adalah mengarah ke kondisi orde pertama untuk minimalisasi sedangkan turunan kedua sama dengan yang cukup untuk minimum. $g(X)$ $-2E(Y\mid X) + 2g(X)$ $g(X) = E(Y\mid X)$ $2>0$

ADDENDUM: Logika pendekatan bukti "tambah dan kurangi".

OP bingung dengan pendekatan yang disebutkan dalam pertanyaan, karena tampaknya tautologis. Bukan, karena saat menggunakan taktik menambah dan mengurangi membuat bagian spesifik dari fungsi objektif nol untuk pilihan sewenang-wenang dari istilah yang ditambahkan dan dikurangkan, itu TIDAK menyamakan fungsi nilai , yaitu nilai tujuan. fungsi dievaluasi pada kandidat minimizer.

Untuk pilihan kita memiliki fungsi nilai Untuk pilihan acak kita memiliki nilai funtion . $g(X) = E(Y \mid X)$ $V\left(E(Y\mid X)\right) = E\Big[ (Y-E(Y \mid X))^2\mid X\Big]$ $g(X) = h(X)$ $V\left(h(X)\right) = E\Big[ (Y-h(X))^2\mid X\Big]$

Saya mengklaim itu

V (E (Y ∣ X)) \leq V (h (X))

$V\left(E(Y\mid X)\right) \le V\left(h(X)\right)$

\Rightarrow E (Y^{2} ∣ X) - 2 E [(Y E (Y ∣ X)) ∣ X] + E [(E (Y ∣ X))^{2} ∣ X] \leq E (Y^{2} ∣ X) - 2 E [(Y h (X)) ∣ X] + E [(h (X))^{2} ∣ X]

$\Rightarrow E(Y^2\mid X) -2E\Big [(YE(Y \mid X))\mid X\Big] + E\Big [(E(Y \mid X))^2\mid X\Big] \\\le E(Y^2\mid X) -2E\Big [(Yh(X))\mid X\Big] + E\Big [(h(X))^2\mid X\Big]$

Istilah pertama LHS dan RHS dibatalkan. Juga mencatat bahwa ekspektasi luar adalah tergantung pada . Berdasarkan sifat-sifat harapan bersyarat, kita berakhir dengan $X$

. . . \Rightarrow - 2 E (Y ∣ X) \cdot E (Y ∣ X) + [E (Y ∣ X)]^{2} \leq - 2 E (Y ∣ X) h (X) + [h (X)]^{2}

$...\Rightarrow -2E(Y \mid X)\cdot E\Big (Y\mid X\Big) + \Big [E(Y \mid X)\Big]^2 \le -2E(Y\mid X)h(X) + \Big [h(X)\Big]^2$

\Rightarrow 0 \leq [E (Y ∣ X)]^{2} - 2 E (Y ∣ X) h (X) + [h (X)]^{2}

$\Rightarrow 0 \le \Big [E(Y \mid X)\Big]^2-2E(Y\mid X)h(X) + \Big [h(X)\Big]^2$

\Rightarrow 0 \leq [E (Y ∣ X) - h (x)]^{2}

$\Rightarrow 0 \le \Big [E(Y \mid X) - h(x)\Big]^2$ yang berlaku dengan ketimpangan yang ketat jika . Jadi adalah minimizer global dan unik.

h (x) \neq E (Y ∣ X)

$h(x) \neq E(Y \mid X)$

E (Y ∣ X)

$E(Y \mid X)$

Tetapi ini juga mengatakan bahwa pendekatan "tambah-dan-kurangi" bukanlah cara pembuktian yang paling mencerahkan di sini.

Alecos Papadopoulos
sumber

Terima kasih atas jawabannya. Ini membantu mengklarifikasi pertanyaan kedua saya. Ketika saya mencoba menyampaikan dalam judul pertanyaan, masalah utama saya (yang pertama di posting) lebih tentang mekanisme pembuktian. Perhatian utama saya adalah tentang pemahaman saya tentang bukti yang saya sajikan dalam pertanyaan. Seperti yang saya jelaskan, pemahaman saya tentang bukti itu menuntun saya pada pernyataan yang benar-benar bermasalah. Jadi saya ingin mengerti jika kesalahan saya adalah karena mungkin mengungkapkan beberapa kesalahpahaman yang lebih dalam tentang konsep ekspektasi dan harapan bersyarat. Ada pemikiran tentang ini?

Martin Van der Linden

1

Saya menambahkan beberapa penjelasan tentang pendekatan "tambah dan kurangi" menjadi bukti.

Alecos Papadopoulos

Butuh waktu untuk memahaminya, tetapi akhirnya saya mendapatkan kesalahan mendasar: cukup benar ketika , tetapi tidak berarti apakah meminimalkan ekspresi . Tidak ada alasan yang ungkapan kurung tidak boleh lebih rendah dari nol. Karena tanda minus di depan orang dapat menemukan beberapa sehingga .

E [- 2 (Y - h (X)) (h (X) - g (X)) + (h (X) - g (X))^{2}] = 0

$E \Big[ - 2 \big(Y - h(X) \big) \big(h(X) - g(X)\big) + \big(h(X) - g(X)\big)^2\Big] = 0$

g (X) = h (X)

$g(X) = h(X)$

h (X)

$h(X)$

(Y - h (X)) (h (X) - g (X))

$\big(Y - h(X) \big) \big(h(X) - g(X)\big)$

g (X)

$g(X)$

E [- 2 (Y - h (X)) (h (X) - g (X)) + (h (X) - g (X))^{2}] < 0

$E \Big[ - 2 \big(Y - h(X) \big) \big(h(X) - g(X)\big) + \big(h(X) - g(X)\big)^2\Big] < 0$

Martin Van der Linden

1

Hmmm ... tanda minus pada ekspresi yang Anda rujuk adalah kesalahan - itu harus merupakan tanda plus. Tentu saja Anda dapat mengatur ulang persyaratan untuk mendapatkan kembali tanda minus ... apakah ini merugikan intuisi yang Anda peroleh?

Alecos Papadopoulos

Terima kasih telah mengikuti pertanyaan. Saya mengedit posting awal untuk memperbaiki kesalahan ini. Untungnya, saya pikir itu tidak melukai intuisi yang didapat. Sebenarnya itu membantu saya memahami kesalahan lain: saya berasumsi bahwa tanda minus penting untuk menjamin bahwa belum tentu minimum . Tapi saya menyadari ini bukan hanya tentang tanda sebelum 2. (Semoga) Yang benar-benar perlu saya pahami adalah bahwa, secara umum (yaitu untuk arbitrary ) tidak perlu diminimalkan ketika (kanan?).

0

$0$

E [- 2 (Y - h (X)) (h (X) - g (X)) + (h (X) - g (X))^{2}]

$E[−2(Y−h(X))(h(X)−g(X))+(h(X)−g(X))^2]$

h (X)

$h(X)$

E [2 (Y - h (X)) (h (X) - g (X))]

$E[2(Y−h(X))(h(X)−g(X))]$

g (X) = h (X)

$g(X)=h(X)$

Martin Van der Linden

5

Perhatikan bahwa untuk membuktikan jawabannya, Anda benar-benar hanya perlu menunjukkan itu

E [- 2 (Y - E (Y | X)) (E (Y | X) - g (X))] = 0

$E \Big[ -2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) \Big] = 0$

Adapun harapan yang harus diambil, Anda menerimanya secara kondisional, jika tidak, istilah

\arg min_{g (X)} E [(Y - g (X))^{2}]

$\arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big]$

Tidak masuk akal, karena adalah variabel acak jika adalah dan bukan . Tunjukkan bahwa Anda benar-benar harus menulis atau untuk memperjelas ini. Sekarang diberikan klarifikasi ini, istilah adalah sebuah konstanta, dan dapat ditarik keluar dari ekspektasi, dan Anda memiliki: $g(X)$ $E$ $E_{XY}$ $E_{Y|X}$ $E\Big[\big(Y - g(X)\big)^2|X\Big]$ $E_{Y|X}\Big[\big(Y - g(X)\big)^2\Big]$ $\big(E(Y|X) - g(X)\big)$

- 2 (E (Y | X) - g (X)) E [(Y - E (Y | X)) | X] = - 2 (E (Y | X) - g (X)) [E (Y | X) - E [E (Y | X) | X]] = - 2 (E (Y | X) - g (X)) [E (Y | X) - E (Y | X)] = 0

Maka Anda dapat menulis fungsi tujuan sebagai:

E_{Y | X} [(Y - g (X))^{2}] = E_{Y | X} [(Y - E_{Y | X} (Y | X))^{2}] + (E_{Y | X} (Y | X) - g (X))^{2}

$E_{Y|X}\Big[\big(Y - g(X)\big)^2\Big]=E_{Y|X}\Big[\big(Y - E_{Y|X}(Y|X)\big)^2\Big]+\big(E_{Y|X}(Y|X) - g(X)\big)^2$

Minimizer sudah jelas dari sini. Perhatikan bahwa jika Anda juga rata-rata lebih dari , maka argumen yang sangat mirip dapat digunakan untuk menunjukkan: $X$

E_{X} [(E (Y | X) - g (X))^{2}] = E_{X} [(E_{Y | X} (Y | X) - E_{X} [E_{Y | X} (Y | X)])^{2}] + (E_{X} [E_{Y | X} (Y | X)] - E_{X} [g (X)])^{2}

$E_{X}\Big[\big(E(Y|X) - g(X)\big)^2\Big]=E_{X}\Big[\big(E_{Y|X}(Y|X) - E_X\big[E_{Y|X}(Y|X)\big]\big)^2\Big]+\Big(E_{X}\big[E_{Y|X}(Y|X)\big] - E_X\big[g(X)\big]\Big)^2$

Ini menunjukkan bahwa jika Anda mengatur untuk masing-masing , maka Anda juga memiliki minimiser atas fungsi ini juga. Jadi dalam beberapa hal tidak terlalu penting apakah adalah atau . $g(X)=E_{Y|X}(Y|X)$ $X$ $E$ $E_{YX}$ $E_{Y|X}$

probabilityislogic
sumber

3

Ada sudut pandang matematika yang sangat sederhana. Apa yang Anda miliki adalah masalah proyeksi dalam ruang Hilbert, seperti memproyeksikan vektor di ke subruang. $\mathbb{R}^n$

Biarkan menunjukkan ruang probabilitas yang mendasarinya. Agar masalah masuk akal, pertimbangkan variabel acak dengan momen kedua hingga, yaitu ruang Hilbert . Masalahnya sekarang adalah ini: diberikan , cari proyeksi ke subruang , di mana adalah -subalgebra dari dihasilkan oleh . (Sama seperti dalam kasus dimensi terbatas, meminimalkan jarak ke ruang bagian berarti menemukan proyeksi). Proyeksi yang diinginkan adalah $(\Omega, \mathcal{F}, \mu)$ $L^2(\Omega, \mathcal{F}, \mu)$ $X, Y \in L^2(\Omega, \mathcal{F}, \mu)$ $Y$ $L^2(\Omega, \mathcal{F}_X, \mu)$ $\mathcal{F}_X$ $\sigma$ $\mathcal{F}$ $X$ $L^2$ $E(X|Y)$ , dengan konstruksi. (Ini sebenarnya mencirikan , jika seseorang memeriksa bukti keberadaannya). $E(X|Y)$

Michael
sumber

Ini adalah respons yang indah.

Juli

0

Mengenai pertanyaan terakhir Anda, ekspektasinya dapat berupa wrt (error tak bersyarat) atau wrt (kesalahan kondisional pada setiap nilai ). Untungnya, meminimalkan kesalahan bersyarat pada setiap nilai juga meminimalkan kesalahan tanpa syarat, jadi ini bukan perbedaan yang krusial. $p(x,y)$ $p(y\mid x)$ $X = x$ $X = x$

Ulisses Braga-Neto
sumber

Masalah dengan bukti harapan Bersyarat sebagai prediktor terbaik

Jawaban: