Dekomposisi Bias-varians

13

Dalam bagian 3.2 dari Pengenalan Pola Uskup dan Pembelajaran Mesin , dia membahas dekomposisi bias-varians, yang menyatakan bahwa untuk fungsi kerugian kuadrat, kerugian yang diharapkan dapat didekomposisi menjadi istilah bias kuadrat (yang menggambarkan seberapa jauh rata-rata prediksi dari yang benar. model), istilah varians (yang menggambarkan penyebaran prediksi di sekitar rata-rata), dan istilah kebisingan (yang memberikan kebisingan intrinsik data).

  1. Bisakah dekomposisi bias-varians dilakukan dengan fungsi kerugian selain kerugian kuadrat?
  2. Untuk dataset model yang diberikan, apakah ada lebih dari satu model yang kehilangan yang diharapkan adalah minimum dari semua model, dan jika demikian, apakah itu berarti bahwa mungkin ada kombinasi yang berbeda dari bias dan varians yang menghasilkan kerugian yang diharapkan minimum yang sama?
  3. Jika suatu model melibatkan regularisasi, adakah hubungan matematis antara bias, varians, dan koefisien regularisasi λ ?
  4. Bagaimana Anda bisa menghitung bias jika Anda tidak tahu model yang sebenarnya?
  5. Apakah ada situasi di mana lebih masuk akal untuk meminimalkan bias atau varians daripada kerugian yang diharapkan (jumlah bias kuadrat dan varians)?
Vivek Subramanian
sumber

Jawaban:

3

... kerugian [kesalahan kuadrat] yang diharapkan dapat didekomposisi menjadi istilah bias kuadrat (yang menggambarkan seberapa jauh prediksi rata-rata dari model sebenarnya), istilah varians (yang menggambarkan penyebaran prediksi di sekitar rata-rata), dan istilah kebisingan (yang memberikan suara intrinsik data).

Ketika melihat dekomposisi kesalahan kehilangan kuadrat Saya hanya melihat dua istilah: satu untuk bias dan satu lagi untuk varian estimator atau prediktor, δ ( X 1 : n ) . Tidak ada istilah kebisingan tambahan dalam kerugian yang diharapkan. Sebagaimana seharusnya karena variabilitas adalah variabilitas δ ( X 1 : n ) , bukan dari sampel itu sendiri.

Eθ[(θδ(X1:n))2]=(θEθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]δ(X1:n))2]
δ(X1:n)δ(X1:n)
  1. Bisakah dekomposisi bias-varians dilakukan dengan fungsi kerugian selain kerugian kuadrat?

Interpretasi saya terhadap dekomposisi bias + varian kuadrat [dan cara saya mengajarkannya] adalah bahwa ini adalah statistik yang setara dengan Teorema Pythagore, yaitu bahwa jarak kuadrat antara estimator dan titik dalam himpunan tertentu adalah jumlah dari jarak kuadrat antara estimator dan himpunan, ditambah jarak kuadrat antara proyeksi ortogonal pada himpunan dan titik dalam himpunan. Kerugian berdasarkan jarak dengan nFor model data yang diberikan, apakah ada lebih dari satu model yang kehilangan yang diharapkan adalah minimum dari semua model, dan jika demikian, apakah itu berarti bahwa mungkin ada kombinasi yang berbeda dari bias dan varians yang menghasilkan Kerugian minimum yang diharapkan yang sama dari proyeksi orthogonal, yaitu, produk dalam, yaitu, pada dasarnya ruang Hilbert, memenuhi dekomposisi ini.

  1. Untuk dataset model yang diberikan, apakah ada lebih dari satu model yang kehilangan yang diharapkan adalah minimum dari semua model, dan jika demikian, apakah itu berarti bahwa mungkin ada kombinasi yang berbeda dari bias dan varians yang menghasilkan kerugian yang diharapkan minimum yang sama?

Pertanyaannya tidak jelas: jika secara minimum lebih dari model, yang Anda maksud adalah maka ada banyak contoh model statistik dan keputusan terkait dengan kerugian yang diharapkan konstan (atau risiko ). Ambil contoh MLE dari rata-rata Normal.

minθEθ[(θδ(X1:n))2]
  1. Bagaimana Anda bisa menghitung bias jika Anda tidak tahu model yang sebenarnya?

Dalam arti umum, bias adalah jarak antara model yang sebenarnya dan model terdekat dalam keluarga distribusi yang diasumsikan. Jika model yang sebenarnya tidak diketahui, bias dapat dipastikan dengan bootstrap.

  1. Apakah ada situasi di mana lebih masuk akal untuk meminimalkan bias atau varians daripada kerugian yang diharapkan (jumlah bias kuadrat dan varians)?

Ketika mempertimbangkan fungsi kerugian lain seperti mendorong α ke nol menempatkan sebagian besar evaluasi pada bias sementara mendorong α hingga tak terbatas mengalihkan fokus pada varian.

(θEθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]δ(X1:n))2]0<α
αα
Xi'an
sumber
Istilah noise yang dirujuk OP disebabkan oleh fakta bahwa estimator bukan untuk parameter tetapi untuk fungsi dalam model Y = f ( X ) + ϵ , di mana noise (independen) ϵ diasumsikan memiliki rata-rata nol dan varians σ ϵ . Menambahkan dan mengurangkan pertama f ( X ) maka E [ f ( X ) ] di E [ ( Y - f ( X ) ) 2 | XfY=f(X)+ϵϵσϵf(X)E[f^(X)] , salah satu tiba di dekomposisi disebutkan σ 2 ε + Bias 2 f ( x ) + Var f ( x )E[(Yf(X))2|X=x]σϵ2+Bias2f^(x)+Varf^(x)
Miguel
Ini adalah asumsi f independen dari ε , yang tampaknya tidak realistis asumsi. f^ϵ
Xi'an
Hmm, tentu saja Anda benar. Tapi saya pikir masalahnya adalah artefak dari derivasi ceroboh saya. Lihat hal.223 dari ESLII Hastie & Tibshirani
Miguel
ϵf^