Pertanyaan tentang pengorbanan bias-varians

15

Saya mencoba memahami pengorbanan varians-varians, hubungan antara bias estimator dan bias model, dan hubungan antara varians estimator dan varians model.

Saya sampai pada kesimpulan ini:

  • Kita cenderung menyesuaikan data ketika kita mengabaikan bias estimator, yaitu ketika kita hanya bertujuan untuk meminimalkan bias model mengabaikan varians model (dengan kata lain kita hanya bertujuan meminimalkan varians estimator tanpa mempertimbangkan bias dari estimator juga)
  • Begitu juga sebaliknya, kita cenderung untuk mengurangi data ketika kita mengabaikan varians dari estimator, yaitu ketika kita hanya bertujuan untuk meminimalkan varians dari model mengabaikan bias dari model (dengan kata lain kita hanya bertujuan untuk meminimalkan bias dari estimator tanpa mempertimbangkan varians dari estimator juga).

Apakah kesimpulan saya benar?

John M
sumber
John, saya pikir Anda akan menikmati membaca artikel ini oleh Tal Yarkoni dan Jacob Westfall - ini memberikan interpretasi intuitif dari trade-off bias-varians: jakewestfall.org/publications/… .
Isabella Ghement

Jawaban:

22

Yah, semacam itu. Seperti yang dinyatakan, Anda menganggap niat untuk ilmuwan untuk meminimalkan bias atau variasi. Dalam praktiknya, Anda tidak dapat secara eksplisit mengamati bias atau varians dari model Anda (jika Anda bisa, maka Anda akan tahu sinyal sebenarnya, dalam hal ini Anda tidak memerlukan model). Secara umum, Anda hanya dapat mengamati tingkat kesalahan model Anda pada kumpulan data tertentu, dan Anda berupaya memperkirakan tingkat kesalahan sampel keluar menggunakan berbagai teknik kreatif.

Sekarang Anda tidak tahu bahwa, secara teoritis setidaknya, tingkat kesalahan ini dapat didekomposisi menjadi hal bias dan varians, tetapi Anda tidak dapat secara langsung mengamati keseimbangan ini dalam setiap situasi konkret tertentu. Jadi saya akan menyatakan kembali pengamatan Anda sedikit sebagai:

  • Sebuah model kurang sesuai dengan data ketika suku bias berkontribusi mayoritas kesalahan sampel.
  • Sebuah model sesuai dengan data ketika istilah varians berkontribusi mayoritas kesalahan sampel.

Secara umum, tidak ada cara nyata untuk mengetahui dengan pasti, karena Anda tidak pernah dapat benar-benar mengamati bias model. Meskipun demikian, ada berbagai pola perilaku yang mengindikasikan berada dalam satu situasi atau yang lain:

  • Model overfit cenderung memiliki kinerja fit yang jauh lebih buruk pada set data pengujian vs set data pelatihan.
  • Model pakaian dalam cenderung memiliki kinerja fit yang serupa pada set data pengujian vs pelatihan.

Ini adalah pola yang dimanifestasikan dalam plot tingkat kesalahan yang terkenal dengan kompleksitas model, yang ini dari The Elements of Statistics Learning:

modelComplexity

Seringkali plot-plot ini dilapis dengan bias dan kurva varians. Saya mengambil yang ini dari paparan yang bagus ini :

masukkan deskripsi gambar di sini

Tetapi, sangat penting untuk menyadari bahwa Anda tidak pernah benar-benar bisa melihat kurva tambahan ini dalam situasi yang realistis.

Matthew Drury
sumber
4

Illustrating the Bias - Variance Tradeoff menggunakan contoh mainan

Seperti yang ditunjukkan oleh @Matthew Drury, dalam situasi realistis Anda tidak dapat melihat grafik terakhir, tetapi contoh mainan berikut ini dapat memberikan interpretasi visual dan intuisi kepada mereka yang merasa terbantu.

Kumpulan data dan asumsi

Y

  • Y=ssayan(πx-0,5)+ϵϵUnsayafHairm(-0,5,0,5)
  • Y=f(x)+ϵ

xYVSebuahr(Y)=VSebuahr(ϵ)=112

f^(x)=β0+β1x+β1x2+...+βhalxhal

Pas berbagai model polinomial

Secara intuitif, Anda akan mengharapkan kurva garis lurus berkinerja buruk karena dataset jelas tidak linier. Demikian pula, pemasangan polinomial orde sangat tinggi mungkin berlebihan. Intuisi ini tercermin dalam grafik di bawah ini yang menunjukkan berbagai model dan Mean Square Error terkait untuk data kereta dan uji.

masukkan deskripsi gambar di sini

Grafik di atas berfungsi untuk satu train / split tes tetapi bagaimana kita tahu apakah itu digeneralisasikan?

Memperkirakan kereta yang diharapkan dan menguji MSE

Di sini kami memiliki banyak pilihan, tetapi satu pendekatan adalah membagi data secara acak antara kereta / uji - paskan model pada split yang diberikan, dan ulangi percobaan ini berkali-kali. MSE yang dihasilkan dapat diplot dan rata-rata adalah perkiraan kesalahan yang diharapkan.

masukkan deskripsi gambar di sini

Sangat menarik untuk melihat bahwa tes MSE berfluktuasi liar untuk perbedaan data kereta / tes. Tetapi mengambil rata-rata pada sejumlah besar percobaan cukup memberi kita kepercayaan diri yang lebih baik.

Y

 Bias - Dekomposisi Varian

Seperti dijelaskan di sini , MSE dapat dipecah menjadi 3 komponen utama:

E[(Y-f^)2]=σϵ2+BsayaSebuahs2[f^]+VSebuahr[f^]
E[(Y-f^)2]=σϵ2+[f-E[f^]]2+E[f^-E[f^]]2

Di mana dalam kotak mainan kami:

  • f
  • σϵ2ϵ
  • E[f^] dapat dihitung seperti di atas
  • f^ sesuai dengan garis berwarna terang
  • E[f^-E[f^]]2 dapat diperkirakan dengan mengambil rata-rata

Memberi relasi berikut

masukkan deskripsi gambar di sini

Catatan: grafik di atas menggunakan data pelatihan agar sesuai dengan model dan kemudian menghitung MSE pada tes kereta + .

Xavier Bourret Sicotte
sumber