Dekomposisi Bias-varians: istilah untuk kesalahan perkiraan kuadrat yang diharapkan dikurangi kesalahan yang tidak dapat direduksi

9

Hastie et al. "Unsur Pembelajaran Statistik" (2009) mempertimbangkan proses menghasilkan data dengan dan .E ( ε ) = 0 Var ( ε ) = σ 2 ε

Y=f(X)+ε
E(ε)=0Var(ε)=σε2

Mereka menyajikan dekomposisi bias-varians berikut dari kesalahan perkiraan kuadrat yang diharapkan pada titik (hal. 223, rumus 7.9): Dalam saya karya sendiri saya tidak menentukan tetapi mengambil ramalan arbitrer sebagai gantinya (jika ini relevan). Pertanyaan: Saya mencari istilah untuk \ text {Bias} ^ 2 + \ text {Variance} atau, lebih tepatnya, \ text {Err} (x_0) - \ text {Irreducible error}. Kesalahan ( x 0 )x0F () y

Err(x0)=E([yf^(x0)]2|X=x0)==σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.
f^()y^
Err ( x 0 ) - Kesalahan tak tereduksi .
Bias2+Variance
Err(x0)Irreducible error.
Richard Hardy
sumber
3
Apa pertanyaannya di sini?
Michael R. Chernick
1
@sntx, terima kasih atas idenya. Tapi entah kenapa itu tidak terdengar benar. Mungkin kesalahan pemodelan (yaitu kesalahan karena kesalahan spesifikasi model dan estimasi model yang tidak tepat), tetapi kemudian tidak masuk akal jika tidak ada model penghasil prakiraan (mis. Prakiraan pakar).
Richard Hardy
1
@DeltaIV, itu agak bagus. Namun, saya pikir istilah ini dibebankan; sepertinya ramalannya buruk dan kita bisa melakukan yang lebih baik. Tapi misalkan kita melakukan yang terbaik untuk data yang diberikan. Jadi kita kebetulan telah memilih model yang benar (tidak ada "bias model") tetapi sampel terlalu kecil untuk memperkirakan koefisien secara sempurna. Varians estimasi ("varians model") dengan demikian benar-benar tidak dapat direduksi untuk ukuran sampel yang diberikan - sedangkan istilah "kesalahan yang dapat direduksi" menunjukkan ini bukan masalahnya. Bukannya saya yakin kita bisa datang dengan istilah yang lebih baik, saya masih ingin berjuang untuk itu.
Richard Hardy
1
@DeltaIV, OK, saya sekarang punya intuisi dalam arti itu dapat direduksi. Masih istilah mungkin menyesatkan jika digunakan tanpa penjelasan lebih lanjut (sama seperti Anda harus menjelaskan kepada saya). Saran Anda yang terakhir tepat, yang benar-benar bagus, tetapi seperti yang Anda katakan, itu sangat berbelit-belit.
Richard Hardy
1
@DeltaIV, saya tidak bermaksud terdengar seperti itu. Ini bukan masalah pribadi; argumen saya (semoga meyakinkan) ada di atas dalam komentar. Tetapi terima kasih telah berdiskusi dengan saya, itu membantu.
Richard Hardy

Jawaban:

4

Saya mengusulkan kesalahan yang dapat direduksi . Ini juga merupakan terminologi yang diadopsi dalam paragraf 2.1.1 dari Gareth, Witten, Hastie & Tibshirani, Pengantar Pembelajaran Statistik , sebuah buku yang pada dasarnya merupakan penyederhanaan ESL + beberapa laboratorium kode R yang sangat keren (kecuali untuk fakta bahwa mereka menggunakan attach, tapi, hei, tidak ada yang sempurna). Saya akan daftar di bawah alasan pro dan kontra dari terminologi ini.


Pertama-tama, kita harus ingat bahwa kita tidak hanya berasumsi untuk memiliki mean 0, tetapi juga menjadi independen dari X (lihat paragraf 2.6.1, rumus 2,29 dari ESL, 2 nd edition, 12 th pencetakan). Maka tentu saja ϵ tidak dapat diperkirakan dari X , tidak peduli hipotesis kelas H (keluarga model) mana yang kita pilih, dan seberapa besar sampel yang kita gunakan untuk mempelajari hipotesis kita (perkirakan model kita). Ini menjelaskan mengapa σ 2 ϵ disebut erreducible error .ϵXϵXHσϵ2

Dengan analogi, tampaknya wajar untuk menentukan bagian kesalahan yang tersisa, , kesalahan yang dapat direduksi . Sekarang, terminologi ini mungkin terdengar agak membingungkan: pada kenyataannya, berdasarkan asumsi yang kami buat untuk proses pembuatan data, kami dapat membuktikan bahwaErr(x0)σϵ2

f(x)=E[Y|X=x]

Dengan demikian, kesalahan yang dapat direduksi dapat dikurangi menjadi nol jika dan hanya jika (dengan asumsi tentu saja kami memiliki penduga yang konsisten). If E [ Y | X = x ] H , kami tidak dapat mengarahkan kesalahan yang dapat dikurangi ke 0, bahkan dalam batas ukuran sampel yang tak terbatas. Namun, itu masih satu-satunya bagian dari kesalahan kami yang dapat dikurangi, jika tidak dihilangkan, dengan mengubah ukuran sampel, memperkenalkan regularisasi (penyusutan) di estimator kami, dll Dengan kata lain, dengan memilih yang lain f ( x )E[Y|X=x]HE[Y|X=x]Hf^(x) dalam keluarga model kami.

Pada dasarnya, reducible dimaksudkan bukan dalam arti zeroable (yuck!), Tetapi dalam artian bagian kesalahan itu yang bisa dikurangi, walaupun tidak harus dibuat semena-mena kecil. Juga, perhatikan bahwa pada prinsipnya kesalahan ini dapat dikurangi menjadi 0 dengan memperbesar hingga mencakup E [ Y | X = x ] . Sebaliknya, σ 2 ε tidak dapat dikurangi, tidak peduli seberapa besar H adalah, karena ε X .HE[Y|X=x]σϵ2HϵX

DeltaIV
sumber
Jika kebisingan adalah kesalahan yang tidak dapat direduksi, itu tidak dapat direduksi. Anda perlu memotivasi ini, saya tidak bisa melakukannya sendiri.
Carl
Dalam 2.1.1 contohnya adalah "pengujian beberapa obat dalam darah." Contoh pertama yang saya berikan di bawah ini persis seperti itu. Dalam pengujian itu, apa yang disebut kesalahan pengukuran yang tidak dapat direduksi tidak ada bedanya. Ini terdiri dari penghitungan kebisingan, yang biasanya dikurangi dengan menghitung 10.000 atau lebih peristiwa, kesalahan pemipaan, yang hampir terdistribusi secara eksponensial, dan kesalahan teknis lainnya. Untuk mengurangi kesalahan "irreducible" ini lebih lanjut, saya sarankan menggunakan median tiga tabung penghitungan untuk setiap sampel waktu. Istilah irreducible adalah jargon buruk, coba lagi.
Carl
1
@ Delta, terima kasih atas jawabannya. "Kesalahan yang dapat direduksi" satu liner mungkin tidak terlalu meyakinkan, tetapi mengingat konteks dan diskusi itu terlihat cukup bagus!
Richard Hardy
Saya tidak berpikir bahwa tujuan mengembangkan jargon adalah untuk membingungkan orang. Jika Anda ingin mengatakan kesalahan independen dari , versus kesalahan yang merupakan fungsi dari n , katakan apa yang Anda maksud. nn
Carl
@DeltaV Saya percaya bahwa reducibilitas adalah asumsi yang meragukan, lihat di bawah.
Carl
0

1R2ynn

Mengapa saya tidak suka istilah "reducibility"? Ini berbau tautologi referensial diri seperti dalam Aksioma reducibilitas . Saya setuju dengan Russell 1919 bahwa "Saya tidak melihat alasan untuk percaya bahwa aksioma reducibilitas secara logis diperlukan, yang akan dimaksudkan dengan mengatakan bahwa itu benar di semua dunia yang mungkin. Pengakuan aksioma ini ke dalam sistem Oleh karena itu logika adalah cacat ... asumsi yang meragukan. "

n=36

masukkan deskripsi gambar di sini

Perlu dicatat, bahwa ketika seseorang menjatuhkan sampel pertama pada lima menit, fisika meningkat karena berurutan ketika seseorang terus menjatuhkan sampel awal hingga 60 menit. Ini menunjukkan bahwa meskipun GV pada akhirnya membentuk model yang baik untuk konsentrasi plasma obat, sesuatu yang lain terjadi pada masa-masa awal.

1%

masukkan deskripsi gambar di sini

y

Carl
sumber
Memang, inilah yang dimaksud dengan dekomposisi di atas. Tetapi jawaban Anda lebih baik berfungsi sebagai komentar karena tidak menjawab pertanyaan yang sebenarnya. Atau apakah itu?
Richard Hardy
Bias2+Variance
Sekali lagi, Anda menjawab pertanyaan yang berbeda. Jawaban yang tepat untuk pertanyaan yang salah sayangnya adalah jawaban yang salah (catatan untuk diri sendiri: kebetulan, saya menjelaskan ini kepada mahasiswa sarjana saya kemarin). Saya tidak bertanya seberapa berartinya ungkapan itu (itu berarti bagi seseorang yang telah membaca buku teks ESL dan / atau bekerja dalam pembelajaran mesin terapan), saya meminta istilah yang tepat untuk itu. Pertanyaannya positif, bukan normatif. Dan itu sangat sederhana dan sangat konkret.
Richard Hardy
@ RichardHardy Tanpa fisika, pertanyaan itu sulit saya pahami. Mengubah jawaban saya, lihat misregistrasi di atas.
Carl
1
Anda dapat melakukannya untuk memperkirakan proses, ya, dan itu adalah bagian kesalahan yang dapat direduksi. Tetapi ketika Anda meramalkan peristiwa konkret yang mencakup flip koin, tidak ada cara Anda dapat mengurangi kesalahan yang terkait dengan salah memperkirakan hasil flip koin. Inilah kesalahan tentang irreducible. Menarik: di dunia yang sepenuhnya deterministik tidak akan ada kesalahan yang dapat direduksi menurut definisi, jadi jika pandangan Anda tentang dunia sepenuhnya deterministik, maka saya mungkin mengerti apa yang Anda maksud. Namun, dunia stochastic dalam "Elemen Pembelajaran Statistik" dan dalam statistik secara umum.
Richard Hardy