Hastie et al. "Unsur Pembelajaran Statistik" (2009) mempertimbangkan proses menghasilkan data dengan dan .E ( ε ) = 0 Var ( ε ) = σ 2 ε
Mereka menyajikan dekomposisi bias-varians berikut dari kesalahan perkiraan kuadrat yang diharapkan pada titik (hal. 223, rumus 7.9): Dalam saya karya sendiri saya tidak menentukan tetapi mengambil ramalan arbitrer sebagai gantinya (jika ini relevan). Pertanyaan: Saya mencari istilah untuk \ text {Bias} ^ 2 + \ text {Variance} atau, lebih tepatnya, \ text {Err} (x_0) - \ text {Irreducible error}. Kesalahan ( x 0 )F (⋅) y
Err ( x 0 ) - Kesalahan tak tereduksi .
variance
forecasting
prediction
terminology
bias
Richard Hardy
sumber
sumber
Jawaban:
Saya mengusulkan kesalahan yang dapat direduksi . Ini juga merupakan terminologi yang diadopsi dalam paragraf 2.1.1 dari Gareth, Witten, Hastie & Tibshirani, Pengantar Pembelajaran Statistik , sebuah buku yang pada dasarnya merupakan penyederhanaan ESL + beberapa laboratorium kode R yang sangat keren (kecuali untuk fakta bahwa mereka menggunakan
attach
, tapi, hei, tidak ada yang sempurna). Saya akan daftar di bawah alasan pro dan kontra dari terminologi ini.Pertama-tama, kita harus ingat bahwa kita tidak hanya berasumsi untuk memiliki mean 0, tetapi juga menjadi independen dari X (lihat paragraf 2.6.1, rumus 2,29 dari ESL, 2 nd edition, 12 th pencetakan). Maka tentu saja ϵ tidak dapat diperkirakan dari X , tidak peduli hipotesis kelas H (keluarga model) mana yang kita pilih, dan seberapa besar sampel yang kita gunakan untuk mempelajari hipotesis kita (perkirakan model kita). Ini menjelaskan mengapa σ 2 ϵ disebut erreducible error .ϵ X ϵ X H σ2ϵ
Dengan analogi, tampaknya wajar untuk menentukan bagian kesalahan yang tersisa, , kesalahan yang dapat direduksi . Sekarang, terminologi ini mungkin terdengar agak membingungkan: pada kenyataannya, berdasarkan asumsi yang kami buat untuk proses pembuatan data, kami dapat membuktikan bahwaKesalahan ( x0) - σ2ϵ
Dengan demikian, kesalahan yang dapat direduksi dapat dikurangi menjadi nol jika dan hanya jika (dengan asumsi tentu saja kami memiliki penduga yang konsisten). If E [ Y | X = x ] ∉ H , kami tidak dapat mengarahkan kesalahan yang dapat dikurangi ke 0, bahkan dalam batas ukuran sampel yang tak terbatas. Namun, itu masih satu-satunya bagian dari kesalahan kami yang dapat dikurangi, jika tidak dihilangkan, dengan mengubah ukuran sampel, memperkenalkan regularisasi (penyusutan) di estimator kami, dll Dengan kata lain, dengan memilih yang lain f ( x )E [Y| X= x ] ∈ H E [Y| X= x ] ∉ H f^( x ) dalam keluarga model kami.
Pada dasarnya, reducible dimaksudkan bukan dalam arti zeroable (yuck!), Tetapi dalam artian bagian kesalahan itu yang bisa dikurangi, walaupun tidak harus dibuat semena-mena kecil. Juga, perhatikan bahwa pada prinsipnya kesalahan ini dapat dikurangi menjadi 0 dengan memperbesar hingga mencakup E [ Y | X = x ] . Sebaliknya, σ 2 ε tidak dapat dikurangi, tidak peduli seberapa besar H adalah, karena ε ⊥ X .H E [Y| X= x ] σ2ϵ H ϵ ⊥ X
sumber
Mengapa saya tidak suka istilah "reducibility"? Ini berbau tautologi referensial diri seperti dalam Aksioma reducibilitas . Saya setuju dengan Russell 1919 bahwa "Saya tidak melihat alasan untuk percaya bahwa aksioma reducibilitas secara logis diperlukan, yang akan dimaksudkan dengan mengatakan bahwa itu benar di semua dunia yang mungkin. Pengakuan aksioma ini ke dalam sistem Oleh karena itu logika adalah cacat ... asumsi yang meragukan. "
Perlu dicatat, bahwa ketika seseorang menjatuhkan sampel pertama pada lima menit, fisika meningkat karena berurutan ketika seseorang terus menjatuhkan sampel awal hingga 60 menit. Ini menunjukkan bahwa meskipun GV pada akhirnya membentuk model yang baik untuk konsentrasi plasma obat, sesuatu yang lain terjadi pada masa-masa awal.
sumber