Saya ingin mengklasifikasikan poin data sebagai membutuhkan model yang lebih kompleks, atau tidak membutuhkan model yang lebih kompleks. Pemikiran saya saat ini adalah untuk mencocokkan semua data ke model linier sederhana, dan mengamati ukuran residu untuk membuat klasifikasi ini. Saya kemudian melakukan beberapa bacaan tentang kontribusi bias dan varians terhadap kesalahan, dan menyadari bahwa jika saya dapat menghitung bias secara langsung, itu mungkin merupakan ukuran yang lebih baik daripada bekerja dengan kesalahan total (residual atau residual standar).
Apakah mungkin untuk memperkirakan bias secara langsung dengan model linier? Dengan atau tanpa data uji? Apakah validasi silang membantu di sini?
Jika tidak, dapatkah seseorang menggunakan ansambel bootstrap rata-rata model linear (saya pikir itu disebut bagging) untuk memperkirakan bias?
Jawaban:
Anda biasanya tidak dapat menguraikan kesalahan (residual) menjadi komponen bias dan varians. Alasan sederhana adalah bahwa Anda umumnya tidak tahu fungsi sebenarnya. Ingat bahwa dan bahwa f ( x ) adalah hal yang tidak diketahui Anda ingin memperkirakan.b i a s ( f^( x ) ) = E[ f^( x ) - f( x ) ] , f( x )
Bagaimana dengan bootstrap? Hal ini dimungkinkan untuk memperkirakan bias dari estimator oleh bootstrap, tapi itu bukan tentang model mengantongi, dan saya tidak percaya ada cara untuk menggunakan bootstrap untuk menilai bias dalam f ( x ) , karena bootstrap masih berdasarkan pada beberapa gagasan tentang Kebenaran dan tidak bisa, terlepas dari asal usul namanya, menciptakan sesuatu dari ketiadaan.f^( x ) ,
Untuk memperjelas: estimasi bootstrap bias dalam estimator θ adalah ^ b i a s B = θ * ( ⋅ ) - θ ,θ^
dengan θ * ( ⋅ ) menjadi rata-rata statistik Anda dihitung B sampel bootstrap . Proses ini mengemulasi pengambilan sampel dari beberapa populasi dan menghitung jumlah yang Anda minati. Ini hanya bekerja jika θ pada prinsipnya bisa dihitung langsung dari populasi. Perkiraan bootstrap dari bias menilai apakah estimasi plug-in - yaitu hanya membuat perhitungan yang sama pada sampel dan bukan dalam populasi - bias.θ^∗( ⋅ ) B θ^
Jika Anda hanya ingin menggunakan residu Anda untuk mengevaluasi kecocokan model, itu sepenuhnya mungkin. Jika Anda, seperti yang Anda katakan di komentar, ingin membandingkan model bersarang dan f 2 ( x ) = 3 x 1 + 2 x 2 + x 1 x 2 , Anda dapat melakukan ANOVA untuk memeriksa apakah model yang lebih besar secara signifikan mengurangi jumlah kesalahan kuadrat.f1( x ) = 3 x1+ 2 x2 f2( x ) = 3 x1+ 2 x2+ x1x2
sumber
Satu situasi di mana Anda bisa mendapatkan perkiraan dekomposisi adalah jika Anda memiliki poin yang direplikasi (yaitu memiliki lebih dari satu respons untuk berbagai kombinasi dari prediktor).
Ini sebagian besar terbatas pada situasi di mana Anda memiliki kontrol variabel independen (seperti dalam percobaan) atau di mana mereka semua diskrit (ketika tidak ada terlalu banyak kombinasi x dan Anda dapat mengambil sampel yang cukup besar sehingga kombinasi nilai x dapatkan beberapa poin).
Poin yang direplikasi memberi Anda cara bebas model dalam memperkirakan mean bersyarat. Dalam situasi seperti itu ada kemungkinan dekomposisi jumlah residu kuadrat menjadi kesalahan murni dan kurang pas , tetapi Anda juga memiliki perkiraan langsung (walaupun tentu berisik) dari bias pada setiap kombinasi nilai-x yang Anda punya beberapa respons.
sumber
Dalam ranah penyaringan Kalman yang agak lebih kompleks, kadang-kadang orang menguji residu (pengukuran yang diamati dikurangi pengukuran yang diprediksi) untuk mencari perubahan model atau kondisi gangguan. Secara teori, jika modelnya sempurna, dan noise-nya adalah Gaussian, maka residunya juga harus Gaussian dengan mean nol dan juga konsisten dengan matriks kovarians yang diprediksi. Orang-orang dapat menguji untuk bukan nol rata-rata dengan tes berurutan seperti Sequential Probability Ratio Test (SPRT). Situasi Anda berbeda karena Anda memiliki kumpulan data yang tetap daripada aliran data baru yang stabil. Tetapi ide dasar untuk melihat distribusi sampel residu mungkin masih berlaku.
Anda menunjukkan bahwa proses yang Anda modelkan mungkin berubah sesekali. Kemudian, untuk berbuat lebih banyak dengan data yang Anda miliki, Anda mungkin perlu mengidentifikasi faktor-faktor lain yang menyebabkan perubahan itu. Pertimbangkan 2 kemungkinan: (1) mungkin Anda memerlukan model lokal daripada satu model global, misalnya, karena ada nonlinier yang parah hanya di beberapa wilayah operasi, atau (2), mungkin prosesnya berubah seiring waktu.
Jika ini adalah sistem fisik, dan sampel Anda tidak diambil interval waktu yang sangat besar, ada kemungkinan bahwa perubahan proses ini bertahan selama periode waktu yang signifikan. Artinya, parameter model yang sebenarnya kadang-kadang dapat berubah, bertahan selama beberapa periode waktu. Jika data Anda dicap waktu, Anda mungkin melihat residu dari waktu ke waktu. Sebagai contoh, misalkan Anda sudah cocok y = Ax + b menggunakan semua data Anda, menemukan A dan b. Kemudian kembali dan uji urutan residu r [k] = y [k] - Ax [k] - b, di mana k adalah indeks yang sesuai dengan waktu dalam urutan berurutan. Cari pola dari waktu ke waktu, misalnya periode di mana statistik ringkasan seperti || r [k] || tetap lebih tinggi dari normal selama beberapa waktu. Tes berurutan akan menjadi yang paling sensitif untuk mendeteksi jenis kesalahan bias yang berkelanjutan, seperti SPRT atau bahkan CUSUM untuk indeks vektor individu.
sumber
Jawabannya adalah tidak , karena bias dan varians adalah atribut parameter model, bukan data yang digunakan untuk memperkirakannya. Ada pengecualian parsial untuk pernyataan yang berkaitan dengan bias dan varians yang bervariasi (ha!) Melalui ruang prediktor; lebih lanjut tentang itu di bawah ini. Perhatikan bahwa ini sama sekali tidak ada hubungannya dengan mengetahui beberapa fungsi "benar" yang menghubungkan variabel prediktor dan respons.
Ada beberapa cara terkait yang menghubungkan bias dan varians dengan data itu sendiri, tetapi mereka sedikit lebih rumit. Seperti yang Anda lihat, bias dan varians dapat diperkirakan untuk model linier, tetapi Anda akan memerlukan sedikit data penahanan. Masalah yang lebih berbahaya adalah kenyataan bahwa begitu Anda mulai bekerja dengan dataset tetap, analisis Anda akan dicemari oleh varians pribadi Anda , di mana Anda akan mulai berkeliaran di taman jalur forking dan tidak ada cara untuk mengetahui bagaimana itu akan mereplikasi out-of-sample (kecuali Anda hanya datang dengan model tunggal dan menjalankan analisis ini dan berkomitmen untuk membiarkannya sendiri setelah itu).
sumber