Apakah mungkin untuk menguraikan residu yang sudah terpasang menjadi bias dan varians, setelah memasang model linier?

9

Saya ingin mengklasifikasikan poin data sebagai membutuhkan model yang lebih kompleks, atau tidak membutuhkan model yang lebih kompleks. Pemikiran saya saat ini adalah untuk mencocokkan semua data ke model linier sederhana, dan mengamati ukuran residu untuk membuat klasifikasi ini. Saya kemudian melakukan beberapa bacaan tentang kontribusi bias dan varians terhadap kesalahan, dan menyadari bahwa jika saya dapat menghitung bias secara langsung, itu mungkin merupakan ukuran yang lebih baik daripada bekerja dengan kesalahan total (residual atau residual standar).

Apakah mungkin untuk memperkirakan bias secara langsung dengan model linier? Dengan atau tanpa data uji? Apakah validasi silang membantu di sini?

Jika tidak, dapatkah seseorang menggunakan ansambel bootstrap rata-rata model linear (saya pikir itu disebut bagging) untuk memperkirakan bias?

regression multiple-regression residuals bias-variance-tradeoff kmace
sumber

1

Mungkin ini setara (residual vs bias) karena varians dalam konstanta?

kmace

1

Bisakah Anda mengklarifikasi apa yang Anda maksudkan dengan pernyataan pertama dari posting Anda? Dalam hal ini Anda ingin mengklasifikasikan "titik data" (pengamatan individual?) Sebagai "membutuhkan yang lebih kompleks, atau tidak memerlukan model yang lebih kompleks." Tidak jelas bagi saya apa artinya ini (meskipun kedengarannya seperti deteksi outlier atau masalah tipe good-of-fit lainnya), atau bagaimana hubungannya dengan pertanyaan selanjutnya tentang estimasi bias.

Ryan Simmons

Maksud saya adalah bahwa ada subset dari sampel saya yang memiliki fungsi target yang berbeda

. Jadi katakanlah untuk sebagian besar sampel, fungsi target sebenarnya adalah sebagai berikut:

dan untuk sebagian kecil sampel, fungsi target adalah:

f (x)

$f(x)$

f_{1} (x) = 3 x_{1} + 2 x_{2}

$f_1(x) = 3x_1 + 2x_2$

f_{2} (x) = 3 x_{1} + 2 x_{2} + x_{1} x_{2}

$f_2(x) = 3x_1 + 2x_2 + x_1x_2$ . Jika saya tidak mengizinkan istilah interaksi dalam model saya (set hipotesis saya tidak mengandung mereka), maka saya harus cocok dengan semua data, dan melihat bahwa sampel yang memiliki kesalahan besar mungkin memiliki fungsi target

f_{2}

$f_2$

kmace

2

Seperti yang sudah ditunjukkan oleh Ryan, pertanyaannya tidak dinyatakan dengan jelas. Komentar Anda menunjuk ke arah "good-of-fit". Tetapi tidak mungkin membalikkan ini. Anda tampaknya memiliki konsep pra dalam pikiran, yang menyesatkan. Anda dapat menghitung banyak hal jika Anda menggabungkan model dan beberapa data dan menentukan parameter model. Tetapi mengingat bahwa Anda selalu mulai dengan kumpulan data yang terbatas secara statistik, tidak ada kebenaran yang dapat Anda ungkapkan dengan menggali lebih keras atau dengan lebih banyak sekop. Tidak ada metode yang Anda terapkan akan menghasilkan kebenaran, tetapi itu mungkin menunjukkan betapa salahnya Anda.

kerub

12

Anda biasanya tidak dapat menguraikan kesalahan (residual) menjadi komponen bias dan varians. Alasan sederhana adalah bahwa Anda umumnya tidak tahu fungsi sebenarnya. Ingat bahwa dan bahwa adalah hal yang tidak diketahui Anda ingin memperkirakan. $bias(\hat f(x)) = E[\hat f(x) - f(x)],$ $f(x)$

Bagaimana dengan bootstrap? Hal ini dimungkinkan untuk memperkirakan bias dari estimator oleh bootstrap, tapi itu bukan tentang model mengantongi, dan saya tidak percaya ada cara untuk menggunakan bootstrap untuk menilai bias dalam karena bootstrap masih berdasarkan pada beberapa gagasan tentang Kebenaran dan tidak bisa, terlepas dari asal usul namanya, menciptakan sesuatu dari ketiadaan. $\hat f(x),$

Untuk memperjelas: estimasi bootstrap bias dalam estimator adalah $\hat \theta$

{\hat{b i a s}}_{B} = {\hat{θ}}^{*} (\cdot) - \hat{θ},

$\widehat{bias}_B = \hat\theta^*(\cdot) - \hat \theta,$

dengan menjadi rata-rata statistik Anda dihitung sampel bootstrap . Proses ini mengemulasi pengambilan sampel dari beberapa populasi dan menghitung jumlah yang Anda minati. Ini hanya bekerja jika pada prinsipnya bisa dihitung langsung dari populasi. Perkiraan bootstrap dari bias menilai apakah estimasi plug-in - yaitu hanya membuat perhitungan yang sama pada sampel dan bukan dalam populasi - bias. $\hat\theta^*(\cdot)$ $B$ $\hat\theta$

Jika Anda hanya ingin menggunakan residu Anda untuk mengevaluasi kecocokan model, itu sepenuhnya mungkin. Jika Anda, seperti yang Anda katakan di komentar, ingin membandingkan model bersarang dan , Anda dapat melakukan ANOVA untuk memeriksa apakah model yang lebih besar secara signifikan mengurangi jumlah kesalahan kuadrat. $f_1(x) = 3x_1 + 2x_2$ $f_2(x) = 3x_1 + 2x_2 + x_1x_2$

Einar
sumber

8

Satu situasi di mana Anda bisa mendapatkan perkiraan dekomposisi adalah jika Anda memiliki poin yang direplikasi (yaitu memiliki lebih dari satu respons untuk berbagai kombinasi dari prediktor).

Ini sebagian besar terbatas pada situasi di mana Anda memiliki kontrol variabel independen (seperti dalam percobaan) atau di mana mereka semua diskrit (ketika tidak ada terlalu banyak kombinasi x dan Anda dapat mengambil sampel yang cukup besar sehingga kombinasi nilai x dapatkan beberapa poin).

Poin yang direplikasi memberi Anda cara bebas model dalam memperkirakan mean bersyarat. Dalam situasi seperti itu ada kemungkinan dekomposisi jumlah residu kuadrat menjadi kesalahan murni dan kurang pas , tetapi Anda juga memiliki perkiraan langsung (walaupun tentu berisik) dari bias pada setiap kombinasi nilai-x yang Anda punya beberapa respons.

Glen_b -Reinstate Monica
sumber

Saya tidak berpikir ini akan berhasil. Pertimbangkan kasus di mana Anda menghapus variabel penjelas penting dari model Anda. Jika variabel penjelas ini ortogonal untuk semua variabel penjelas lainnya, saya percaya efeknya (atau kurang) tidak dapat dideteksi dengan ini atau metodologi lain yang disarankan dalam jawaban lain.

Cagdas Ozgenc

2

@Cagdas Tidak berfungsi dalam segala situasi; mendeteksi bias dari bentuk-model yang tidak ditentukan, tidak

meramalkan

1

Dalam ranah penyaringan Kalman yang agak lebih kompleks, kadang-kadang orang menguji residu (pengukuran yang diamati dikurangi pengukuran yang diprediksi) untuk mencari perubahan model atau kondisi gangguan. Secara teori, jika modelnya sempurna, dan noise-nya adalah Gaussian, maka residunya juga harus Gaussian dengan mean nol dan juga konsisten dengan matriks kovarians yang diprediksi. Orang-orang dapat menguji untuk bukan nol rata-rata dengan tes berurutan seperti Sequential Probability Ratio Test (SPRT). Situasi Anda berbeda karena Anda memiliki kumpulan data yang tetap daripada aliran data baru yang stabil. Tetapi ide dasar untuk melihat distribusi sampel residu mungkin masih berlaku.

Anda menunjukkan bahwa proses yang Anda modelkan mungkin berubah sesekali. Kemudian, untuk berbuat lebih banyak dengan data yang Anda miliki, Anda mungkin perlu mengidentifikasi faktor-faktor lain yang menyebabkan perubahan itu. Pertimbangkan 2 kemungkinan: (1) mungkin Anda memerlukan model lokal daripada satu model global, misalnya, karena ada nonlinier yang parah hanya di beberapa wilayah operasi, atau (2), mungkin prosesnya berubah seiring waktu.

Jika ini adalah sistem fisik, dan sampel Anda tidak diambil interval waktu yang sangat besar, ada kemungkinan bahwa perubahan proses ini bertahan selama periode waktu yang signifikan. Artinya, parameter model yang sebenarnya kadang-kadang dapat berubah, bertahan selama beberapa periode waktu. Jika data Anda dicap waktu, Anda mungkin melihat residu dari waktu ke waktu. Sebagai contoh, misalkan Anda sudah cocok y = Ax + b menggunakan semua data Anda, menemukan A dan b. Kemudian kembali dan uji urutan residu r [k] = y [k] - Ax [k] - b, di mana k adalah indeks yang sesuai dengan waktu dalam urutan berurutan. Cari pola dari waktu ke waktu, misalnya periode di mana statistik ringkasan seperti || r [k] || tetap lebih tinggi dari normal selama beberapa waktu. Tes berurutan akan menjadi yang paling sensitif untuk mendeteksi jenis kesalahan bias yang berkelanjutan, seperti SPRT atau bahkan CUSUM untuk indeks vektor individu.

RUPS
sumber

1

Jawabannya adalah tidak , karena bias dan varians adalah atribut parameter model, bukan data yang digunakan untuk memperkirakannya. Ada pengecualian parsial untuk pernyataan yang berkaitan dengan bias dan varians yang bervariasi (ha!) Melalui ruang prediktor; lebih lanjut tentang itu di bawah ini. Perhatikan bahwa ini sama sekali tidak ada hubungannya dengan mengetahui beberapa fungsi "benar" yang menghubungkan variabel prediktor dan respons.

$β$ $\hatβ=(X^TX)^{-1}X^TY$ $X$ $N×P$ $\hatβ$ $P×1$ $Y$ $N×1$ $N$ $P$ $\hatβ$ $N_{iter}$ $N$ $N_{iter}$ $\hatβ$ $N$ $P$

$\hatβ_{best}$ $P$ $\hatβ_{best_j}-\hatβ_j$ $j$ $1$ $N_{iter}$

Ada beberapa cara terkait yang menghubungkan bias dan varians dengan data itu sendiri, tetapi mereka sedikit lebih rumit. Seperti yang Anda lihat, bias dan varians dapat diperkirakan untuk model linier, tetapi Anda akan memerlukan sedikit data penahanan. Masalah yang lebih berbahaya adalah kenyataan bahwa begitu Anda mulai bekerja dengan dataset tetap, analisis Anda akan dicemari oleh varians pribadi Anda , di mana Anda akan mulai berkeliaran di taman jalur forking dan tidak ada cara untuk mengetahui bagaimana itu akan mereplikasi out-of-sample (kecuali Anda hanya datang dengan model tunggal dan menjalankan analisis ini dan berkomitmen untuk membiarkannya sendiri setelah itu).

$Y$ $\hat{Y}$ $Y-\hat{Y}$ $\hat{Y}=X\hatβ$ $\hatβ$ $Y$ $X$

Josh
sumber

Apakah mungkin untuk menguraikan residu yang sudah terpasang menjadi bias dan varians, setelah memasang model linier?

Jawaban: