Saya berjuang untuk memahami konsep bias dalam konteks analisis regresi linier.
Apa definisi matematika dari bias?
Apa yang sebenarnya bias dan mengapa / bagaimana?
Contoh ilustratif?
sumber
Saya berjuang untuk memahami konsep bias dalam konteks analisis regresi linier.
Apa definisi matematika dari bias?
Apa yang sebenarnya bias dan mengapa / bagaimana?
Contoh ilustratif?
Bias adalah perbedaan antara nilai yang diharapkan dari estimator dan nilai sebenarnya yang diestimasi. Misalnya rata-rata sampel untuk sampel acak sederhana (SRS) adalah penaksir rata-rata dari rata-rata populasi karena jika Anda mengambil semua kemungkinan SRS menemukan sarana mereka, dan mengambil rata-rata dari sarana tersebut maka Anda akan mendapatkan rata-rata populasi (untuk yang terbatas). populasi ini hanya aljabar untuk menunjukkan ini). Tetapi jika kita menggunakan mekanisme pengambilan sampel yang entah bagaimana terkait dengan nilai maka rata-rata bisa menjadi bias, pikirkan sampel panggilan digit acak yang menanyakan pertanyaan tentang pendapatan.
Ini juga beberapa penduga yang bias secara alami. Mean dipangkas akan menjadi bias untuk populasi / distribusi miring. Varians standar tidak bias untuk SRS jika rata-rata populasi digunakan dengan penyebut atau rata-rata sampel digunakan dengan penyebut n - 1 .
Berikut ini adalah contoh sederhana menggunakan R, kami menghasilkan banyak sampel dari normal dengan rata-rata 0 dan standar deviasi 1, kemudian menghitung rata-rata rata-rata, varian, dan standar deviasi dari sampel. Perhatikan seberapa dekat rata-rata dan varians rata-rata dengan nilai-nilai sebenarnya (kesalahan pengambilan sampel berarti mereka tidak akan tepat), sekarang bandingkan rata-rata sd, itu adalah penaksir yang bias (meskipun tidak sangat bias).
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
Dalam regresi kita bisa mendapatkan penduga yang bias dari lereng dengan melakukan regresi bertahap. Suatu variabel lebih mungkin untuk disimpan dalam regresi bertahap jika kemiringan diperkirakan lebih jauh dari 0 dan lebih mungkin untuk dijatuhkan jika lebih dekat ke 0, jadi ini adalah pengambilan sampel yang bias dan lereng dalam model akhir akan cenderung lebih jauh. dari 0 dari kemiringan sejati. Teknik seperti lasso dan ridge regression lereng menuju 0 untuk melawan bias seleksi dari 0.
Bias berarti bahwa nilai yang diharapkan dari penduga tidak sama dengan parameter populasi.
Secara intuitif dalam analisis regresi, ini berarti bahwa estimasi salah satu parameter terlalu tinggi atau terlalu rendah. Namun, estimasi regresi kuadrat terkecil yang biasa adalah BIRU, yang merupakan singkatan dari estimator linear tidak bias terbaik. Dalam bentuk regresi lain, estimasi parameter mungkin bias. Ini bisa menjadi ide yang baik, karena sering ada pertukaran antara bias dan varians. Sebagai contoh, regresi ridge kadang-kadang digunakan untuk mengurangi varians estimasi ketika ada collinearity.
Contoh sederhana dapat menggambarkan ini lebih baik, meskipun tidak dalam konteks regresi. Misalkan Anda menimbang 150 pound (diverifikasi pada skala keseimbangan yang memiliki Anda dalam satu keranjang dan setumpuk bobot di keranjang lainnya). Sekarang, Anda memiliki dua timbangan kamar mandi. Anda menimbang diri Anda masing-masing 5 kali.
Skala 1 memberikan bobot 152, 151, 151.5, 150.5 dan 152.
Skala 2 memberikan bobot 145, 155, 154, 146 dan 150.
Skala 1 bias, tetapi memiliki varian yang lebih rendah; rata-rata dari bobot bukanlah berat Anda yang sebenarnya. Skala 2 tidak bias (rata-rata 150), tetapi memiliki varian jauh lebih tinggi.
Skala mana yang "lebih baik"? Itu tergantung pada apa yang ingin Anda lakukan skala.
sumber
Dalam analisis regresi linier, bias merujuk pada kesalahan yang diperkenalkan dengan mendekati masalah kehidupan nyata, yang mungkin rumit, oleh model yang jauh lebih sederhana. Secara sederhana, Anda mengasumsikan model linier sederhana seperti y * = (a *) x + b * di mana seperti dalam kehidupan nyata masalah bisnis bisa menjadi y = ax ^ 3 + bx ^ 2 + c.
Dapat dikatakan bahwa tes MSE yang diharapkan (Mean squared error) dari masalah regresi dapat diuraikan seperti di bawah ini. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)
f * -> bentuk fungsional yang diasumsikan untuk model regresi linier y0 -> nilai respons asli dicatat dalam data uji x0 -> nilai prediktor asli dicatat dalam data uji e -> kesalahan tak tereduksi Jadi, tujuannya adalah memilih metode terbaik dalam mendapatkan model yang mencapai varian rendah dan bias rendah.
Catatan: Pengantar Pembelajaran Statistik oleh Trevor Hastie & Robert Tibshirani memiliki wawasan yang baik tentang topik ini
sumber