Bagaimana cara membuat konsep kesalahan dalam model regresi?

11

Saya menghadiri kelas analisis data dan beberapa ide saya yang berakar kuat sedang terguncang. Yaitu, gagasan bahwa kesalahan (epsilon), serta jenis varians lainnya, hanya berlaku (jadi saya pikir) untuk grup (sampel atau seluruh populasi). Sekarang, kita diajari bahwa salah satu asumsi regresi adalah bahwa variansnya "sama untuk semua individu". Ini entah bagaimana mengejutkan bagi saya. Saya selalu berpikir bahwa varians dalam Y mencakup semua nilai X yang dianggap konstan.

Saya berbincang dengan prof, yang mengatakan kepada saya bahwa ketika kami melakukan regresi, kami menganggap model kami benar. Dan saya pikir itu bagian yang sulit. Bagi saya, istilah kesalahan (epsilon) selalu berarti sesuatu seperti "elemen apa pun yang kita tidak tahu dan yang mungkin mempengaruhi variabel hasil kami, ditambah beberapa kesalahan pengukuran". Dalam cara kelas diajarkan, tidak ada yang namanya "hal-hal lain"; model kami dianggap benar dan lengkap. Ini berarti bahwa semua variasi residu harus dianggap sebagai produk kesalahan pengukuran (dengan demikian, mengukur individu 20 kali akan diharapkan untuk menghasilkan varian yang sama dengan mengukur 20 individu satu kali).

Saya merasa ada sesuatu yang salah di suatu tempat, saya ingin memiliki pendapat ahli tentang ini ... Apakah ada ruang untuk interpretasi mengenai apa istilah kesalahannya, secara konseptual?

regression variance error measurement-error Dominic Comtois
sumber

3

Mungkin yang dia maksudkan adalah bahwa, bahkan jika modelnya benar, masih ada variasi acak dalam respons - ini ditangkap oleh varians kesalahan - ini dapat, misalnya, dikaitkan dengan peralatan pengukuran yang tidak sempurna. Yang lain kadang-kadang mengonseptualisasikan varians kesalahan karena yang disebabkan oleh prediktor yang hilang (belum tentu kesalahan dalam bentuk model), menyiratkan bahwa jika semua prediktor yang mungkin diukur, varians kesalahan akan menjadi 0. Ini tidak konsisten dengan yang pertama - kesalahan dalam pengukuran dapat dianggap sebagai "prediktor yang hilang".

Makro

Saya pikir satu hal yang selalu sulit untuk dipahami pada awalnya adalah bahwa "kesalahan" dapat berarti hal yang berbeda dalam hal ini. "Kesalahan" dapat merujuk pada perbedaan antara nilai yang dipasang yang kami peroleh dari model kami dan nilai yang diamati (perbedaan dapat disebabkan oleh model yang cukup pelit, misalnya). "Kesalahan" juga bisa berarti perbedaan antara nilai yang diamati dan nilai sebenarnya (perbedaan dapat disebabkan oleh, katakanlah, perangkat yang Anda gunakan untuk mengukur putaran nilai ke bilangan bulat terdekat / desimal kesepuluh / dll.). [Jenis pertama adalah tempat Anda akan mendengar istilah seperti "residual / residual variance."]

@ Macro Ya, bagi saya ini sepertinya cara berpikir yang alami tentang kesalahan. Namun saya mencoba untuk memahami mengapa prof bersikeras definisi yang lebih ketat tentang itu (menganggapnya berlaku untuk setiap individu meskipun kita tahu dalam kenyataan, itu tidak benar).

Dominic Comtois

@ MikeWierzbicki Benar. Dan jika saya mengerti dengan benar, ini semua disatukan dalam sudut pandang "ketat". Berarti bahwa semua perbedaan antara nilai yang diamati dan yang diprediksi berasal dari kesalahan pengukuran, karena model kami "harus benar".

Dominic Comtois

2

Jika ada aspek individu yang berpengaruh pada nilai y yang dihasilkan, maka ada beberapa cara untuk mendapatkan aspek-aspek tersebut (dalam hal ini mereka harus menjadi bagian dari prediktor x), atau tidak ada cara untuk mendapatkan hal itu. informasi.

Jika tidak ada cara untuk mendapatkan informasi ini dan tidak ada cara untuk mengukur berulang kali nilai y untuk individu, maka itu benar-benar tidak masalah. Jika Anda dapat mengukur y berulang kali, dan jika set data Anda benar-benar berisi pengukuran berulang untuk beberapa individu, maka Anda memiliki masalah potensial di tangan Anda, karena teori statistik mengasumsikan independensi kesalahan pengukuran / residu.

Misalnya, anggap Anda sedang mencoba menyesuaikan model formulir

$y=\beta_0+\beta_1 x$ ,

dan itu untuk setiap individu,

$yind=100+10x+z$ ,

di mana z tergantung pada individu dan terdistribusi normal dengan rata-rata 0 dan standar deviasi 10. Untuk setiap pengukuran individu yang berulang,

$ymeas=100+10x+z+e$ ,

di mana terdistribusi normal dengan mean 0 dan standar deviasi 0,1. $e$

Anda dapat mencoba memodelkan ini sebagai

$y=\beta_0+\beta_1 x+\epsilon$ ,

di mana terdistribusi normal dengan rata-rata 0 dan standar deviasi $\epsilon$

$\sigma=\sqrt{10^2+0.1^2}=\sqrt{100.01}$ .

Selama Anda hanya memiliki satu pengukuran untuk setiap individu, itu akan baik-baik saja. Namun, jika Anda memiliki beberapa pengukuran untuk individu yang sama, maka residu Anda tidak lagi independen!

Misalnya, jika Anda memiliki satu individu dengan z = 15 (1,5 standar deviasi keluar, jadi tidak masuk akal), dan seratus pengukuran berulang dari individu itu, kemudian menggunakan dan (nilai persis!) Anda akan berakhir dengan 100 residual sekitar +1,5 standar deviasi, yang akan terlihat sangat tidak mungkin. Ini akan mempengaruhi statistik . $\beta_0=100$ $\beta_1=10$ $\chi^2$

Brian Borchers
sumber

Saya mencoba untuk menghindari menggunakan istilah menakutkan "pemodelan bertingkat" dalam jawaban saya, tetapi Anda harus menyadari bahwa dalam beberapa kasus ini memberikan cara untuk menghadapi situasi semacam ini.

Brian Borchers

1

Saya pikir "kesalahan" paling baik digambarkan sebagai "bagian dari pengamatan yang tidak dapat diprediksi mengingat informasi kami saat ini". Mencoba untuk berpikir dalam hal populasi vs sampel mengarah pada masalah konseptual (baik bagi saya sih), seperti halnya memikirkan kesalahan sebagai "murni acak" yang diambil dari beberapa distribusi. berpikir dalam hal prediksi dan "prediksi" jauh lebih masuk akal bagi saya.

Saya juga berpikir prinsip entropi maksimum menyediakan cara yang rapi untuk memahami mengapa distribusi normal digunakan. Untuk saat pemodelan, kami menetapkan distribusi kesalahan untuk menggambarkan apa yang diketahui tentang mereka. distribusi bersama apa pun dapat mewakili kondisi pengetahuan yang memungkinkan. Namun jika kita menetapkan beberapa struktur seperti maka distribusi yang paling seragam tunduk pada batasan ini adalah distribusi normal dengan nol mean dan varians konstan $p(e_{1},\dots,e_{n})$ $E(\frac{1}{n}\sum_{i=1}^{n}e_{i}^2)=\sigma^2$ $\sigma^2$ . Ini menunjukkan bahwa "independensi" dan "varian konstan" sebenarnya lebih aman daripada mengasumsikan sebaliknya di bawah batasan ini - yaitu bahwa momen kedua rata-rata ada dan terbatas dan kami memperkirakan ukuran umum kesalahan adalah . $\sigma$

Jadi salah satu cara untuk berpikir tentang hal ini adalah bahwa kita tidak selalu berpikir asumsi kami adalah "benar" melainkan "aman" dalam arti bahwa kita tidak menyuntikkan banyak informasi ke dalam masalah (kita memaksakan hanya satu kendala struktural dalam ukuran). jadi kita mulai dari daerah yang aman - dan kita dapat membangun dari sini tergantung pada informasi spesifik apa yang kita miliki tentang kasus dan data tertentu yang tersedia. $n$

probabilityislogic
sumber

Apa yang Anda maksud dengan 'uniform' di: "maka subjek distribusi yang paling seragam untuk batasan ini adalah distribusi normal dengan nol mean dan varians konstan "?

σ^{2}

$\sigma^2$

Makro

Maksud saya yaitu distribusi yang seragam.

p (e_{1}, \dots, e_{n}) \propto 1

$p(e_{1},\dots,e_{n})\propto 1$

probabilityislogic

Dan secara dekat saya maksud kl divergence diminimalkan

probabilityislogic

Dilema bukanlah antara sampel dan populasi. Ini tentang memikirkan kesalahan yang berlaku untuk individu vs sampel / populasi.

Dominic Comtois

1

Berikut ini adalah tautan yang sangat berguna untuk menjelaskan regresi linier sederhana: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html mungkin dapat membantu memahami konsep "kesalahan".

FD

Florian
sumber

Itu applet yang sangat bagus! Terima kasih telah merujuknya. Ini mengingatkan saya pada beberapa ilustrasi yang saya buat untuk pertanyaan lain , di mana jawaban Anda mungkin lebih relevan.

whuber

1

Saya tidak setuju dengan rumusan profesor tentang hal ini. Seperti yang Anda katakan, gagasan bahwa variansnya sama untuk setiap individu menyiratkan bahwa istilah kesalahan hanya mewakili kesalahan pengukuran. Ini tidak biasanya bagaimana model regresi berganda dasar dibangun. Seperti yang Anda katakan, varians didefinisikan untuk grup (apakah itu grup subjek individu atau grup pengukuran). Itu tidak berlaku di tingkat individu, kecuali jika Anda telah mengulangi tindakan.

Model harus lengkap karena istilah kesalahan tidak boleh mengandung pengaruh dari variabel apa pun yang berkorelasi dengan prediktor. Asumsinya adalah bahwa istilah kesalahan tidak tergantung pada prediktor. Jika beberapa variabel berkorelasi dihilangkan, Anda akan mendapatkan koefisien bias (ini disebut bias variabel dihilangkan ).

Anne Z.
sumber

Saya tidak begitu mengerti jawaban ini. tampaknya mengenali perbedaan antara kesalahan karena kurangnya kesesuaian dan kesalahan acak, tetapi pertanyaan retoris terakhir tampaknya membingungkan. Dari perspektif murni formal, pada dasarnya setiap kesimpulan yang dibuat sehubungan dengan model regresi bergantung pada asumsi yang sangat eksplisit tentang struktur kebisingan.

kardinal

1

Maksud saya adalah bahwa dalam banyak kasus, tujuan pemodelan regresi adalah untuk mencari tahu apa yang terjadi bahkan ketika kita tidak tahu semua penyebab hasil tertentu. Tetapi karena tampaknya tidak jelas, saya akan menghapus pertanyaan itu.

Anne Z.

Terima kasih. Poin dalam komentar Anda bagus. Pertanyaan sebelumnya yang Anda nyatakan dapat dibaca sebagai mempertanyakan seluruh dasar yang menjadi dasar teori regresi. :)

kardinal

Saya setuju dengan Anda dalam ketidaksepakatan Anda (maka pertanyaan saya!), Dan bias variabel yang dihilangkan cukup relevan dengan masalah ini. Terima kasih.

Dominic Comtois

Bagaimana cara membuat konsep kesalahan dalam model regresi?

Jawaban: