Saya menghadiri kelas analisis data dan beberapa ide saya yang berakar kuat sedang terguncang. Yaitu, gagasan bahwa kesalahan (epsilon), serta jenis varians lainnya, hanya berlaku (jadi saya pikir) untuk grup (sampel atau seluruh populasi). Sekarang, kita diajari bahwa salah satu asumsi regresi adalah bahwa variansnya "sama untuk semua individu". Ini entah bagaimana mengejutkan bagi saya. Saya selalu berpikir bahwa varians dalam Y mencakup semua nilai X yang dianggap konstan.
Saya berbincang dengan prof, yang mengatakan kepada saya bahwa ketika kami melakukan regresi, kami menganggap model kami benar. Dan saya pikir itu bagian yang sulit. Bagi saya, istilah kesalahan (epsilon) selalu berarti sesuatu seperti "elemen apa pun yang kita tidak tahu dan yang mungkin mempengaruhi variabel hasil kami, ditambah beberapa kesalahan pengukuran". Dalam cara kelas diajarkan, tidak ada yang namanya "hal-hal lain"; model kami dianggap benar dan lengkap. Ini berarti bahwa semua variasi residu harus dianggap sebagai produk kesalahan pengukuran (dengan demikian, mengukur individu 20 kali akan diharapkan untuk menghasilkan varian yang sama dengan mengukur 20 individu satu kali).
Saya merasa ada sesuatu yang salah di suatu tempat, saya ingin memiliki pendapat ahli tentang ini ... Apakah ada ruang untuk interpretasi mengenai apa istilah kesalahannya, secara konseptual?
sumber
Jawaban:
Jika ada aspek individu yang berpengaruh pada nilai y yang dihasilkan, maka ada beberapa cara untuk mendapatkan aspek-aspek tersebut (dalam hal ini mereka harus menjadi bagian dari prediktor x), atau tidak ada cara untuk mendapatkan hal itu. informasi.
Jika tidak ada cara untuk mendapatkan informasi ini dan tidak ada cara untuk mengukur berulang kali nilai y untuk individu, maka itu benar-benar tidak masalah. Jika Anda dapat mengukur y berulang kali, dan jika set data Anda benar-benar berisi pengukuran berulang untuk beberapa individu, maka Anda memiliki masalah potensial di tangan Anda, karena teori statistik mengasumsikan independensi kesalahan pengukuran / residu.
Misalnya, anggap Anda sedang mencoba menyesuaikan model formulir
dan itu untuk setiap individu,
di mana z tergantung pada individu dan terdistribusi normal dengan rata-rata 0 dan standar deviasi 10. Untuk setiap pengukuran individu yang berulang,
di mana terdistribusi normal dengan mean 0 dan standar deviasi 0,1.e
Anda dapat mencoba memodelkan ini sebagai
di mana terdistribusi normal dengan rata-rata 0 dan standar deviasiϵ
Selama Anda hanya memiliki satu pengukuran untuk setiap individu, itu akan baik-baik saja. Namun, jika Anda memiliki beberapa pengukuran untuk individu yang sama, maka residu Anda tidak lagi independen!
Misalnya, jika Anda memiliki satu individu dengan z = 15 (1,5 standar deviasi keluar, jadi tidak masuk akal), dan seratus pengukuran berulang dari individu itu, kemudian menggunakan dan (nilai persis!) Anda akan berakhir dengan 100 residual sekitar +1,5 standar deviasi, yang akan terlihat sangat tidak mungkin. Ini akan mempengaruhi statistik .β0=100 β1=10 χ2
sumber
Saya pikir "kesalahan" paling baik digambarkan sebagai "bagian dari pengamatan yang tidak dapat diprediksi mengingat informasi kami saat ini". Mencoba untuk berpikir dalam hal populasi vs sampel mengarah pada masalah konseptual (baik bagi saya sih), seperti halnya memikirkan kesalahan sebagai "murni acak" yang diambil dari beberapa distribusi. berpikir dalam hal prediksi dan "prediksi" jauh lebih masuk akal bagi saya.
Saya juga berpikir prinsip entropi maksimum menyediakan cara yang rapi untuk memahami mengapa distribusi normal digunakan. Untuk saat pemodelan, kami menetapkan distribusi kesalahan untuk menggambarkan apa yang diketahui tentang mereka. distribusi bersama apa pun dapat mewakili kondisi pengetahuan yang memungkinkan. Namun jika kita menetapkan beberapa struktur seperti maka distribusi yang paling seragam tunduk pada batasan ini adalah distribusi normal dengan nol mean dan varians konstanE ( 1p(e1,…,en) σ2σE(1n∑ni=1e2i)=σ2 σ2 . Ini menunjukkan bahwa "independensi" dan "varian konstan" sebenarnya lebih aman daripada mengasumsikan sebaliknya di bawah batasan ini - yaitu bahwa momen kedua rata-rata ada dan terbatas dan kami memperkirakan ukuran umum kesalahan adalah .σ
Jadi salah satu cara untuk berpikir tentang hal ini adalah bahwa kita tidak selalu berpikir asumsi kami adalah "benar" melainkan "aman" dalam arti bahwa kita tidak menyuntikkan banyak informasi ke dalam masalah (kita memaksakan hanya satu kendala struktural dalam ukuran). jadi kita mulai dari daerah yang aman - dan kita dapat membangun dari sini tergantung pada informasi spesifik apa yang kita miliki tentang kasus dan data tertentu yang tersedia.n
sumber
Berikut ini adalah tautan yang sangat berguna untuk menjelaskan regresi linier sederhana: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html mungkin dapat membantu memahami konsep "kesalahan".
FD
sumber
Saya tidak setuju dengan rumusan profesor tentang hal ini. Seperti yang Anda katakan, gagasan bahwa variansnya sama untuk setiap individu menyiratkan bahwa istilah kesalahan hanya mewakili kesalahan pengukuran. Ini tidak biasanya bagaimana model regresi berganda dasar dibangun. Seperti yang Anda katakan, varians didefinisikan untuk grup (apakah itu grup subjek individu atau grup pengukuran). Itu tidak berlaku di tingkat individu, kecuali jika Anda telah mengulangi tindakan.
Model harus lengkap karena istilah kesalahan tidak boleh mengandung pengaruh dari variabel apa pun yang berkorelasi dengan prediktor. Asumsinya adalah bahwa istilah kesalahan tidak tergantung pada prediktor. Jika beberapa variabel berkorelasi dihilangkan, Anda akan mendapatkan koefisien bias (ini disebut bias variabel dihilangkan ).
sumber