Saya terkejut ini belum ditanyakan sebelumnya, tetapi saya tidak dapat menemukan pertanyaan di stats.stackexchange.
Ini adalah rumus untuk menghitung varians dari sampel yang terdistribusi normal:
Ini adalah rumus untuk menghitung rata-rata kesalahan kuadrat pengamatan dalam regresi linier sederhana:
Apa perbedaan antara kedua formula ini? Satu-satunya perbedaan yang saya lihat adalah MSE menggunakan . Jadi jika itu satu-satunya perbedaan, mengapa tidak merujuk keduanya sebagai varian, tetapi dengan tingkat kebebasan yang berbeda?
Jawaban:
Kesalahan kuadrat rata-rata seperti yang Anda tulis untuk OLS menyembunyikan sesuatu:
Perhatikan bahwa pembilang meringkas fungsiy dan x , sehingga Anda kehilangan derajat kebebasan untuk setiap variabel, karenanya n−2 . Dalam rumus untuk varians sampel, pembilang adalah fungsi dari variabel tunggal, sehingga Anda hanya kehilangan satu derajat kebebasan dalam penyebut.
Namun, Anda berada di jalur dalam memperhatikan bahwa ini adalah jumlah yang secara konsep serupa. Varians sampel mengukur penyebaran data di sekitar mean sampel (dalam satuan kuadrat), sedangkan MSE mengukur penyebaran vertikal data di sekitar garis regresi sampel (dalam kuadrat unit vertikal).
sumber
Dalam rumus varians, mean sampel mendekati rata-rata populasi. Mean sampel dihitung untuk sampel yang diberikan dengann titik data. Mengetahui sampel berarti meninggalkan kita sajan - 1 titik data independen sebagai n titik data th dibatasi oleh mean sampel, jadi (n - 1 ) derajat kebebasan (DOF) dalam penyebut dalam rumus varian.
Untuk mendapatkan nilai estimasi y (= β0+ β1× x ) dalam rumus UMK, kita perlu memperkirakan keduanya β0 (Yaitu mencegat) serta β1 (i.e. the slope) so we lose 2 DOF, and so that is the reason for (n−2 ) in the denominator in the MSE formula.
sumber