Jika saya mengulangi setiap pengamatan sampel dalam model regresi linier dan menjalankan kembali regresi, bagaimana hasilnya akan terpengaruh?

15

Katakanlah saya memiliki pengamatan N, mungkin beberapa faktor dan saya mengulangi setiap pengamatan dua kali (atau M kali) bagaimana sebuah regresi pada set ukuran baru NM dibandingkan dengan regresi hanya pada pengamatan asli?

Istana Chan
sumber

Jawaban:

13

Secara konseptual, Anda menambahkan tidak ada informasi "baru", tetapi Anda "tahu" informasi itu lebih tepat.

Ini karena itu akan menghasilkan koefisien regresi yang sama, dengan kesalahan standar yang lebih kecil.

Sebagai contoh, di Stata, fungsi ekspansi x menduplikasi setiap pengamatan x kali.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Seperti yang Anda lihat, koefisien (panjang) yang sebelumnya tidak penting menjadi signifikan secara statistik dalam model yang diperluas, mewakili ketepatan yang dengannya Anda "tahu" apa yang Anda ketahui.

pmgjones
sumber
Ya kesalahan standar memang turun. Beberapa merekomendasikan regresi linier tertimbang untuk ini .. Apakah ada metode yang Anda gunakan untuk memperbaikinya?
BBDynSys
3

Regresi linier biasa menyelesaikan masalah

w=Argminw||Xw-y||2
dimana X adalah matriks prediktor dan yadalah jawabannya. Jika Anda mengulangi setiap sampelM. kali, itu akan meninggalkan fungsi objektif untuk diminimalkan tidak berubah (kecuali untuk faktor multiplikatif M.). Oleh karena itu vektor bobot yang optimal untuk masalah yang lebih besar akan sama seperti untuk masalah kecil yang asli.
Innuo
sumber
Setuju, tapi saya pikir t statistik dan kesalahan standar harus berubah mengingat perubahan dari N ke NM?
Palace Chan
Karena OLS mengasumsikan bahwa kebisingan itu independen, kesalahan standar akan berbeda karena jumlah derajat kebebasannya akan berbeda M.N-P (N adalah ukuran sampel asli dan P adalah jumlah prediktor) dan panjang vektor residual naik oleh faktor M..
Innuo