Bagaimana menafsirkan kesalahan standar koefisien dalam regresi linier?

26

Saya bertanya-tanya bagaimana menafsirkan kesalahan standar koefisien regresi ketika menggunakan fungsi tampilan di R.

Misalnya dalam output berikut:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

Apakah kesalahan standar yang lebih tinggi menyiratkan signifikansi yang lebih besar?

Juga untuk deviasi standar residual, nilai yang lebih tinggi berarti penyebaran yang lebih besar, tetapi R kuadrat menunjukkan kecocokan yang sangat dekat, bukankah ini kontradiksi?

di atas
sumber

Jawaban:

52

Estimasi parameter, seperti rata-rata sampel atau koefisien regresi OLS, adalah statistik sampel yang kami gunakan untuk menarik kesimpulan tentang parameter populasi yang sesuai. Parameter populasi adalah apa yang benar-benar kita pedulikan, tetapi karena kita tidak memiliki akses ke seluruh populasi (biasanya dianggap tak terbatas), kita harus menggunakan pendekatan ini sebagai gantinya. Namun, ada beberapa fakta tidak nyaman yang menyertai pendekatan ini. Misalnya, jika kami mengambil sampel lain, dan menghitung statistik untuk memperkirakan parameter lagi, kami hampir pasti akan menemukan bahwa itu berbeda. Selain itu, tak satu pun dari kedua estimasi ini yang cocok dengan nilai parameter sebenarnya yang ingin kami ketahui. Bahkan, jika kita melakukan ini berulang-ulang, terus mengambil sampel dan memperkirakan selamanya, kami akan menemukan bahwa frekuensi relatif dari nilai estimasi yang berbeda mengikuti distribusi probabilitas. Teorema batas pusat menunjukkan bahwa distribusi ini cenderung normal. Kita perlu cara untuk mengukur jumlah ketidakpastian dalam distribusi itu. Itulah yang dilakukan kesalahan standar untuk Anda.

Dalam contoh Anda, Anda ingin mengetahui kemiringan hubungan linear antara x1 dan y dalam populasi, tetapi Anda hanya memiliki akses ke sampel Anda. Dalam sampel Anda, kemiringan itu adalah 0,51, tetapi tanpa mengetahui berapa banyak variabilitas yang ada dalam distribusi sampel yang sesuai , sulit untuk mengetahui apa yang harus dibuat dari angka itu. Kesalahan standar, 0,05 dalam kasus ini, adalah standar deviasi dari distribusi pengambilan sampel. Untuk menghitung signifikansi, Anda membagi taksiran dengan SE dan mencari hasil bagi pada tabel. Dengan demikian, UK yang lebih besar berarti signifikansi yang lebih rendah .

Deviasi standar residual tidak ada hubungannya dengan distribusi sampel lereng Anda. Ini hanya deviasi standar dari sampel Anda yang tergantung pada model Anda. Tidak ada kontradiksi, juga tidak ada. Adapun cara Anda memiliki SD yang lebih besar dengan R ^ 2 yang tinggi dan hanya 40 titik data, saya kira Anda memiliki kebalikan dari batasan rentang - nilai x Anda tersebar sangat luas.

gung - Reinstate Monica
sumber
Jawaban yang sangat bagus dan sangat jelas! Jadi pada dasarnya untuk pertanyaan kedua, SD menunjukkan dispersi horizontal dan R ^ 2 menunjukkan kesesuaian keseluruhan atau dispersi vertikal?
atas
7
@ DB, senang bisa membantu. Biasanya kita menganggap variabel respons berada pada sumbu vertikal dan variabel prediktor pada sumbu horizontal. Dengan pengaturan ini, semuanya vertikal - regresi meminimalkan jarak vertikal antara prediksi dan variabel respons (SSE). Demikian juga, SD sisa adalah ukuran dispersi vertikal setelah memperhitungkan nilai yang diprediksi. Akhirnya, R ^ 2 adalah rasio dispersi vertikal prediksi Anda dengan total dispersi vertikal data mentah Anda.
gung - Reinstate Monica