Mengapa kita mengatakan "Residual standard error"?

14

Kesalahan standar adalah estimasi standar deviasi dari estimator untuk parameter . θ θσ^(θ^)θ^θ

Mengapa estimasi standar deviasi residual disebut "residual standard error" (misalnya, dalam output summary.lmfungsi R ) dan bukan "standar deviasi residual"? Perkiraan parameter apa yang kami lengkapi dengan kesalahan standar di sini?

Apakah kita menganggap setiap residu sebagai penaksir untuk istilah kesalahan "nya" dan memperkirakan kesalahan standar "gabungan" dari semua penaksir ini?

Michael M.
sumber
6
Saya pikir itu hal R. Saya tidak berpikir perangkat lunak lain perlu menggunakan ungkapan itu, & 'standar deviasi residual' adalah umum di buku pelajaran, misalnya. Saya tidak punya jawaban, tapi saya selalu berpikir itu aneh bahwa R menggunakan kalimat itu.
gung - Reinstate Monica
@ung: itu bisa jadi penjelasannya! Saat googling "residual standard error" dalam tanda kutip, saya hanya mendapatkan 0,1% dari hit daripada tanpa tanda kutip ...
Michael M
Saya bisa menempatkan itu sebagai jawaban (non-), jika Anda mau.
gung - Reinstate Monica
1
@ung itu lucu bagaimana menggunakan perangkat lunak tertentu membentuk pemikiran Anda: Saya tidak akan pernah menyebutnya "residual sd" - residual bukan data tetapi kesalahan, sehingga kesalahan residual tampaknya nama yang tepat. Tetapi jika Anda berpikir tentang hal itu sepertinya benar-benar suatu R-hal.
Tim
2
@Tim, itu mungkin dianggap sebagai perkiraan standar deviasi kesalahan , tetapi residualnya bukan kesalahan teknis itu sendiri. Juga bukan kesalahan standar dari kesalahan SD, untuk apa nilainya.
gung - Reinstate Monica

Jawaban:

12

Saya pikir ungkapan itu khusus untuk summary.lm()keluaran R. Perhatikan bahwa nilai yang mendasarinya sebenarnya disebut "sigma" ( summary.lm()$sigma). Saya tidak berpikir perangkat lunak lain perlu menggunakan nama itu untuk standar deviasi residu. Sebagai tambahan, ungkapan 'standar deviasi residu' adalah umum di buku pelajaran, misalnya. Saya tidak tahu bagaimana itu bisa menjadi ungkapan yang digunakan dalam summary.lm()output R , tapi saya selalu berpikir itu aneh.

gung - Pasang kembali Monica
sumber
Bagaimana summary.lm(reg)$sigmabedanya sd(reg$residuals)?
serangan udara
3
@ AndréTerra, derajat kebebasan yang benar adalah n - p, yang digunakan ringkasan. sd menggunakan var yang menggunakan n - 1 derajat kebebasan. Jika Anda secara manual menghitung standar deviasi residu yang dibagi dengan n - p maka Anda akan mendapatkan jawaban yang sama seperti yang diberikan oleh ringkasan.
Jdub
3
Untuk menguatkan gung, saya mengutip dari dokumentasi R stats::sigma: Keliru "Residual standard error" telah menjadi bagian dari terlalu banyak output R (dan S) yang mudah diubah di sana.
NRH
2

Dari pelatihan ekonometrik saya, ini disebut "residual standard error" karena ini merupakan perkiraan dari "standar deviasi residual" yang sebenarnya. Lihat pertanyaan terkait ini yang menguatkan istilah ini.

Pencarian Google untuk istilah standard error residual juga menunjukkan banyak hit, jadi itu sama sekali bukan keanehan R. Saya mencoba kedua istilah dengan kutipan, dan keduanya muncul sekitar 60.000 kali.

Heisenberg
sumber
Menarik. Tetapi mengapa Anda menyebut perkiraan standar deviasi dari setiap variabel acak (seperti istilah kesalahan; dan bukan penaksir tertentu) sebagai "kesalahan standar"?
Michael M
Pemikiran saya adalah kita perlu memiliki nama untuk estimasi (untuk membedakan dari nilai aktual), nama apa pun sebagus yang lain. Tetapi tentunya seseorang yang lebih berpengetahuan tentang etimologi dapat menawarkan alasan yang lebih baik. Perhatikan bahwa pasti ada paralel dengan kesalahan standar koefisien, yang merupakan estimasi standar deviasi estimasi koefisien.
Heisenberg
0

Sederhananya, kesalahan standar sampel adalah perkiraan seberapa jauh rata-rata sampel kemungkinan berasal dari rata-rata populasi, sedangkan standar deviasi sampel adalah sejauh mana individu dalam sampel berbeda dari rata-rata sampel.

Kesalahan standar - Wikipedia, ensiklopedia gratis

pengguna629019
sumber
6
Ini benar, tetapi sebenarnya tidak menjawab pertanyaan. Apa yang disebut R "kesalahan standar residual" bukanlah "perkiraan seberapa jauh rata-rata sampel kemungkinan dari rata-rata populasi".
gung - Reinstate Monica
0

Model regresi yang sesuai menggunakan parameter untuk menghasilkan prediksi estimasi titik yang merupakan sarana respon yang diamati jika Anda mereplikasi studi dengan nilai-nilai XX yang sama beberapa kali ( ketika model linier benar ).

Perbedaan antara nilai-nilai prediksi dan yang digunakan agar sesuai dengan model disebut " Residual " yang, ketika mereplikasi proses pengumpulan data, memiliki sifat variabel acak dengan 0 berarti. Residu yang diamati kemudian digunakan untuk selanjutnya memperkirakan variabilitas dalam nilai-nilai ini dan untuk memperkirakan distribusi sampling dari parameter.

catatan:

Ketika standar kesalahan residual tepat 0 maka model cocok dengan data dengan sempurna (kemungkinan karena overfitting).

Jika kesalahan standar residual tidak dapat ditunjukkan secara signifikan berbeda dari variabilitas dalam respon tanpa syarat, maka ada sedikit bukti yang menunjukkan bahwa model linier memiliki kemampuan prediksi.

Abhishek Jaiswal
sumber