- Root berarti kuadrat kesalahan
- jumlah sisa kuadrat
- kesalahan standar residual
- berarti kesalahan kuadrat
- kesalahan tes
Saya pikir saya dulu mengerti istilah-istilah ini, tetapi semakin saya melakukan masalah statistik semakin saya bingung di mana saya menebak diri saya. Saya ingin jaminan ulang & contoh nyata
Saya dapat menemukan persamaannya secara online dengan mudah, tetapi saya mengalami kesulitan untuk mendapatkan penjelasan 'jelaskan seperti saya 5' dari istilah-istilah ini sehingga saya dapat mengkristalkan perbedaan di kepala saya dan bagaimana satu mengarah ke yang lain.
Jika ada yang bisa mengambil kode ini di bawah ini dan tunjukkan bagaimana saya akan menghitung masing-masing istilah ini saya akan sangat menghargainya. Kode R akan menjadi luar biasa ..
Menggunakan contoh di bawah ini:
summary(lm(mpg~hp, data=mtcars))
Tunjukkan pada saya dalam kode R cara menemukan:
rmse = ____
rss = ____
residual_standard_error = ______ # i know its there but need understanding
mean_squared_error = _______
test_error = ________
Poin bonus untuk menjelaskan seperti saya 5 perbedaan / kesamaan antara ini. contoh:
rmse = squareroot(mss)
sumber
Jawaban:
Seperti yang diminta, saya ilustrasikan menggunakan regresi sederhana menggunakan
mtcars
data:The rata kuadrat error (MSE) adalah mean dari kuadrat residual:
Root mean squared error (RMSE) kemudian adalah akar kuadrat dari MSE:
Jumlah sisa kuadrat (RSS) adalah jumlah dari sisa kuadrat:
Kesalahan standar residual (RSE) adalah akar kuadrat dari (RSS / derajat kebebasan):
Perhitungan yang sama, disederhanakan karena kami sebelumnya telah menghitung
rss
:Istilah kesalahan tes dalam konteks regresi (dan teknik analitik prediktif lainnya) biasanya mengacu pada penghitungan statistik uji pada data uji, berbeda dari data pelatihan Anda.
Dengan kata lain, Anda memperkirakan model menggunakan sebagian dari data Anda (sering kali sampel 80%) dan kemudian menghitung kesalahan menggunakan sampel tahan. Sekali lagi, saya ilustrasikan menggunakan
mtcars
, kali ini dengan sampel 80%Perkirakan model, lalu prediksi dengan data tahan:
Gabungkan data asli dan prediksi dalam bingkai data
Sekarang hitung statistik pengujian Anda dengan cara normal. Saya menggambarkan MSE dan RMSE:
Perhatikan bahwa jawaban ini mengabaikan bobot pengamatan.
sumber
Poster asli meminta jawaban "jelaskan aku 5". Katakanlah guru sekolah Anda mengundang Anda dan teman sekolah untuk membantu menebak lebar meja guru. Masing-masing dari 20 siswa di kelas dapat memilih perangkat (penggaris, skala, pita, atau alat ukur) dan diizinkan untuk mengukur tabel 10 kali. Anda semua diminta untuk menggunakan lokasi awal yang berbeda pada perangkat untuk menghindari membaca nomor yang sama berulang kali; bacaan awal kemudian harus dikurangi dari bacaan akhir untuk akhirnya mendapatkan satu pengukuran lebar (Anda baru-baru ini belajar bagaimana melakukan jenis matematika itu).
Ada total 200 pengukuran lebar yang diambil oleh kelas (20 siswa, masing-masing 10 pengukuran). Pengamatan diserahkan kepada guru yang akan menghitung angka-angkanya. Mengurangi pengamatan setiap siswa dari nilai referensi akan menghasilkan 200 angka lainnya, yang disebut deviasi . Guru rata-rata sampel masing-masing siswa secara terpisah, memperoleh 20 berarti . Mengurangi pengamatan setiap siswa dari rata-rata masing-masing akan menghasilkan 200 penyimpangan dari rata-rata, yang disebut residual . Jika residu rata - rata dihitung untuk setiap sampel, Anda akan melihat itu selalu nol. Jika sebaliknya kita menguadratkan setiap residu, rata-rata, dan akhirnya membatalkan kuadrat, kita mendapatkan standar deviasi. (Ngomong-ngomong, kami menyebut perhitungan terakhir itu menggigit akar kuadrat (pikirkan menemukan basis atau sisi dari kuadrat yang diberikan), sehingga seluruh operasi sering disebut root-mean-square , singkatnya; standar deviasi pengamatan sama dengan akar kuadrat dari residu.)
Tetapi guru sudah tahu lebar meja sebenarnya, berdasarkan bagaimana itu dirancang dan dibangun dan diperiksa di pabrik. Jadi 200 angka lainnya, yang disebut error , dapat dihitung sebagai penyimpangan pengamatan sehubungan dengan lebar sebenarnya. Kesalahan rata - rata dapat dihitung untuk setiap sampel siswa. Demikian juga, 20 standar deviasi dari kesalahan , atau kesalahan standar , dapat dihitung untuk pengamatan. Lebih 20 kesalahan root-mean-squarenilai-nilai dapat dihitung juga. Tiga set dari 20 nilai terkait sebagai sqrt (me ^ 2 + se ^ 2) = rmse, dalam urutan tampilan. Berdasarkan rmse, guru dapat menilai siswa mana yang memberikan estimasi terbaik untuk lebar tabel. Selanjutnya, dengan melihat secara terpisah pada 20 kesalahan rata-rata dan 20 nilai kesalahan standar, guru dapat mengajar setiap siswa bagaimana meningkatkan bacaan mereka.
Sebagai tanda centang, guru mengurangi setiap kesalahan dari kesalahan rata-rata masing-masing, menghasilkan 200 angka lagi, yang akan kita sebut kesalahan residual (itu tidak sering dilakukan). Seperti di atas, kesalahan residual rata-rata adalah nol, sehingga deviasi standar dari kesalahan residual atau kesalahan residual standar sama dengan kesalahan standar , dan pada kenyataannya, demikian juga kesalahan residual root-mean-square . (Lihat di bawah untuk detailnya.)
Sekarang ini ada sesuatu yang menarik bagi guru. Kita dapat membandingkan rata-rata setiap siswa dengan seluruh kelas (20 berarti total). Seperti yang kami definisikan sebelum nilai poin ini:
kita juga dapat mendefinisikan sekarang:
Hanya jika kelas siswa dikatakan tidak bias, yaitu, jika mem = 0, maka sem = sm = rmsem; yaitu, kesalahan standar rata-rata, standar deviasi rata-rata, dan kesalahan rata-rata-kuadrat rata-rata mungkin sama asalkan kesalahan rata-rata mean adalah nol.
Jika kita hanya mengambil satu sampel, yaitu, jika hanya ada satu siswa di kelas, standar deviasi pengamatan dapat digunakan untuk memperkirakan standar deviasi rata-rata (sm), seperti sm ^ 2 ~ s ^ 2 / n, di mana n = 10 adalah ukuran sampel (jumlah bacaan per siswa). Keduanya akan setuju dengan lebih baik ketika ukuran sampel tumbuh (n = 10,11, ...; lebih banyak bacaan per siswa) dan jumlah sampel tumbuh (n '= 20,21, ...; lebih banyak siswa di kelas). (Peringatan: "kesalahan standar" yang tidak memenuhi syarat lebih sering merujuk pada kesalahan standar rata-rata, bukan kesalahan standar pengamatan.)
Berikut adalah beberapa detail perhitungan yang terlibat. Nilai sebenarnya dilambangkan dengan t.
Operasi set-to-point:
SET INTRA-SAMPLE:
POIN-POIN SAMPEL INTRA (lihat tabel 1):
SET SAMPEL (ENSEMBLE):
POIN SAMPEL (ENSEMBLE) (lihat tabel 2):
sumber
Saya juga merasa semua persyaratannya sangat membingungkan. Saya merasa perlu untuk menjelaskan mengapa kami memiliki banyak metrik ini.
Ini catatan saya tentang SSE dan RMSE:
Metrik pertama: Jumlah Kesalahan Kuadrat (SSE). Nama lain, Jumlah Sisa Kuadrat (RSS), Jumlah Sisa Kuadrat (SSR).
Jika kita berada dalam komunitas optimisasi, SSE digunakan secara luas. Itu karena itu adalah tujuan dalam optimasi, di mana optimasi itu
Metrik Kedua: Root-mean-square error (RMSE) . Nama lain, deviasi root-mean-square.
RMSE adalah
sumber