Saya benar-benar bingung tentang perbedaan makna mengenai konteks regresi linier dari istilah-istilah berikut:
- F statistik
- R kuadrat
- Kesalahan standar residual
Saya menemukan webstie ini yang memberi saya wawasan luas dalam berbagai istilah yang terlibat dalam regresi linier, namun istilah yang disebutkan di atas terlihat cukup banyak (sejauh yang saya mengerti). Saya akan mengutip apa yang saya baca dan yang membingungkan saya:
Residual Standard Error adalah ukuran kualitas fit regresi linier ....... Residual Standard Error adalah jumlah rata-rata yang respon (dist) akan menyimpang dari garis regresi yang sebenarnya.
1. Dengan demikian sebenarnya jarak rata-rata dari nilai yang diamati dari garis lm?
Statistik R-squared memberikan ukuran seberapa baik model ini cocok dengan data aktual.
2. Sekarang saya semakin bingung karena jika RSE memberi tahu kami seberapa jauh poin yang kami amati menyimpang dari garis regresi, RSE yang rendah sebenarnya memberi tahu kami "model Anda cocok berdasarkan pada titik data yang diamati" -> dengan demikian seberapa baik kami model cocok, jadi apa perbedaan antara R kuadrat dan RSE?
F-statistik adalah indikator yang baik apakah ada hubungan antara prediktor kami dan variabel respon.
3. Apakah benar bahwa kita dapat memiliki nilai F yang menunjukkan hubungan yang kuat yaitu NON LINEAR sehingga RSE kita tinggi dan R kuadrat kita rendah
sumber
Jawaban:
Cara terbaik untuk memahami istilah-istilah ini adalah dengan melakukan perhitungan regresi dengan tangan. Saya menulis dua jawaban yang berkaitan erat (di sini dan di sini ), namun mereka mungkin tidak sepenuhnya membantu Anda memahami kasus khusus Anda. Namun tetap membacanya. Mungkin mereka juga akan membantu Anda membuat konsep istilah-istilah ini lebih baik.
Dalam regresi (atau ANOVA), kami membangun model berdasarkan dataset sampel yang memungkinkan kami untuk memprediksi hasil dari populasi yang menarik. Untuk melakukannya, tiga komponen berikut dihitung dengan regresi linier sederhana dari komponen yang lain dapat dihitung, misalnya mean kuadrat, F-nilai,R2 (juga disesuaikan R2 ), dan standard error residual ( R SE ):
Masing-masing dari mereka menilai seberapa baik model menggambarkan data dan jumlah dari jarak kuadrat dari titik data ke model pas (digambarkan sebagai garis merah dalam plot di bawah).
TheSSt o t a l menilai seberapa baik cocok mean data. Kenapa itu berarti? Karena mean adalah model paling sederhana yang dapat kami muat dan karenanya berfungsi sebagai model yang dibandingkan dengan garis regresi kuadrat-terkecil. Plot ini menggunakan
cars
dataset menggambarkan bahwa:Untuk menjawab pertanyaan Anda, pertama mari kita hitung istilah-istilah yang ingin Anda pahami dimulai dengan model dan output sebagai referensi:
Jumlah kuadrat adalah jarak kuadrat dari masing-masing titik data ke model:
Kuadrat rata-rata adalah jumlah kuadrat yang dirata-ratakan oleh derajat kebebasan:
Jawaban saya untuk pertanyaan Anda:
Q1:
Q2:
Q3:
Pertanyaan ketiga Anda agak sulit untuk dipahami tetapi saya setuju dengan kutipan yang Anda berikan.
sumber
(2) Anda memahaminya dengan benar, Anda hanya mengalami kesulitan dengan konsep itu.
sumber
Hanya untuk melengkapi apa yang Chris jawab di atas:
Statistik-F adalah pembagian dari kuadrat model rata-rata dan kuadrat residual. Perangkat lunak seperti Stata, setelah memasang model regresi, juga memberikan nilai-p yang terkait dengan F-statistik. Ini memungkinkan Anda untuk menguji hipotesis nol bahwa koefisien model Anda nol. Anda bisa menganggapnya sebagai "signifikansi statistik dari model secara keseluruhan."
sumber