Penyimpangan dan GLM
Secara formal, seseorang dapat melihat penyimpangan sebagai semacam jarak antara dua model probabilistik; dalam konteks GLM, itu berjumlah dua kali rasio log dari kemungkinan antara dua model bersarang ℓ1/ℓ0 mana ℓ0 adalah model "lebih kecil"; yaitu, pembatasan linear pada parameter model (lih. Neyman-Pearson lemma ), seperti yang dikatakan @suncoolsu. Dengan demikian, dapat digunakan untuk melakukan perbandingan model . Ini juga dapat dilihat sebagai generalisasi dari RSS yang digunakan dalam estimasi OLS (ANOVA, regresi), karena ia memberikan ukuran good-of-fit dari model yang dievaluasi bila dibandingkan dengan model nol (intersep saja). Ini bekerja dengan LM juga:
> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)
ε^tε^
> t(residuals(lm.res))%*%residuals(lm.res)
[,1]
[1,] 98.66754
R2
> summary(lm.res)
Call:
lm(formula = y ~ x)
(...)
Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175
F-statistic: 71.97 on 1 and 98 DF, p-value: 2.334e-13
R2=1−RSS/TSSTSS
> summary.aov(lm.res)
Df Sum Sq Mean Sq F value Pr(>F)
x 1 72.459 72.459 71.969 2.334e-13 ***
Residuals 98 98.668 1.007
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Sekarang, lihat penyimpangannya:
> deviance(lm.res)
[1] 98.66754
Bahkan, untuk model linier, penyimpangan sama dengan RSS (Anda mungkin ingat bahwa perkiraan OLS dan ML bertepatan dalam kasus seperti itu).
Penyimpangan dan CART
nipiknikpikD
Di=−2∑kniklog(pik),
D+α#(T)#(T)TD1−∑kp2ik
j
Di=∑j(yj−μi)2,
N(μi,σ2)DDirpart
residuals()
fungsi untuk rpart
objek, di mana "residu penyimpangan" dihitung sebagai akar kuadrat dari minus dua kali logaritma model pas.
Pengantar partisi rekursif menggunakan rutinitas rpart , oleh Atkinson dan Therneau, juga merupakan awal yang baik. Untuk ulasan yang lebih umum (termasuk mengantongi), saya akan merekomendasikan
lm.fit
dalam contoh Anda, karena ini adalah nama pekerja keras di belakanglm
.Mungkin sedikit lebih jelas jika kita berpikir tentang model yang sempurna dengan parameter sebanyak pengamatan sehingga menjelaskan semua varian dalam respon. Ini adalah model jenuh. Penyimpangan hanya mengukur perbedaan "kecocokan" model kandidat dan model jenuh.
Dalam pohon regresi, model jenuh akan menjadi salah satu yang memiliki banyak terminal (daun) sebagai pengamatan sehingga akan cocok dengan respon. Penyimpangan dari model yang lebih sederhana dapat dihitung sebagai jumlah residu node kuadrat, dijumlahkan pada semua node Dengan kata lain, jumlah perbedaan kuadrat antara nilai yang diprediksi dan yang diamati. Ini adalah jenis kesalahan yang sama (atau penyimpangan) yang digunakan dalam regresi kuadrat terkecil.
Untuk pohon klasifikasi, jumlah kuadrat residu bukan ukuran yang paling tepat dari ketidakcocokan. Sebaliknya, ada ukuran alternatif penyimpangan, ditambah pohon dapat dibangun meminimalkan ukuran entropi atau indeks Gini. Yang terakhir adalah default di
rpart
. Indeks Gini dihitung sebagai:sumber
Dalam hal ini, perbedaan penyimpangan diambil:
glm
R
Jika Anda ingin membaca secara lebih rinci: cf: Analisis Data Kategori oleh Alan Agresti, hlm. 118.
sumber
rpart
dan saya akan meninggalkan jawaban untuk anggota yang lebih berpengalaman dari forum ini.