Ketika saya menggunakan GAM, itu memberi saya sisa DF adalah (baris terakhir dalam kode). Apa artinya? Melampaui contoh GAM, Secara umum, bisakah jumlah derajat kebebasan menjadi angka yang bukan bilangan bulat?
> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))
Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
Min 1Q Median 3Q Max
-4.1470 -1.6217 -0.8971 1.2445 6.0516
(Dispersion Parameter for gaussian family taken to be 6.6717)
Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294
Number of Local Scoring Iterations: 2
Anova for Parametric Effects
Df Sum Sq Mean Sq F value Pr(>F)
lo(wt) 1.0 847.73 847.73 127.06 1.239e-11 ***
Residuals 26.6 177.47 6.67
r
degrees-of-freedom
gam
machine-learning
pca
lasso
probability
self-study
bootstrap
expected-value
regression
machine-learning
linear-model
probability
simulation
random-generation
machine-learning
distributions
svm
libsvm
classification
pca
multivariate-analysis
feature-selection
archaeology
r
regression
dataset
simulation
r
regression
time-series
forecasting
predictive-models
r
mean
sem
lavaan
machine-learning
regularization
regression
conv-neural-network
convolution
classification
deep-learning
conv-neural-network
regression
categorical-data
econometrics
r
confirmatory-factor
scale-invariance
self-study
unbiased-estimator
mse
regression
residuals
sampling
random-variable
sample
probability
random-variable
convergence
r
survival
weibull
references
autocorrelation
hypothesis-testing
distributions
correlation
regression
statistical-significance
regression-coefficients
univariate
categorical-data
chi-squared
regression
machine-learning
multiple-regression
categorical-data
linear-model
pca
factor-analysis
factor-rotation
classification
scikit-learn
logistic
p-value
regression
panel-data
multilevel-analysis
variance
bootstrap
bias
probability
r
distributions
interquartile
time-series
hypothesis-testing
normal-distribution
normality-assumption
kurtosis
arima
panel-data
stata
clustered-standard-errors
machine-learning
optimization
lasso
multivariate-analysis
ancova
machine-learning
cross-validation
Haitao Du
sumber
sumber
Jawaban:
Derajat kebebasan tidak bilangan bulat dalam sejumlah konteks. Memang dalam beberapa keadaan Anda dapat menetapkan bahwa derajat kebebasan untuk mencocokkan data untuk beberapa model tertentu harus antara beberapa nilai dan .k k + 1
Kami biasanya menganggap derajat kebebasan sebagai jumlah parameter gratis, tetapi ada situasi di mana parameter tidak sepenuhnya bebas dan mereka kemudian bisa sulit untuk dihitung. Ini bisa terjadi ketika perataan / pengatur, misalnya.
Kasus-kasus dari metode regresi / kernel tertimbang secara lokal dan splines smoothing adalah contoh dari situasi seperti itu - sejumlah parameter bebas bukanlah sesuatu yang dapat Anda hitung dengan menambahkan prediktor, sehingga diperlukan gagasan derajat kebebasan yang lebih umum.
Dalam Generalized Additive Model yangy^= A y tr(A ) tr( A AT) tr( 2 A - A AT) tr( A ) X SEBUAH
gam
sebagian didasarkan, Hastie dan Tibshirani (1990) [1] (dan memang dalam banyak referensi lain) untuk beberapa model di mana kita dapat menulis , derajat kebebasan kadang-kadang dianggap (mereka juga membahas atau ). Yang pertama konsisten dengan pendekatan yang lebih umum di mana keduanya bekerja (misalnya dalam regresi, di mana dalam situasi normal akan menjadi dimensi kolom ), tetapi ketika simetris dan idempoten, ketiganya rumusnya sama.[Saya tidak memiliki referensi ini berguna untuk memeriksa cukup detail; alternatif oleh penulis yang sama (ditambah Friedman) yang mudah didapat adalah Elemen Pembelajaran Statistik [2]; lihat misalnya persamaan 5.16, yang mendefinisikan derajat kebebasan efektif spline pemulusan sebagai (dalam notasi saya)]tr( A )
Lebih umum lagi, Ye (1998) [3] mendefinisikan derajat kebebasan yang digeneralisasi sebagai , yang merupakan jumlah dari kepekaan nilai yang dipasang pada pengamatan yang sesuai. Pada gilirannya, ini konsisten dengan tempat definisi itu bekerja. Untuk menggunakan definisi Ye, Anda hanya perlu dapat menghitung dan untuk mengacaukan data dengan jumlah kecil (untuk menghitung numerik). Ini membuatnya sangat luas berlaku.∑saya∂y^saya∂ysaya tr( A ) y^ ∂y^saya∂ysaya
Untuk model seperti yang dipasang oleh
gam
, berbagai ukuran tersebut umumnya tidak bilangan bulat.(Saya sangat merekomendasikan membaca diskusi referensi ini tentang masalah ini, meskipun ceritanya bisa menjadi lebih rumit dalam beberapa situasi. Lihat, misalnya [4])
[1] Hastie, T. dan Tibshirani, R. (1990),
Generalized Additive Models
London: Chapman and Hall.
[2] Hastie, T., Tibshirani, R. dan Friedman, J. (2009),
Elemen Pembelajaran Statistik: Penambangan Data, Inferensi, dan Prediksi , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/
[3] Ye, J. (1998),
"Tentang Mengukur dan Mengoreksi Efek Penambangan Data dan Pemilihan Model"
Jurnal Asosiasi Statistik Amerika , Vol. 93, No. 441, pp 120-131
[4] Janson, L., Fithian, W., dan Hastie, T. (2013),
"Derajat Kebebasan Efektif: Metafora yang Cacat"
https://arxiv.org/abs/1312.7851
sumber