Bisakah derajat kebebasan menjadi angka non-integer?

27

Ketika saya menggunakan GAM, itu memberi saya sisa DF adalah (baris terakhir dalam kode). Apa artinya? Melampaui contoh GAM, Secara umum, bisakah jumlah derajat kebebasan menjadi angka yang bukan bilangan bulat?26.6

> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))

Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
    Min      1Q  Median      3Q     Max 
-4.1470 -1.6217 -0.8971  1.2445  6.0516 

(Dispersion Parameter for gaussian family taken to be 6.6717)

    Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
            Df Sum Sq Mean Sq F value    Pr(>F)    
lo(wt)     1.0 847.73  847.73  127.06 1.239e-11 ***
Residuals 26.6 177.47    6.67                      
Haitao Du
sumber
3
Secara umum, ya, df bisa menjadi angka floating point.
David Lane
6
Anda mungkin bermaksud bertanya tentang bilangan real (atau angka yang bukan bilangan bulat); bilangan floating point adalah konsep komputer (cara mendekati bilangan real) yang terkait dengan implementasi tetapi Anda benar-benar bertanya tentang ide matematika yang mendasarinya (dan jadi lebih baik untuk mengajukan pertanyaan matematika). Seseorang sering menghadapi situasi di mana (karena satu dan lain alasan, tidak selalu baik) kuantitas yang secara konseptual bilangan bulat bagaimanapun dalam implementasi disimpan sebagai angka floating point. Saya menyarankan "Bisakah model memiliki derajat kebebasan non-integer?" untuk judul.
Glen_b -Reinstate Monica

Jawaban:

40

Derajat kebebasan tidak bilangan bulat dalam sejumlah konteks. Memang dalam beberapa keadaan Anda dapat menetapkan bahwa derajat kebebasan untuk mencocokkan data untuk beberapa model tertentu harus antara beberapa nilai dan .kk+1

Kami biasanya menganggap derajat kebebasan sebagai jumlah parameter gratis, tetapi ada situasi di mana parameter tidak sepenuhnya bebas dan mereka kemudian bisa sulit untuk dihitung. Ini bisa terjadi ketika perataan / pengatur, misalnya.

Kasus-kasus dari metode regresi / kernel tertimbang secara lokal dan splines smoothing adalah contoh dari situasi seperti itu - sejumlah parameter bebas bukanlah sesuatu yang dapat Anda hitung dengan menambahkan prediktor, sehingga diperlukan gagasan derajat kebebasan yang lebih umum.

Dalam Generalized Additive Model yang gamsebagian didasarkan, Hastie dan Tibshirani (1990) [1] (dan memang dalam banyak referensi lain) untuk beberapa model di mana kita dapat menulis , derajat kebebasan kadang-kadang dianggap (mereka juga membahas atau ). Yang pertama konsisten dengan pendekatan yang lebih umum di mana keduanya bekerja (misalnya dalam regresi, di mana dalam situasi normal akan menjadi dimensi kolom ), tetapi ketika simetris dan idempoten, ketiganya rumusnya sama.y^=Aytr(A)tr(SEBUAHSEBUAHT)tr(2SEBUAH-SEBUAHSEBUAHT)tr(SEBUAH)XSEBUAH

[Saya tidak memiliki referensi ini berguna untuk memeriksa cukup detail; alternatif oleh penulis yang sama (ditambah Friedman) yang mudah didapat adalah Elemen Pembelajaran Statistik [2]; lihat misalnya persamaan 5.16, yang mendefinisikan derajat kebebasan efektif spline pemulusan sebagai (dalam notasi saya)]tr(SEBUAH)

Lebih umum lagi, Ye (1998) [3] mendefinisikan derajat kebebasan yang digeneralisasi sebagai , yang merupakan jumlah dari kepekaan nilai yang dipasang pada pengamatan yang sesuai. Pada gilirannya, ini konsisten dengan tempat definisi itu bekerja. Untuk menggunakan definisi Ye, Anda hanya perlu dapat menghitung dan untuk mengacaukan data dengan jumlah kecil (untuk menghitung numerik). Ini membuatnya sangat luas berlaku.sayay^sayaysayatr(SEBUAH)y^y^sayaysaya

Untuk model seperti yang dipasang oleh gam, berbagai ukuran tersebut umumnya tidak bilangan bulat.

(Saya sangat merekomendasikan membaca diskusi referensi ini tentang masalah ini, meskipun ceritanya bisa menjadi lebih rumit dalam beberapa situasi. Lihat, misalnya [4])

[1] Hastie, T. dan Tibshirani, R. (1990),
Generalized Additive Models
London: Chapman and Hall.

[2] Hastie, T., Tibshirani, R. dan Friedman, J. (2009),
Elemen Pembelajaran Statistik: Penambangan Data, Inferensi, dan Prediksi , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/

[3] Ye, J. (1998),
"Tentang Mengukur dan Mengoreksi Efek Penambangan Data dan Pemilihan Model"
Jurnal Asosiasi Statistik Amerika , Vol. 93, No. 441, pp 120-131

[4] Janson, L., Fithian, W., dan Hastie, T. (2013),
"Derajat Kebebasan Efektif: Metafora yang Cacat"
https://arxiv.org/abs/1312.7851

Glen_b -Reinstate Monica
sumber
7
Ini tidak relevan dengan kasus ini tetapi uji dua sampel Welch ketika varians tidak sama dapat memiliki jumlah derajat kebebasan yang tidak bilangan bulat.
Michael R. Chernick
5
Seperti yang dapat diperbaiki epsilon df dalam langkah-langkah yang berulang ANOVA.
David Lane
2
Referensi lain adalah statweb.stanford.edu/~tibs/ElemStatLearn/printings/… bagian 5.4.1 Derajat Kebebasan dan Matriks yang Lebih Halus
Adrian
1
@Adrian terima kasih; Saya telah melemparkan apakah akan menambahkan hanya referensi itu (dan khususnya apakah menyebutkan eqn 5.16 di bagian yang Anda tuju). Saya telah menyimpulkan bahwa itu ide yang baik untuk menambahkannya.
Glen_b -Reinstate Monica