Signifikansi koefisien regresi (GAM) ketika kemungkinan model tidak secara signifikan lebih tinggi dari nol

10

Saya menjalankan regresi berbasis GAM menggunakan gamls paket R dan mengasumsikan distribusi beta data nol. Saya hanya memiliki variabel penjelas tunggal dalam model saya, jadi pada dasarnya: mymodel = gamlss(response ~ input, family=BEZI).

Algoritme memberi saya koefisien untuk dampak variabel penjelas ke dalam mean ( ) dan nilai-p terkait untuk , sesuatu seperti:kμk(input)=0

Mu link function:  logit                                               
Mu Coefficients:                                                      
              Estimate  Std. Error  t value   Pr(>|t|)                  
(Intercept)  -2.58051     0.03766  -68.521  0.000e+00                  
input        -0.09134     0.01683   -5.428  6.118e-08

Seperti yang Anda lihat pada contoh di atas, hipotesis ditolak dengan keyakinan tinggi.k(input)=0

Saya kemudian menjalankan model nol: null = gamlss(response ~ 1, family=BEZI)dan membandingkan kemungkinan menggunakan uji rasio kemungkinan:

p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)).

Dalam sejumlah kasus, saya mendapatkan bahkan ketika koefisien pada input dilaporkan sangat signifikan (seperti di atas). Saya menemukan ini sangat tidak biasa - setidaknya itu tidak pernah terjadi dalam pengalaman saya dengan regresi linier atau logistik (pada kenyataannya, ini juga tidak pernah terjadi ketika saya menggunakan gamma yang disesuaikan dengan gamls).p>0.05

Pertanyaan saya adalah: apakah saya masih bisa mempercayai ketergantungan antara respons dan input saat ini?

a11msp
sumber

Jawaban:

1

Saya tidak melihat alasan langsung mengapa ini harus dikaitkan dengan GAM. Faktanya adalah Anda menggunakan dua tes untuk hal yang sama. Karena tidak ada kepastian absolut dalam statistik, sangat mungkin untuk memiliki satu memberikan hasil yang signifikan dan yang lainnya tidak.

Mungkin salah satu dari dua tes itu hanya lebih kuat (tapi kemudian mungkin bergantung pada beberapa asumsi lagi), atau mungkin satu yang signifikan adalah kesalahan satu-dari-dua puluh tipe I Anda.

Contoh yang baik adalah tes untuk apakah sampel berasal dari distribusi yang sama: Anda memiliki tes yang sangat parametrik untuk itu (T-test adalah salah satu yang dapat digunakan untuk ini: jika artinya berbeda, maka seharusnya distribusinya), dan juga nonparametrik yang: bisa terjadi bahwa yang parametrik memberikan hasil yang signifikan dan yang nonparametrik tidak. Ini bisa jadi karena asumsi dari uji parametrik adalah palsu, karena data hanya luar biasa (tipe I), atau karena ukuran sampel tidak cukup untuk tes nonparametrik untuk mengambil perbedaan, atau, akhirnya, karena aspek dari apa yang Anda benar-benar ingin uji (distribusi berbeda) yang diperiksa oleh tes berbeda hanya berbeda (berbeda berarti <-> kesempatan menjadi "lebih tinggi dari").

Jika satu hasil tes menunjukkan hasil yang signifikan, dan yang lainnya hanya sedikit tidak signifikan, saya tidak akan terlalu khawatir.

Nick Sabbe
sumber