Saya menggunakan glmfit
fungsi di MATLAB. Fungsi hanya mengembalikan penyimpangan dan bukan kemungkinan log. Saya mengerti bahwa penyimpangan pada dasarnya adalah dua kali perbedaan antara kemungkinan log dari model tetapi apa yang saya tidak dapatkan adalah saya hanya menggunakan glmfit
untuk membuat satu model, tetapi entah bagaimana saya mendapatkan penyimpangan.
- Tidakkah perhitungan kemungkinan log -2 membutuhkan 2 model?
- Bagaimana penyimpangan dapat dianalisis ketika hanya ada satu model?
Pertanyaan lain yang saya miliki adalah mengatakan saya memang memiliki dua model dan bahwa saya membandingkannya dengan menggunakan tes kemungkinan log. Hipotesis nol akan menjadi model pertama dan hipotesis alternatif akan menjadi model kedua. Setelah mendapatkan statistik uji log kemungkinan apakah saya akan memeriksanya terhadap chi kuadrat cdf untuk menentukan nilai-p? Apakah saya benar bahwa jika kurang dari tingkat alpha saya akan menolak nol dan jika lebih besar saya akan gagal menolak nol?
sumber
Jawaban:
Penyimpangan istilah statistik dilemparkan sekitar terlalu banyak. Sebagian besar waktu, program mengembalikan penyimpangan mana adalah perkiraan parameter Anda dari model fitting dan adalah beberapa kejadian yang berpotensi diamati / diamati dari kuantitas acak yang bersangkutan.D ( y) =- 2 log{p ( y|θ^) } , θ^ y
Penyimpangan yang lebih umum yang Anda rujuk akan memperlakukan penyimpangan di atas sebagai fungsi dari dua variabel, baik data dan parameter yang dipasang: dan jadi jika Anda memiliki satu nilai tetapi dua nilai parameter yang saling bersaing, dan , maka Anda akan mendapatkan penyimpangan yang Anda sebutkan dari Anda dapat membaca tentang fungsi Matlab yang Anda sebutkan , ditautkan di sini . Diskusi tentang penyimpangan yang lebih bermanfaat, meskipun lebih singkat, terkait di sini .D ( y,θ^) = - 2 log{ p ( y|θ^) } y θ^1 θ^2 - 2 ( log{ p ( y|θ^1) } -log{ p ( y|θ^2) } ).
glmfit()
Statistik penyimpangan secara implisit mengasumsikan dua model: yang pertama adalah model pas Anda, dikembalikan olehθ^1 θ^s
glmfit()
, panggil vektor parameter ini . Yang kedua adalah "model penuh" (juga disebut "model jenuh"), yang merupakan model di mana ada variabel bebas untuk setiap titik data, sebut vektor parameter ini . Memiliki begitu banyak variabel bebas jelas merupakan hal yang bodoh untuk dilakukan, tetapi hal itu memungkinkan Anda untuk mencocokkan data itu dengan tepat.Jadi, statistik penyimpangan dihitung sebagai perbedaan antara kemungkinan log dihitung pada model pas dan model jenuh. Biarkan menjadi kumpulan titik data N. Kemudian:Y= {y1,y2, ⋯ ,yN}
Lihat Bab 6 dari Analisis Data Bayesian untuk beberapa diskusi yang baik tentang penyimpangan.
Adapun poin kedua Anda tentang statistik uji kemungkinan, ya sepertinya Anda pada dasarnya tahu hal yang benar untuk dilakukan. Tetapi dalam banyak kasus, Anda akan menganggap hipotesis nol sebagai sesuatu yang ahli, pengetahuan eksternal memungkinkan Anda menebak sebelumnya (seperti beberapa koefisien sama dengan nol). Ini belum tentu sesuatu yang datang sebagai hasil dari melakukan pemasangan model.
sumber