Mengapa GLM memprediksi mean dan bukan mode sinyal? Bukankah ini bertentangan dengan dasar di balik GLM, yaitu kemungkinan maksimum? Persamaan untuk memecahkan parameter model dalam GLM didasarkan pada maksimalisasi kemungkinan seperti yang dijelaskan oleh distribusi probabilitas dari sinyal yang dimodelkan. Distribusi probabilitas ini maksimum untuk mode bukan untuk rata - rata (distribusi normal adalah pengecualian: kedua mode dan rata-rata adalah sama). Oleh karena itu, GLM harus memprediksi mode , bukan berarti sinyal! (Untuk beberapa latar belakang pertanyaan ini lihat di sini .)
8
Jawaban:
Tujuan pemasangan kemungkinan maksimum adalah untuk menentukan parameter dari beberapa distribusi yang paling sesuai dengan data - dan lebih umum, bagaimana parameter tersebut dapat bervariasi dengan kovariat. Dalam kasus GLM, kami ingin menentukan parameterθ dari beberapa distribusi keluarga eksponensial, dan bagaimana mereka adalah fungsi dari beberapa kovariat X .
Untuk setiap distribusi probabilitas dalam keluarga eksponensial berlebih, meanμ dijamin terkait dengan parameter keluarga eksponensial kanonik θ melalui fungsi tautan kanonik, θ=g(μ) . Kami bahkan dapat menentukan formula umum untukg , dan biasanya g juga bisa dibalik. Jika kita hanya mengaturμ=g−1(θ) dan θ=Xβ , kami secara otomatis mendapatkan model untuk caranya μ dan θ berbeda dengan X , tidak peduli apa pun distribusi yang kita hadapi, dan model itu dapat dengan mudah dan andal cocok dengan data dengan optimasi cembung . Jawaban Matt menunjukkan cara kerjanya untuk distribusi Bernoulli, tetapi keajaiban sebenarnya adalah ia bekerja untuk setiap distribusi dalam keluarga.
Mode tidak menikmati properti ini. Faktanya, seperti yang ditunjukkan oleh Cliff AB, mode ini mungkin bahkan tidak memiliki hubungan bijective dengan parameter distribusi, sehingga kesimpulan dari mode ini memiliki daya yang sangat terbatas. Ambil distribusi Bernoulli, misalnya. Mode ini adalah 0 atau 1, dan mengetahui mode hanya memberitahu Anda apakahp , probabilitas 1, lebih besar atau kurang dari 1/2. Sebaliknya, mean memberi tahu Anda apa sebenarnyap adalah.
Sekarang, untuk mengklarifikasi beberapa kebingungan dalam pertanyaan: kemungkinan maksimum bukan tentang menemukan mode distribusi, karena kemungkinan fungsi tidak sama dengan distribusi. Kemungkinannya melibatkan distribusi model Anda dalam formulanya, tetapi di situlah kesamaan berakhir. Fungsi kemungkinanL(θ) mengambil nilai parameter θ sebagai input, dan memberi tahu Anda seberapa "mungkin" seluruh dataset Anda , mengingat distribusi model memilikinyaθ . Distribusi modelfθ(y) tergantung pada θ , tetapi sebagai fungsi, dibutuhkan nilai y sebagai input dan memberi tahu Anda seberapa sering sampel acak dari distribusi itu akan sama y . MaksimalL(θ) dan mode fθ(y) bukan hal yang sama.
Mungkin membantu untuk melihat formula kemungkinan. Dalam hal data IIDy1,y2,…,yn , kita punya
Jadi menemukan maksimum fungsi kemungkinan tidak, secara umum, sama dengan menemukan mode distribusi model. (Ini adalah mode distribusi lain , jika Anda bertanya pada Bayesian yang objektif, tapi itu cerita yang sangat berbeda!)
sumber
Ada dua hal yang perlu diperdebatkan di sini:
Mari kita ambil glm non-trivial paling sederhana sebagai contoh kerja, model logistik. Dalam regresi logistik kami mendapat responsy yang bernilai 0, 1. Kami mendalilkan ituy terdistribusi tergantung pada data kami
Dan kami berusaha memperkirakan rata-rata distribusi bersyarat ini (yang dalam hal ini adilp ) dengan menghubungkannya ke fungsi linear dari X
Berhenti sejenak dan berefleksi, dalam kasus ini kita melihat bahwa adalah wajar untuk ingin tahup , yang merupakan rata - rata distribusi bersyarat.
Dalam pengaturan glm,p tidak diperkirakan secara langsung β bahwa target prosedur estimasi. Untuk mendapatkannyaβ kami menggunakan kemungkinan maksimum. Probabilitas mengamati titik datay dari distribusi bernoulli bersyarat, diberi nilai X diamati, dan serangkaian parameter tertentu β ,adalah
dimanap adalah fungsi dari β dan X melalui hubungan yang menghubungkan.
Perhatikan ituy yang disampel dari distribusi probabilitas di sini, bukan beta.
Untuk menerapkan kemungkinan maksimum, kami membalikkan ini menjadi fungsiβ , mempertimbangkan keduanya X dan y sebagaimana telah diperbaiki dan diamati:
Tapi,L adalah bukan fungsi kepadatan , itu adalah kemungkinan a. Ketika Anda memaksimalkan kemungkinan Anda tidak memperkirakan mode distribusi karena tidak ada distribusi untuk, well, mode-ize.
Anda dapat menghasilkan kepadatan dariL dengan memberikan distribusi sebelumnya pada parameter β dan menggunakan aturan Bayes, tetapi dalam formulasi glm klasik, ini tidak dilakukan.
sumber
Terima kasih atas semua komentar dan jawabannya. Meskipun tidak satupun dari mereka adalah 100% jawaban atas pertanyaan saya, semuanya membantu saya untuk melihat melalui kontradiksi yang tampak. Jadi, saya memutuskan untuk merumuskan sendiri jawabannya, saya pikir ini adalah ringkasan dari semua ide yang terlibat dalam komentar dan jawaban:
Maksimalisasi kemungkinan melalui data PDFf(y;θ,ϕ) dalam GLM tidak terkait dengan modef (tetapi artinya) karena 2 alasan:
Ketika Anda memaksimalkanf(y;θ,ϕ) kamu tidak mempertimbangkanf sebagai fungsi dari y , tetapi sebagai fungsi dari β (parameter model linier). Lebih khusus lagi, ketika Anda membedakanf untuk mendapatkan sistem persamaan yang mengarah untuk menentukan β , Anda tidak melakukannya sehubungan dengan y ; Anda melakukannya sehubungan denganβ . Dengan demikian, proses maksimalisasi memberi Andaβ yang memaksimalkan f . Yang optimalβ , dan tidak optimal y (yang, memang, akan menjadi mode), adalah output dari proses maksimalisasi.
Selain itu, dalam proses maksimalisasi, mean,μ , adalah fungsi dari β . Karena itu, melalui proses maksimalisasi kami juga memperoleh yang optimalμ .
sumber