Mengapa GLM memprediksi mean dan bukan mode?

8

Mengapa GLM memprediksi mean dan bukan mode sinyal? Bukankah ini bertentangan dengan dasar di balik GLM, yaitu kemungkinan maksimum? Persamaan untuk memecahkan parameter model dalam GLM didasarkan pada maksimalisasi kemungkinan seperti yang dijelaskan oleh distribusi probabilitas dari sinyal yang dimodelkan. Distribusi probabilitas ini maksimum untuk mode bukan untuk rata - rata (distribusi normal adalah pengecualian: kedua mode dan rata-rata adalah sama). Oleh karena itu, GLM harus memprediksi mode , bukan berarti sinyal! (Untuk beberapa latar belakang pertanyaan ini lihat di sini .)

nukimov
sumber
Saya agak berkarat untuk memberikan ini sebagai jawaban, tetapi saya yakin idenya adalah bahwa ada distribusi kemungkinan bersyarat, dan GLM menyediakan mode distribusi itu. (Jadi ini adalah estimasi modal rata-rata.)
Shea Parkes
1
Saya telah mengedit judul Anda untuk mencerminkan model StackExchange - pertanyaan adalah pertanyaan, bukan opini. (Anda harus mencoba menghindari membuat tubuh pertanyaan Anda terdengar seperti kata-kata kasar.)
Glen_b -Reinstate Monica
7
Perhatikan bahwa kemungkinan adalah fungsi dari parameter, sementara model berusaha menggambarkan distribusi data. Tidak ada ketidakkonsistenan. Memang, pertimbangkan regresi logistik untuk data biner, di mana proporsi yang pas berkisar antara 0,2 dan 0,475. Mode distribusi Bernoulli dalam setiap kasus 0 - jadi Anda mengatakan bahwa model harus seluruhnya terdiri dari 0? Itu jauh lebih tidak berguna daripada model untuk rata-rata.
Glen_b -Reinstate Monica
3
Hanya catatan tambahan: mode respons Anda mungkin sangat tidak informatif. Dalam contoh paling ekstrem, mode distribusi Bernoulli akan selalu 0 atau 1.
Cliff AB
9
Hal yang dimaksimalkan dalam kemungkinan maksimum bukanlah kepadatan distribusi data tetapi kemungkinan parameter.
Glen_b -Reinstate Monica

Jawaban:

13

Tujuan pemasangan kemungkinan maksimum adalah untuk menentukan parameter dari beberapa distribusi yang paling sesuai dengan data - dan lebih umum, bagaimana parameter tersebut dapat bervariasi dengan kovariat. Dalam kasus GLM, kami ingin menentukan parameterθ dari beberapa distribusi keluarga eksponensial, dan bagaimana mereka adalah fungsi dari beberapa kovariat X.

Untuk setiap distribusi probabilitas dalam keluarga eksponensial berlebih, mean μ dijamin terkait dengan parameter keluarga eksponensial kanonik θ melalui fungsi tautan kanonik, θ=g(μ). Kami bahkan dapat menentukan formula umum untukg, dan biasanya gjuga bisa dibalik. Jika kita hanya mengaturμ=g1(θ) dan θ=Xβ, kami secara otomatis mendapatkan model untuk caranya μ dan θ berbeda dengan X, tidak peduli apa pun distribusi yang kita hadapi, dan model itu dapat dengan mudah dan andal cocok dengan data dengan optimasi cembung . Jawaban Matt menunjukkan cara kerjanya untuk distribusi Bernoulli, tetapi keajaiban sebenarnya adalah ia bekerja untuk setiap distribusi dalam keluarga.

Mode tidak menikmati properti ini. Faktanya, seperti yang ditunjukkan oleh Cliff AB, mode ini mungkin bahkan tidak memiliki hubungan bijective dengan parameter distribusi, sehingga kesimpulan dari mode ini memiliki daya yang sangat terbatas. Ambil distribusi Bernoulli, misalnya. Mode ini adalah 0 atau 1, dan mengetahui mode hanya memberitahu Anda apakahp, probabilitas 1, lebih besar atau kurang dari 1/2. Sebaliknya, mean memberi tahu Anda apa sebenarnyap adalah.

Sekarang, untuk mengklarifikasi beberapa kebingungan dalam pertanyaan: kemungkinan maksimum bukan tentang menemukan mode distribusi, karena kemungkinan fungsi tidak sama dengan distribusi. Kemungkinannya melibatkan distribusi model Anda dalam formulanya, tetapi di situlah kesamaan berakhir. Fungsi kemungkinanL(θ) mengambil nilai parameter θsebagai input, dan memberi tahu Anda seberapa "mungkin" seluruh dataset Anda , mengingat distribusi model memilikinyaθ. Distribusi modelfθ(y) tergantung pada θ, tetapi sebagai fungsi, dibutuhkan nilai y sebagai input dan memberi tahu Anda seberapa sering sampel acak dari distribusi itu akan sama y. MaksimalL(θ) dan mode fθ(y) bukan hal yang sama.

Mungkin membantu untuk melihat formula kemungkinan. Dalam hal data IIDy1,y2,,yn, kita punya

L(θ)=i=1nfθ(yi)
Nilai-nilai yisemuanya sudah diperbaiki - mereka adalah nilai dari data Anda. Kemungkinan maksimum adalah menemukanθ yang memaksimalkan L(θ). Menemukan mode distribusi akan menemukany yang memaksimalkan fθ(y), yang bukan itu yang kita inginkan: y diperbaiki dalam kemungkinan, bukan variabel.

Jadi menemukan maksimum fungsi kemungkinan tidak, secara umum, sama dengan menemukan mode distribusi model. (Ini adalah mode distribusi lain , jika Anda bertanya pada Bayesian yang objektif, tapi itu cerita yang sangat berbeda!)

Paul
sumber
14

Ada dua hal yang perlu diperdebatkan di sini:

  • Fakta bahwa Glm mencoba memprediksi y sebagai rata-rata distribusi bersyarat, dan memperkirakan parameternya β kemungkinan maksimum konsisten.
  • Memperkirakan parameter dengan kemungkinan maksimum tidak menentukan mode distribusi apa pun. Setidaknya tidak dalam formulasi klasik glm.

Mari kita ambil glm non-trivial paling sederhana sebagai contoh kerja, model logistik. Dalam regresi logistik kami mendapat responsyyang bernilai 0, 1. Kami mendalilkan ituy terdistribusi tergantung pada data kami

yXBernoulli(p(X))

Dan kami berusaha memperkirakan rata-rata distribusi bersyarat ini (yang dalam hal ini adil p) dengan menghubungkannya ke fungsi linear dari X

log(p1p)=Xβ

Berhenti sejenak dan berefleksi, dalam kasus ini kita melihat bahwa adalah wajar untuk ingin tahup, yang merupakan rata - rata distribusi bersyarat.

Dalam pengaturan glm, p tidak diperkirakan secara langsung βbahwa target prosedur estimasi. Untuk mendapatkannyaβkami menggunakan kemungkinan maksimum. Probabilitas mengamati titik datay dari distribusi bernoulli bersyarat, diberi nilai X diamati, dan serangkaian parameter tertentu β ,adalah

P(yX,β)=py(1p)1y

dimana p adalah fungsi dari β dan X melalui hubungan yang menghubungkan.

Perhatikan itu yyang disampel dari distribusi probabilitas di sini, bukan beta.

Untuk menerapkan kemungkinan maksimum, kami membalikkan ini menjadi fungsi β, mempertimbangkan keduanya X dan y sebagaimana telah diperbaiki dan diamati:

L(β)=py(1p)1y

Tapi, Ladalah bukan fungsi kepadatan , itu adalah kemungkinan a. Ketika Anda memaksimalkan kemungkinan Anda tidak memperkirakan mode distribusi karena tidak ada distribusi untuk, well, mode-ize.

Anda dapat menghasilkan kepadatan dari L dengan memberikan distribusi sebelumnya pada parameter β dan menggunakan aturan Bayes, tetapi dalam formulasi glm klasik, ini tidak dilakukan.

Matthew Drury
sumber
4

Terima kasih atas semua komentar dan jawabannya. Meskipun tidak satupun dari mereka adalah 100% jawaban atas pertanyaan saya, semuanya membantu saya untuk melihat melalui kontradiksi yang tampak. Jadi, saya memutuskan untuk merumuskan sendiri jawabannya, saya pikir ini adalah ringkasan dari semua ide yang terlibat dalam komentar dan jawaban:

Maksimalisasi kemungkinan melalui data PDF f(y;θ,ϕ)dalam GLM tidak terkait dengan modef (tetapi artinya) karena 2 alasan:

  1. Ketika Anda memaksimalkan f(y;θ,ϕ)kamu tidak mempertimbangkanf sebagai fungsi dari y, tetapi sebagai fungsi dari β(parameter model linier). Lebih khusus lagi, ketika Anda membedakanf untuk mendapatkan sistem persamaan yang mengarah untuk menentukan β, Anda tidak melakukannya sehubungan dengan y; Anda melakukannya sehubungan denganβ. Dengan demikian, proses maksimalisasi memberi Andaβ yang memaksimalkan f. Yang optimalβ, dan tidak optimal y (yang, memang, akan menjadi mode), adalah output dari proses maksimalisasi.

  2. Selain itu, dalam proses maksimalisasi, mean, μ, adalah fungsi dari β. Karena itu, melalui proses maksimalisasi kami juga memperoleh yang optimalμ.

nukimov
sumber