Saya mencoba memahami bagaimana regresi logistik menggunakan distribusi binomial.
Katakanlah saya sedang mempelajari keberhasilan sarang pada burung. Peluang keberhasilan sarang adalah 0,6. Menggunakan distribusi binomial, saya dapat menghitung probabilitas r keberhasilan yang diberikan n percobaan (jumlah sarang dipelajari).
Tetapi bagaimana distribusi binomial digunakan dalam konteks pemodelan? Katakanlah saya ingin tahu bagaimana suhu harian mempengaruhi keberhasilan sarang dan saya menggunakan regresi logistik untuk mengeksplorasi pertanyaan ini.
Dalam konteks yang telah saya jelaskan, bagaimana regresi logistik menggunakan distribusi binomial?
Saya mencari jawaban yang intuitif, karena itu jawaban tanpa persamaan! Saya pikir persamaan hanya berguna setelah pemahaman telah dicapai pada tingkat intuitif.
Jawaban:
Misalkan Anda mengamati beberapa sarang pada suhu harian rata-rata yang berbeda . Bagaimana probabilitas π ( t ) dari keberhasilan sarang tergantung pada suhu t ? (Jika sarang independen, jumlah sarang yang berhasil pada suhu t kemudian didistribusikan secara binerial dengan n sama dengan jumlah sarang yang diamati dan probabilitas keberhasilan π ( t ) .)t π(t) t t n π(t)
Regresi logistik adalah salah satu pendekatan (menggunakan fungsi logistik) untuk menentukan probabilitas keberhasilan sebagai fungsi suhu melalui peregangan dan pergeseran kurva logistik, dengan jumlah peregangan dan pergeseran yang diperlukan untuk diperkirakan dari data.
sumber
Tanpa persamaan? Astaga. Ayo lihat:
Model regresi logistik secara harfiah adalah model untuk parameterp dari distribusi binomial; dengan prediktor berkelanjutan, setiap titik dapat memiliki distribusinya sendiri. (Dalam kasus di mana pengamatan 0-1, kami menangani kasus khusus Bernoulli; ini adalah situasi yang umum.)
Then diberikan, tidak dimodelkan. Jadi hasilnya adalah, dengan model yang menghubungkan pi dan ni diketahui , kita dapat memodelkan data binomial dalam hal prediktor yang menggambarkan mean (dan varians) melalui modelnya untuk p . Model ini mungkin cocok melalui estimasi kemungkinan maksimum, tetapi karena bentuk khusus (keluarga eksponensial), ML relatif "baik".
Karena tautan logistik adalah kanonik untuk keluarga binomial, itu bahkan lebih baik, karena statistik yang cukup adalah bentuk yang sangat sederhana - ini membuatnya nyaman untuk berurusan dengan sampel besar, atau bahkan untuk mengembangkan algoritma 'online'.
Tentu saja,p , sebagai probabilitas, terletak di antara 0 dan 1. Ini, tentu saja, berarti bahwa ketika kita menulis model untuk itu dalam hal beberapa variabel lain, model itu tidak boleh menerobos batas-batas itu, sehingga variabel independen mendapat cukup besar atau kecil, hubungan harus membungkuk untuk tetap berada di dalam batas.
Dengan regresi logistik, kurva itu (fungsi tautan) adalah fungsi logistik. Fungsi lain dimungkinkan, dan banyak paket mengimplementasikan beberapa (R memiliki tiga yang sesuai dibangun ke dalam
glm
fungsinya jika saya ingat benar).Tidak ada simbol kesetaraan yang dirusak dalam pembuatan pos ini.
sumber
Model Anda menganggap keberhasilan sebuah sarang dapat dilihat sebagai pertaruhan: Tuhan membalikkan koin yang dimuat dengan sisi berlabel "sukses" dan "gagal." Hasil flip untuk satu sarang tidak tergantung pada hasil flip untuk sarang lainnya.
Burung-burung memang memiliki sesuatu untuk mereka, meskipun: koin mungkin sangat mendukung kesuksesan pada beberapa suhu dibandingkan dengan yang lain. Jadi, ketika Anda memiliki kesempatan untuk mengamati sarang pada suhu tertentu, jumlah keberhasilan sama dengan jumlah keberhasilan membalik dari koin yang sama - satu untuk suhu itu. Distribusi Binomial yang sesuai menggambarkan peluang keberhasilan. Artinya, ia menetapkan probabilitas nol keberhasilan, satu, dua, ... dan seterusnya melalui jumlah sarang.
Satu perkiraan yang masuk akal dari hubungan antara suhu dan bagaimana Tuhan memuat koin diberikan oleh proporsi keberhasilan yang diamati pada suhu itu. Ini adalah taksiran Maximum Likelihood (MLE).
Baris atas gambar menunjukkan MLE pada masing-masing dari empat suhu yang diamati. Kurva merah di panel "Fit" melacak bagaimana koin dimuat, tergantung pada suhu. Dengan konstruksi, jejak ini melewati masing-masing titik data. (Apa yang dilakukannya pada suhu menengah tidak diketahui; Saya telah dengan kasar menghubungkan nilai-nilai untuk menekankan titik ini.)
Model "jenuh" ini tidak terlalu berguna, justru karena itu tidak memberi kita dasar untuk memperkirakan bagaimana Allah akan memuat koin pada suhu menengah. Untuk melakukan itu, kita perlu mengira ada semacam kurva "tren" yang menghubungkan muatan koin dengan suhu.
Baris bawah gambar ini cocok dengan tren seperti itu. Tren terbatas pada apa yang dapat dilakukannya: ketika diplot dalam koordinat yang sesuai ("peluang log"), seperti yang ditunjukkan pada panel "Logit Response" di sebelah kiri, tren ini hanya dapat mengikuti garis lurus. Setiap garis lurus seperti itu menentukan pemuatan koin di semua suhu, seperti yang ditunjukkan oleh garis lengkung yang sesuai di panel "Fit". Pemuatan itu, pada gilirannya, menentukan distribusi Binomial di semua suhu. Baris bawah memplot distribusi tersebut untuk suhu di mana sarang diamati. (Garis hitam putus-putus menandai nilai yang diharapkan dari distribusi, membantu mengidentifikasinya dengan tepat. Anda tidak melihat garis-garis di baris atas gambar karena bertepatan dengan segmen merah.)
Sekarang tradeoff harus dibuat: garis mungkin melewati dekat ke beberapa titik data, hanya untuk membelok jauh dari yang lain. Ini menyebabkan distribusi Binomial yang sesuai untuk menetapkan probabilitas yang lebih rendah untuk sebagian besar nilai yang diamati daripada sebelumnya. Anda dapat melihat ini dengan jelas pada 10 derajat dan 15 derajat: probabilitas nilai yang diamati bukan probabilitas tertinggi yang mungkin, juga tidak mendekati nilai yang ditetapkan di baris atas.
Regresi logistik menggeser dan menggoyangkan garis yang mungkin di sekitar (dalam sistem koordinat yang digunakan oleh panel "Logit Response"), mengubah ketinggiannya menjadi probabilitas Binomial (panel "Fit"), menilai peluang yang ditetapkan untuk pengamatan (empat panel kanan) ), dan memilih garis yang memberikan kombinasi terbaik dari peluang tersebut.
Apa yang "terbaik"? Sederhananya, probabilitas gabungan dari semua data adalah sebesar mungkin. Dengan cara ini, tidak ada probabilitas tunggal (segmen merah) yang dibiarkan benar-benar kecil, tetapi biasanya sebagian besar probabilitas tidak akan setinggi mereka dalam model jenuh.
Berikut adalah satu iterasi dari pencarian regresi logistik di mana garis diputar ke bawah:
Pertama, perhatikan apa yang tetap sama: titik abu-abu di sebar "Fit" diperbaiki karena mereka mewakili data. Demikian juga, rentang nilai dan posisi horizontal dari segmen merah di empat plot Binomial juga tetap, karena mereka juga mewakili data. Namun, baris baru ini memuat koin dengan cara yang sangat berbeda. Dengan begitu,10 15 derajat tetapi pekerjaan yang mengerikan pas data lainnya. (Pada 5 dan 20 derajat probabilitas Binomial yang ditugaskan untuk data sangat kecil sehingga Anda bahkan tidak dapat melihat segmen merah.) Secara keseluruhan, ini jauh lebih buruk daripada yang ditunjukkan pada gambar pertama.
Saya harap diskusi ini telah membantu Anda mengembangkan citra mental probabilitas Binomial yang berubah karena garis bervariasi, sambil menjaga data tetap sama. Garis yang sesuai dengan upaya regresi logistik mencoba membuat garis merah itu secara keseluruhan setinggi mungkin. Dengan demikian, hubungan antara regresi logistik dan keluarga distribusi Binomial sangat dalam dan intim.
Lampiran:
R
kode untuk menghasilkan angkasumber