Saya punya pertanyaan tentang distribusi yang benar untuk digunakan untuk membuat model dengan data saya. Saya melakukan inventarisasi hutan dengan 50 plot, masing-masing plot berukuran 20m × 50m. Untuk setiap plot, saya memperkirakan persentase kanopi pohon yang menaungi tanah. Setiap plot memiliki satu nilai, dalam persen, untuk tutupan kanopi. Persentase berkisar dari 0 hingga 0,95. Saya membuat model persen tutupan kanopi pohon ( variabel Y ), dengan matriks variabel X independen berdasarkan citra satelit dan data lingkungan.
Saya tidak yakin apakah saya harus menggunakan distribusi binomial, karena variabel acak binomial adalah jumlah dari n percobaan independen (yaitu, variabel acak Bernoulli). Nilai persentase bukan jumlah percobaan; mereka adalah persentase sebenarnya. Haruskah saya menggunakan gamma, meskipun tidak memiliki batas atas? Haruskah saya mengubah persentase menjadi bilangan bulat dan menggunakan Poisson sebagai jumlah? Haruskah saya tetap dengan Gaussian? Saya belum menemukan banyak contoh dalam literatur atau buku teks yang mencoba memodelkan persentase dengan cara ini. Petunjuk atau wawasan apa pun dihargai.
Terima kasih atas jawaban anda Faktanya, distribusi beta persis seperti yang saya butuhkan dan dibahas secara menyeluruh dalam artikel ini:
Eskelson, BN, Madsen, L., Hagar, JC, & Temesgen, H. (2011). Memperkirakan tutupan vegetasi tumbuhan bawah Riparian dengan regresi Beta dan model kopula. Ilmu Hutan, 57 (3), 212-221.
Para penulis ini menggunakan paket betareg dalam R oleh Cribari-Neto dan Zeileis.
Artikel berikut membahas cara yang baik untuk mengubah variabel respon terdistribusi beta ketika termasuk 0 benar dan / atau 1 dalam kisaran persentase:
- Smithson, M., dan J. Verkuilen, 2006. Pemeras lemon yang lebih baik? Regresi kemungkinan maksimum dengan variabel dependen yang didistribusikan-beta , Metode Psikologis, 11 (1): 54-71.
Jawaban:
Anda benar bahwa distribusi binomial adalah untuk proporsi diskrit yang muncul dari jumlah 'keberhasilan' dari sejumlah uji coba Bernoulli, dan bahwa ini membuat distribusi tidak sesuai untuk data Anda. Anda harus menggunakan distribusi Gamma dibagi dengan jumlah Gamma itu ditambah Gamma lain. Artinya, Anda harus menggunakan distribusi beta untuk memodelkan proporsi berkelanjutan.
Saya memiliki contoh regresi beta dalam jawaban saya di sini: efek Hapus faktor data proporsi terus menerus menggunakan regresi di R .
sumber
Nilai persentase mewakili tingkat yang tidak tergantung pada jumlah sampel. Anda ingin menggunakan persentase ini sebagai variabel dependen dan citra satelit sebagai variabel penjelas. Namun saya kira tidak semua 50 plot dalam inventaris memiliki jumlah sampel yang serupa. Model yang cocok yang menghubungkan persentase ini dengan variabel lain harus memperhitungkan ketidakpastian dalam pengukuran ini, memberikan bobot lebih pada plot dengan sampel tinggi.
Selanjutnya, distribusi kesalahan dalam hal data Anda jelas binomial. Varians kesalahan terkecil pada batas, ini ditangkap oleh distribusi binomial.
Bagi saya, ini semua adalah contoh khas dari menggunakan GLM dengan model kesalahan binomial.
"Statistik: Pengantar menggunakan R", Bab 14 oleh Crawley membahas persis topik ini dan bagaimana menganalisisnya dengan R.
sumber