Distribusi untuk data persentase

11

Saya punya pertanyaan tentang distribusi yang benar untuk digunakan untuk membuat model dengan data saya. Saya melakukan inventarisasi hutan dengan 50 plot, masing-masing plot berukuran 20m × 50m. Untuk setiap plot, saya memperkirakan persentase kanopi pohon yang menaungi tanah. Setiap plot memiliki satu nilai, dalam persen, untuk tutupan kanopi. Persentase berkisar dari 0 hingga 0,95. Saya membuat model persen tutupan kanopi pohon ( variabel Y ), dengan matriks variabel X independen berdasarkan citra satelit dan data lingkungan.

Saya tidak yakin apakah saya harus menggunakan distribusi binomial, karena variabel acak binomial adalah jumlah dari n percobaan independen (yaitu, variabel acak Bernoulli). Nilai persentase bukan jumlah percobaan; mereka adalah persentase sebenarnya. Haruskah saya menggunakan gamma, meskipun tidak memiliki batas atas? Haruskah saya mengubah persentase menjadi bilangan bulat dan menggunakan Poisson sebagai jumlah? Haruskah saya tetap dengan Gaussian? Saya belum menemukan banyak contoh dalam literatur atau buku teks yang mencoba memodelkan persentase dengan cara ini. Petunjuk atau wawasan apa pun dihargai.


Terima kasih atas jawaban anda Faktanya, distribusi beta persis seperti yang saya butuhkan dan dibahas secara menyeluruh dalam artikel ini:

Artikel berikut membahas cara yang baik untuk mengubah variabel respon terdistribusi beta ketika termasuk 0 benar dan / atau 1 dalam kisaran persentase:

Ron
sumber
2
Pernahkah Anda berpikir tentang menggunakan fraksional logit atau beta tanpa inflasi ?
Dimitriy V. Masterov
2
Terima kasih atas jawaban anda Bahkan, distribusi beta adalah persis apa yang saya butuhkan dan dibahas secara menyeluruh dalam artikel ini: Eskelson, BN, Madsen, L., Hagar, JC, & Temesgen, H. (2011). Memperkirakan tutupan vegetasi tumbuhan bawah Riparian dengan regresi Beta dan model kopula. Ilmu Hutan, 57 (3), 212-221. Para penulis ini menggunakan paket betareg dalam R oleh Cribari-Neto dan Zeileis. Artikel berikut membahas cara yang baik untuk mengubah variabel respons terdistribusi beta ketika menyertakan benar 0 dan / atau 1 dalam kisaran persentase: Smithson, M., dan J. Verkuilen, 2006. Lemon yang lebih baik sq

Jawaban:

7

Anda benar bahwa distribusi binomial adalah untuk proporsi diskrit yang muncul dari jumlah 'keberhasilan' dari sejumlah uji coba Bernoulli, dan bahwa ini membuat distribusi tidak sesuai untuk data Anda. Anda harus menggunakan distribusi Gamma dibagi dengan jumlah Gamma itu ditambah Gamma lain. Artinya, Anda harus menggunakan distribusi beta untuk memodelkan proporsi berkelanjutan.

Saya memiliki contoh regresi beta dalam jawaban saya di sini: efek Hapus faktor data proporsi terus menerus menggunakan regresi di R .


0(0, 1)

gung - Pasang kembali Monica
sumber
3
Bisakah distribusi beta menangani nol?
Dimitriy V. Masterov
1

Nilai persentase mewakili tingkat yang tidak tergantung pada jumlah sampel. Anda ingin menggunakan persentase ini sebagai variabel dependen dan citra satelit sebagai variabel penjelas. Namun saya kira tidak semua 50 plot dalam inventaris memiliki jumlah sampel yang serupa. Model yang cocok yang menghubungkan persentase ini dengan variabel lain harus memperhitungkan ketidakpastian dalam pengukuran ini, memberikan bobot lebih pada plot dengan sampel tinggi.

Selanjutnya, distribusi kesalahan dalam hal data Anda jelas binomial. Varians kesalahan terkecil pada batas, ini ditangkap oleh distribusi binomial.

Bagi saya, ini semua adalah contoh khas dari menggunakan GLM dengan model kesalahan binomial.

"Statistik: Pengantar menggunakan R", Bab 14 oleh Crawley membahas persis topik ini dan bagaimana menganalisisnya dengan R.

bonobo
sumber
4
The distribusi binomial adalah distribusi jumlah keberhasilan dari sejumlah diketahui dari percobaan Bernoulli. Komentar Anda bahwa "fakta bahwa uji coba Bernoulli juga dijelaskan oleh distribusi Binomial tidak berarti bahwa segala sesuatu yang dijelaskan oleh distribusi Binomial harus sesuai dengan struktur Bernoulli" tidak benar. Distribusi binomial tidak sesuai untuk proporsi kontinu. Selain itu, saya tidak menyarankan distribusi Gamma, tetapi distribusi beta.
gung - Reinstate Monica
1
ya, kamu benar sekali.
bonobo