Gamma memiliki properti yang dibagikan oleh lognormal; yaitu bahwa ketika parameter bentuk tetap konstan sedangkan parameter skala bervariasi (seperti yang biasanya dilakukan ketika menggunakan salah satu model), variansnya proporsional dengan mean-squared (koefisien variasi konstan).
Sesuatu yang mendekati ini sering terjadi dengan data keuangan, atau memang, dengan banyak jenis data lainnya.
Akibatnya sering cocok untuk data yang kontinu, positif, condong ke kanan dan di mana varians hampir konstan pada skala log, meskipun ada sejumlah pilihan lain yang terkenal (dan seringkali cukup mudah tersedia) dengan properti.
Lebih lanjut, adalah umum untuk mencocokkan log-link dengan gamma GLM (relatif lebih jarang menggunakan tautan alami). Apa yang membuatnya sedikit berbeda dari pemasangan model linier normal ke log data adalah bahwa pada skala log gamma dibiarkan miring ke berbagai tingkat sedangkan normal (log lognormal) simetris. Ini membuatnya (gamma) berguna dalam berbagai situasi.
Saya telah melihat kegunaan praktis untuk GLM gamma dibahas (dengan contoh data nyata) di (dari atas kepala saya) de Jong & Heller dan Frees serta banyak makalah; Saya juga melihat aplikasi di bidang lain. Oh, dan jika saya ingat benar, Venables dan Ripley's MASS menggunakannya pada ketidakhadiran di sekolah (data quine; Edit: ternyata itu sebenarnya dalam Statistik Complements to MASS , lihat hal. 11, halaman 14 dari pdf, ia memiliki tautan log tetapi ada pergeseran kecil dari DV). Eh, dan McCullagh dan Nelder melakukan contoh pembekuan darah, meskipun mungkin itu merupakan hubungan alami.
Lalu ada buku Faraway di mana ia melakukan contoh asuransi mobil dan contoh data manufaktur semikonduktor.
Ada beberapa kelebihan dan kekurangan untuk memilih salah satu dari dua opsi tersebut. Karena hari ini keduanya mudah pas; umumnya masalah memilih apa yang paling cocok.
Jauh dari satu-satunya pilihan; misalnya, ada juga GLM Gaussian terbalik, yang lebih condong / lebih berat berekor (dan bahkan lebih heteroskedastik) daripada gamma atau lognormal.
Adapun kelemahannya, lebih sulit untuk melakukan interval prediksi. Beberapa tampilan diagnostik lebih sulit untuk ditafsirkan. Menghitung ekspektasi pada skala prediktor linier (umumnya skala log) lebih sulit daripada model lognormal yang setara. Tes dan interval hipotesis umumnya asimptotik. Ini seringkali merupakan masalah yang relatif kecil.
Ini memiliki beberapa keunggulan dibandingkan log-link regresi lognormal (mengambil log dan menyesuaikan model regresi linier biasa); satu adalah bahwa prediksi rata-rata itu mudah.
Itu pertanyaan yang bagus. Bahkan, mengapa orang tidak menggunakan model linier umum (GLM) lebih banyak juga merupakan pertanyaan yang bagus.
Catatan peringatan: Beberapa orang menggunakan GLM untuk model linear umum, bukan yang ada dalam pikiran di sini.
Itu tergantung di mana Anda melihat. Sebagai contoh, distribusi gamma telah populer di beberapa ilmu lingkungan selama beberapa dekade sehingga pemodelan dengan variabel prediktor juga merupakan perpanjangan alami. Ada banyak contoh dalam hidrologi dan geomorfologi, untuk menyebutkan beberapa bidang di mana saya telah tersesat.
Sulit untuk menentukan kapan harus menggunakannya di luar jawaban kosong kapan pun itu bekerja dengan baik. Dengan data positif yang condong, saya sering menemukan diri saya mencoba model gamma dan lognormal (dalam tautan log konteks GLM, keluarga normal atau Gaussian) dan memilih mana yang lebih baik.
Pemodelan gamma tetap cukup sulit untuk dilakukan sampai akhir-akhir ini, tentu dibandingkan dengan mengatakan mengambil log dan menerapkan regresi linier, tanpa menulis banyak kode sendiri. Bahkan sekarang, saya kira itu tidak sama mudahnya di semua lingkungan perangkat lunak statistik utama.
Dalam menjelaskan apa yang digunakan dan apa yang tidak digunakan, terlepas dari kelebihan dan kekurangannya, saya pikir Anda selalu sampai pada faktor-faktor yang Anda identifikasi: apa yang diajarkan, apa yang ada dalam literatur yang dibaca orang, apa yang orang dengar bicarakan di bekerja dan di konferensi. Jadi, Anda perlu menjelaskan sosiologi ilmu pengetahuan amatir. Kebanyakan orang tampaknya mengikuti jalan yang lurus dan sempit dalam bidang mereka sendiri. Secara longgar, semakin besar literatur internal dalam bidang apa pun tentang teknik pemodelan, semakin sedikit orang yang cenderung dalam bidang itu untuk mencoba sesuatu yang berbeda.
sumber
Regresi gamma ada dalam GLM dan jadi Anda bisa mendapatkan banyak jumlah yang berguna untuk tujuan diagnostik, seperti residu penyimpangan, pengungkit, jarak Cook, dan sebagainya. Mereka mungkin tidak sebagus jumlah yang sesuai untuk data log-transformed.
Satu hal yang menghindari regresi gamma dibandingkan dengan lognormal adalah bias transformasi. Ketidaksamaan Jensen menyiratkan bahwa prediksi dari regresi lognormal akan secara sistematis bias karena pemodelan itu mentransformasikan data daripada nilai yang diharapkan berubah.
Juga, regresi gamma (atau model lain untuk data nonnegatif) dapat mengatasi array data yang lebih luas daripada lognormal karena fakta bahwa ia dapat memiliki mode pada 0, seperti yang Anda miliki dengan distribusi eksponensial, yang ada dalam gamma keluarga, yang tidak mungkin untuk lognormal.
Saya telah membaca saran yang menggunakan kemungkinan Poisson sebagai kuasi-kemungkinan lebih stabil. Mereka saling berkonjugasi. Quasi-Poisson juga memiliki manfaat substansial karena mampu mengatasi nilai-nilai 0 yang tepat, yang menyulitkan gamma dan, terutama, lognormal.
sumber
Menurut pendapat saya, ini mengasumsikan bahwa kesalahan terletak pada keluarga distribusi gamma, dengan bentuk yang sama, dan dengan skala berubah sesuai dengan rumus terkait.
Tetapi sulit untuk melakukan diagnosis model. Perhatikan bahwa plot QQ sederhana tidak cocok di sini, karena ini adalah tentang distribusi yang sama, sementara kami adalah keluarga distribusi dengan varian yang berbeda.
Secara naif, plot residu dapat digunakan untuk melihat bahwa mereka memiliki skala yang berbeda tetapi bentuknya sama, biasanya dengan ekor panjang.
Dalam pengalaman saya, gamma GLM dapat diadili untuk beberapa masalah ekor panjang, dan banyak digunakan di sektor asuransi dan lingkungan, dll. Tetapi asumsi sulit untuk diuji, dan model biasanya tidak berkinerja baik, sehingga makalah yang berbeda berpendapat untuk menggunakan distribusi keluarga lainnya dengan masalah yang sama, seperti invers Gaussian, dll. Dalam praktiknya, pilihan seperti itu tergantung pada penilaian ahli dengan pengalaman industri. Ini membatasi penggunaan gamma GLM.
sumber