Kapan menggunakan GLM gamma?

88

Distribusi gamma dapat mengambil berbagai bentuk yang cukup luas, dan mengingat hubungan antara rata-rata dan varians melalui dua parameternya, tampaknya cocok untuk berurusan dengan heteroskedastisitas dalam data non-negatif, dengan cara yang dapat diubah log OLS dapat dapat dilakukan tanpa WLS atau semacam penaksir VCV yang heteroskedastisitas-konsisten.

Saya akan menggunakannya lebih banyak untuk pemodelan data non-negatif rutin, tetapi saya tidak tahu orang lain yang menggunakannya, saya belum mempelajarinya dalam pengaturan ruang kelas formal, dan literatur yang saya baca tidak pernah menggunakannya. Setiap kali saya Google sesuatu seperti "penggunaan praktis gamma GLM", saya datang dengan saran untuk menggunakannya untuk waktu tunggu antara acara Poisson. BAIK. Tapi itu sepertinya membatasi dan tidak bisa hanya digunakan.

Secara naif, sepertinya gamma GLM adalah alat asumsi yang relatif ringan untuk memodelkan data non-negatif, mengingat fleksibilitas gamma. Tentu saja Anda perlu memeriksa plot QQ dan plot residual seperti model apa pun. Tetapi apakah ada kelemahan serius yang saya lewatkan? Melampaui komunikasi kepada orang yang "baru saja menjalankan OLS"?

generic_user
sumber

Jawaban:

57

Gamma memiliki properti yang dibagikan oleh lognormal; yaitu bahwa ketika parameter bentuk tetap konstan sedangkan parameter skala bervariasi (seperti yang biasanya dilakukan ketika menggunakan salah satu model), variansnya proporsional dengan mean-squared (koefisien variasi konstan).

Sesuatu yang mendekati ini sering terjadi dengan data keuangan, atau memang, dengan banyak jenis data lainnya.

Akibatnya sering cocok untuk data yang kontinu, positif, condong ke kanan dan di mana varians hampir konstan pada skala log, meskipun ada sejumlah pilihan lain yang terkenal (dan seringkali cukup mudah tersedia) dengan properti.

Lebih lanjut, adalah umum untuk mencocokkan log-link dengan gamma GLM (relatif lebih jarang menggunakan tautan alami). Apa yang membuatnya sedikit berbeda dari pemasangan model linier normal ke log data adalah bahwa pada skala log gamma dibiarkan miring ke berbagai tingkat sedangkan normal (log lognormal) simetris. Ini membuatnya (gamma) berguna dalam berbagai situasi.

Saya telah melihat kegunaan praktis untuk GLM gamma dibahas (dengan contoh data nyata) di (dari atas kepala saya) de Jong & Heller dan Frees serta banyak makalah; Saya juga melihat aplikasi di bidang lain. Oh, dan jika saya ingat benar, Venables dan Ripley's MASS menggunakannya pada ketidakhadiran di sekolah (data quine; Edit: ternyata itu sebenarnya dalam Statistik Complements to MASS , lihat hal. 11, halaman 14 dari pdf, ia memiliki tautan log tetapi ada pergeseran kecil dari DV). Eh, dan McCullagh dan Nelder melakukan contoh pembekuan darah, meskipun mungkin itu merupakan hubungan alami.

Lalu ada buku Faraway di mana ia melakukan contoh asuransi mobil dan contoh data manufaktur semikonduktor.

Ada beberapa kelebihan dan kekurangan untuk memilih salah satu dari dua opsi tersebut. Karena hari ini keduanya mudah pas; umumnya masalah memilih apa yang paling cocok.

Jauh dari satu-satunya pilihan; misalnya, ada juga GLM Gaussian terbalik, yang lebih condong / lebih berat berekor (dan bahkan lebih heteroskedastik) daripada gamma atau lognormal.

Adapun kelemahannya, lebih sulit untuk melakukan interval prediksi. Beberapa tampilan diagnostik lebih sulit untuk ditafsirkan. Menghitung ekspektasi pada skala prediktor linier (umumnya skala log) lebih sulit daripada model lognormal yang setara. Tes dan interval hipotesis umumnya asimptotik. Ini seringkali merupakan masalah yang relatif kecil.

Ini memiliki beberapa keunggulan dibandingkan log-link regresi lognormal (mengambil log dan menyesuaikan model regresi linier biasa); satu adalah bahwa prediksi rata-rata itu mudah.

Glen_b
sumber
3
Haruskah itu "Gamma" atau "gamma"? Kita tahu itu bukan nama untuk seseorang. Saya telah melihat huruf kecil "g" lebih sering. Jelas distribusi dinamai untuk fungsi, yang kembali ke abad ke-18.
Nick Cox
2
The notasi adalah satu-satunya alasan saya telah melihat untuk digunakan itu. Dengan distribusi secara umum, huruf besar biasanya menggemakan nama keluarga, misalnya Poisson atau Gaussian, seperti yang Anda tahu. Γ
Nick Cox
@NickCox Saya telah mengubahnya seperti yang Anda sarankan, dan saya memperbaiki "Inverse Gaussian" ketika saya masih di sana.
Glen_b
1
@Gleb_b: Apakah Anda masih menggunakan tautan log dengan keluarga Gaussian terbalik?
Dimitriy V. Masterov
@ DimitriyV.Masterov Ini kurang digunakan sehingga lebih sulit untuk menggeneralisasi. Dari apa yang saya lihat, cukup umum untuk menggunakan log-link dengan Gaussian terbalik, tetapi tautan lain mungkin cocok dalam beberapa situasi, seperti tautan terbalik.
Glen_b
28

Itu pertanyaan yang bagus. Bahkan, mengapa orang tidak menggunakan model linier umum (GLM) lebih banyak juga merupakan pertanyaan yang bagus.

Catatan peringatan: Beberapa orang menggunakan GLM untuk model linear umum, bukan yang ada dalam pikiran di sini.

  • Itu tergantung di mana Anda melihat. Sebagai contoh, distribusi gamma telah populer di beberapa ilmu lingkungan selama beberapa dekade sehingga pemodelan dengan variabel prediktor juga merupakan perpanjangan alami. Ada banyak contoh dalam hidrologi dan geomorfologi, untuk menyebutkan beberapa bidang di mana saya telah tersesat.

  • Sulit untuk menentukan kapan harus menggunakannya di luar jawaban kosong kapan pun itu bekerja dengan baik. Dengan data positif yang condong, saya sering menemukan diri saya mencoba model gamma dan lognormal (dalam tautan log konteks GLM, keluarga normal atau Gaussian) dan memilih mana yang lebih baik.

  • Pemodelan gamma tetap cukup sulit untuk dilakukan sampai akhir-akhir ini, tentu dibandingkan dengan mengatakan mengambil log dan menerapkan regresi linier, tanpa menulis banyak kode sendiri. Bahkan sekarang, saya kira itu tidak sama mudahnya di semua lingkungan perangkat lunak statistik utama.

  • Dalam menjelaskan apa yang digunakan dan apa yang tidak digunakan, terlepas dari kelebihan dan kekurangannya, saya pikir Anda selalu sampai pada faktor-faktor yang Anda identifikasi: apa yang diajarkan, apa yang ada dalam literatur yang dibaca orang, apa yang orang dengar bicarakan di bekerja dan di konferensi. Jadi, Anda perlu menjelaskan sosiologi ilmu pengetahuan amatir. Kebanyakan orang tampaknya mengikuti jalan yang lurus dan sempit dalam bidang mereka sendiri. Secara longgar, semakin besar literatur internal dalam bidang apa pun tentang teknik pemodelan, semakin sedikit orang yang cenderung dalam bidang itu untuk mencoba sesuatu yang berbeda.

Nick Cox
sumber
1
Bagaimana Anda menentukan mana yang lebih baik?
Dimitriy V. Masterov
7
Saya melihat kemungkinan, R-kuadrat (terlepas dari apa yang orang katakan), interval kepercayaan di sekitar estimasi parameter, plot diamati vs dipasang, sisa vs dipasang, dll. Jika ada ilmu yang mendukung satu model di atas yang lain, itu akan berbobot juga, tetapi dalam pengalaman saya sains tidak terbentuk dengan baik. Bagaimana lagi yang bisa dilakukan?
Nick Cox
@NickCox Apa yang harus kita perhatikan ketika analisis mengamati vs pas, residual vs pas dan plot qq normal? Saya mengerti ini mungkin berbeda antara model. Bisakah Anda memberi contoh untuk gamma, poisson dan binomial negatif? Terima kasih
tatami
@tatami Itu pertanyaan baru, atau lebih, saya pikir. Jika Anda bertanya, Anda akan melihat siapa yang menggigit. Saya tidak pernah berpikir bahwa model gamma dan model binomial negatif adalah saingan dalam proyek apa pun, tetapi itu bisa berupa kegagalan imajinasi atau pengalaman.
Nick Cox
13

Regresi gamma ada dalam GLM dan jadi Anda bisa mendapatkan banyak jumlah yang berguna untuk tujuan diagnostik, seperti residu penyimpangan, pengungkit, jarak Cook, dan sebagainya. Mereka mungkin tidak sebagus jumlah yang sesuai untuk data log-transformed.

Satu hal yang menghindari regresi gamma dibandingkan dengan lognormal adalah bias transformasi. Ketidaksamaan Jensen menyiratkan bahwa prediksi dari regresi lognormal akan secara sistematis bias karena pemodelan itu mentransformasikan data daripada nilai yang diharapkan berubah.

Juga, regresi gamma (atau model lain untuk data nonnegatif) dapat mengatasi array data yang lebih luas daripada lognormal karena fakta bahwa ia dapat memiliki mode pada 0, seperti yang Anda miliki dengan distribusi eksponensial, yang ada dalam gamma keluarga, yang tidak mungkin untuk lognormal.

Saya telah membaca saran yang menggunakan kemungkinan Poisson sebagai kuasi-kemungkinan lebih stabil. Mereka saling berkonjugasi. Quasi-Poisson juga memiliki manfaat substansial karena mampu mengatasi nilai-nilai 0 yang tepat, yang menyulitkan gamma dan, terutama, lognormal.

Jay Verkuilen
sumber
11

Menurut pendapat saya, ini mengasumsikan bahwa kesalahan terletak pada keluarga distribusi gamma, dengan bentuk yang sama, dan dengan skala berubah sesuai dengan rumus terkait.

Tetapi sulit untuk melakukan diagnosis model. Perhatikan bahwa plot QQ sederhana tidak cocok di sini, karena ini adalah tentang distribusi yang sama, sementara kami adalah keluarga distribusi dengan varian yang berbeda.

Secara naif, plot residu dapat digunakan untuk melihat bahwa mereka memiliki skala yang berbeda tetapi bentuknya sama, biasanya dengan ekor panjang.

Dalam pengalaman saya, gamma GLM dapat diadili untuk beberapa masalah ekor panjang, dan banyak digunakan di sektor asuransi dan lingkungan, dll. Tetapi asumsi sulit untuk diuji, dan model biasanya tidak berkinerja baik, sehingga makalah yang berbeda berpendapat untuk menggunakan distribusi keluarga lainnya dengan masalah yang sama, seperti invers Gaussian, dll. Dalam praktiknya, pilihan seperti itu tergantung pada penilaian ahli dengan pengalaman industri. Ini membatasi penggunaan gamma GLM.

Vincent
sumber