Kapan menggunakan GAM vs GLM

Saya menyadari ini mungkin pertanyaan yang berpotensi luas, tetapi saya bertanya-tanya apakah ada asumsi yang dapat digeneralisasi yang mengindikasikan penggunaan GAM (Generalized additive model) di atas GLM (Generalized linear model)?

Seseorang baru-baru ini mengatakan kepada saya bahwa GAM hanya boleh digunakan ketika saya menganggap struktur data sebagai "aditif", yaitu saya berharap penambahan x untuk memprediksi y. Orang lain menunjukkan bahwa GAM melakukan jenis analisis regresi yang berbeda dari GLM, dan bahwa GLM lebih disukai ketika linieritas dapat diasumsikan.

Di masa lalu saya telah menggunakan GAM untuk data ekologis, misalnya:

deret waktu kontinu
ketika data tidak memiliki bentuk linier
Saya memiliki beberapa x untuk memprediksi y saya yang saya pikir memiliki beberapa interaksi nonlinear yang dapat saya visualisasikan menggunakan "plot permukaan" bersama dengan uji statistik

Saya jelas tidak memiliki pemahaman yang baik tentang apa yang GAM lakukan berbeda dari GLM. Saya percaya ini adalah uji statistik yang valid, (dan saya melihat peningkatan penggunaan GAM, setidaknya dalam jurnal ekologis), tetapi saya perlu tahu lebih baik kapan penggunaannya ditunjukkan melalui analisis regresi lainnya.

regression generalized-linear-model gam mluerig
sumber

GAM digunakan ketika prediktor linier bergantung secara linear pada fungsi halus yang tidak diketahui dari beberapa variabel prediktor.

user2974951

Perbedaannya kabur karena Anda dapat mewakili kovariabel numerik misalnya dengan spline juga dalam GLM.

Michael M

Walaupun perbedaannya buram, gam dapat mewakili interaksi juga dengan cara yang sama karena tidak diperlukan aditif ketat glm, perbedaan besar dalam inferensi: gam membutuhkan metode khusus, karena estimasi tidak dilakukan melalui proyeksi, tetapi melalui perataan. Apa yang tersirat dalam praktiknya, saya tidak mengerti.

kjetil b halvorsen

GLM

GAM.

\subset

$\subset$

usεr11852 mengatakan Reinstate Monic

Jawaban:

$n$ $\sum_{i=1}^n \beta_i x_i$ $\sum_{i=1}^n \sum_{j=1}^q \beta_i \, s_j \left( x_i \right)$ $s_1(\cdot),\dots,s_q(\cdot)$ $q$ adalah dimensi dasar. Dengan menggabungkan fungsi-fungsi dasar, GAM dapat mewakili sejumlah besar hubungan fungsional (untuk melakukan hal itu mereka mengandalkan asumsi bahwa hubungan yang sebenarnya cenderung lancar, daripada goyah). Mereka pada dasarnya merupakan perluasan dari GLMS, namun mereka dirancang dengan cara yang membuat mereka sangat berguna untuk mengungkap efek nonlinear dari kovariat numerik, dan untuk melakukannya dengan cara yang "otomatis" (dari Hastie dan Tibshirani artikel asli, mereka memiliki 'yang keuntungan menjadi sepenuhnya otomatis, yaitu tidak ada pekerjaan "detektif" diperlukan pada bagian dari ahli statistik ' ).

matteo
sumber

Yah, tapi seperti yang dikatakan dalam komentar, semua itu dapat dilakukan dengan glm juga ... Saya menduga perbedaan utamanya adalah pragmatis. Implementasi R dalam mgcvmelakukan banyak hal yang tidak dapat Anda lakukan dengan glm, tetapi bisa dilakukan dalam kerangka itu juga ...

kjetil b halvorsen

Ya, saya setuju dengan Anda, GAM adalah perpanjangan dari GLM. Namun pertanyaannya adalah tentang kapan harus menggunakan GAM dan kapan harus menggunakan GLM, dan bagi saya tampaknya op itu berarti bentuk GLM "klasik", yang biasanya tidak mencakup seperangkat fungsi basis sebagai prediktor dan tidak digunakan untuk mengungkapkan / memperkirakan hubungan nonlinier yang tidak diketahui.

matteo

terima kasih - ini sangat membantu. dan ya, saya berbicara tentang GLM klasik

mluerig

@ matteo hanya dua hal lagi: i) apa yang sebenarnya Anda maksudkan dengan "hubungan sejati cenderung lancar, daripada goyah"? dan ii) "sangat berguna untuk mengungkap efek nonlinier kovariat numerik" - bagaimana seseorang menggambarkan / mengukur nonlinier (misalnya dengan mgcv)?

mluerig

Hubungan yang sebenarnya mungkin tidak benar-benar mulus, namun GAM biasanya mengontrol kompleksitas model dengan menambahkan hukuman "kegoyahan" selama proses maksimalisasi kemungkinan (biasanya dilaksanakan sebagai proporsi dari kuadrat terintegrasi dari turunan kedua dari fungsi yang diperkirakan). Efek nonlinear dari kovariat numerik berarti bahwa pengaruh variabel numerik tertentu pada variabel dependen mungkin, misalnya, tidak meningkat / berkurang secara monoton dengan nilai variabel, tetapi memiliki bentuk yang tidak diketahui, misalnya dengan maxima lokal, minima, titik belok,. ..

matteo

Saya menekankan bahwa GAM jauh lebih fleksibel daripada GLM, dan karenanya membutuhkan lebih banyak perhatian dalam penggunaannya. Dengan kekuatan yang lebih besar muncul tanggung jawab yang lebih besar.

Anda menyebutkan penggunaannya dalam ekologi, yang juga saya perhatikan. Saya berada di Kosta Rika dan melihat semacam studi di hutan hujan di mana beberapa mahasiswa pascasarjana telah melemparkan beberapa data ke dalam GAM dan menerima orang-orang yang kompleks dan gila karena perangkat lunak mengatakan demikian. Itu sangat menyedihkan, kecuali fakta lucu / mengagumkan bahwa mereka dengan keras memasukkan catatan kaki yang mendokumentasikan fakta bahwa mereka telah menggunakan GAM dan perokok kelas atas yang dihasilkan.

Anda tidak harus memahami dengan tepat bagaimana cara kerja GAM untuk menggunakannya, tetapi Anda benar-benar perlu memikirkan data Anda, masalah yang dihadapi, pemilihan parameter otomatis perangkat lunak seperti pesanan yang lebih halus, pilihan Anda (apa yang Anda tentukan, interaksi, jika lebih halus dibenarkan, dll), dan masuk akal hasil Anda.

Lakukan banyak plot dan perhatikan kurva perataan Anda. Apakah mereka menjadi gila di daerah dengan sedikit data? Apa yang terjadi ketika Anda menentukan pesanan rendah lebih lancar atau menghapus penghalusan seluruhnya? Apakah tingkat 7 lebih halus realistis untuk variabel itu, apakah itu cocok meskipun ada jaminan bahwa itu memvalidasi pilihan-pilihannya? Apakah Anda memiliki cukup data? Apakah berkualitas tinggi atau berisik?

Saya suka GAMS dan berpikir mereka kurang dihargai untuk eksplorasi data. Mereka hanya sangat fleksibel dan jika Anda membiarkan diri Anda ke sains tanpa kekerasan, mereka akan membawa Anda lebih jauh ke dalam belantara statistik daripada model yang lebih sederhana seperti GLM.

Wayne
sumber

Saya membayangkan bahwa saya paling sering melakukan apa yang dilakukan para mahasiswa pascasarjana: melempar data saya dalam gam dan terpesona oleh seberapa baik mgcvmenangani data saya. Saya mencoba menjadi pelit dengan parameter saya, dan saya memeriksa seberapa baik nilai yang diprediksi cocok dengan data saya. komentar Anda adalah pengingat yang baik untuk menjadi sedikit lebih keras - dan mungkin akhirnya mendapatkan buku hutan simon!

mluerig

Heck, saya akan pergi sejauh menggunakan lebih halus untuk mengeksplorasi variabel, dan kemudian baik memperbaiki derajat kebebasan pada nilai rendah atau menghilangkan kelancaran dan menggunakan, katakanlah, istilah kuadrat jika lebih halus pada dasarnya kuadratik. Kuadratik masuk akal untuk efek usia, misalnya.

Wayne

@Wayne, saya datang ke sini tepatnya untuk mendapatkan jawaban tentang eksplorasi data terkait dengan GAM, dan melihat Anda menunjukkannya. Bagaimana Anda menggunakan GAM untuk eksplorasi data? Dan bagaimana Anda memutuskan apakah GAM diperlukan, atau apakah GLM sudah cukup. Apakah masuk akal untuk menjalankan GAM sederhana di mana Anda menjalankan respons dan masing-masing prediktor potensial pada gilirannya, merencanakan itu, dan melihat apakah hubungan tersebut menjamin seorang GAM (yaitu hubungan non-linear dan non-monotonik)?

Tilen

Saya tidak punya reputasi untuk sekadar menambahkan komentar. Saya sepenuhnya setuju dengan komentar Wayne: Dengan kekuatan yang lebih besar datang tanggung jawab yang lebih besar . GAM bisa sangat fleksibel dan seringkali kita mendapatkan / melihat orang -orang yang kompleks dan gila . Kemudian, saya sangat menyarankan peneliti untuk membatasi derajat kebebasan (jumlah simpul) dari fungsi halus dan untuk menguji struktur model yang berbeda (interaksi / tidak ada interaksi dll).

GAM dapat dipertimbangkan di antara pendekatan berbasis model (meskipun perbatasan tidak jelas, saya akan menyertakan GLM dalam kelompok itu) dan pendekatan berbasis data (misalnya Jaringan Syaraf Tiruan atau Hutan Acak yang mengasumsikan pengaruh variabel variabel non-linear sepenuhnya berinteraksi). Sesuai dengan itu, saya tidak sepenuhnya setuju dengan Hastie dan Tibshirani karena GAM masih membutuhkan beberapa pekerjaan detektif (Semoga tidak ada yang membunuh saya karena mengatakan demikian).

Dari perspektif ekologis, saya akan merekomendasikan menggunakan scam paket R untuk menghindari smoothers kompleks-gila variabel yang tidak dapat diandalkan ini . Ini dikembangkan oleh Natalya Pya dan Simon Wood dan memungkinkan membatasi kurva halus ke bentuk yang diinginkan (misalnya unimodal atau monotonik), bahkan untuk interaksi dua arah. Saya pikir GLM menjadi alternatif kecil setelah membatasi bentuk fungsi halus tapi ini hanya pendapat pribadi saya.

Pya, N., Wood, SN, 2015. Bentuk model aditif dibatasi. Stat. Komputasi. 25 (3), 543–559. 10.1007 / s11222-013-9448-7

Rafa_Mas
sumber