Saya menyadari ini mungkin pertanyaan yang berpotensi luas, tetapi saya bertanya-tanya apakah ada asumsi yang dapat digeneralisasi yang mengindikasikan penggunaan GAM (Generalized additive model) di atas GLM (Generalized linear model)?
Seseorang baru-baru ini mengatakan kepada saya bahwa GAM hanya boleh digunakan ketika saya menganggap struktur data sebagai "aditif", yaitu saya berharap penambahan x untuk memprediksi y. Orang lain menunjukkan bahwa GAM melakukan jenis analisis regresi yang berbeda dari GLM, dan bahwa GLM lebih disukai ketika linieritas dapat diasumsikan.
Di masa lalu saya telah menggunakan GAM untuk data ekologis, misalnya:
- deret waktu kontinu
- ketika data tidak memiliki bentuk linier
- Saya memiliki beberapa x untuk memprediksi y saya yang saya pikir memiliki beberapa interaksi nonlinear yang dapat saya visualisasikan menggunakan "plot permukaan" bersama dengan uji statistik
Saya jelas tidak memiliki pemahaman yang baik tentang apa yang GAM lakukan berbeda dari GLM. Saya percaya ini adalah uji statistik yang valid, (dan saya melihat peningkatan penggunaan GAM, setidaknya dalam jurnal ekologis), tetapi saya perlu tahu lebih baik kapan penggunaannya ditunjukkan melalui analisis regresi lainnya.
sumber
Jawaban:
sumber
mgcv
melakukan banyak hal yang tidak dapat Anda lakukan denganglm
, tetapi bisa dilakukan dalam kerangka itu juga ...mgcv
)?Saya menekankan bahwa GAM jauh lebih fleksibel daripada GLM, dan karenanya membutuhkan lebih banyak perhatian dalam penggunaannya. Dengan kekuatan yang lebih besar muncul tanggung jawab yang lebih besar.
Anda menyebutkan penggunaannya dalam ekologi, yang juga saya perhatikan. Saya berada di Kosta Rika dan melihat semacam studi di hutan hujan di mana beberapa mahasiswa pascasarjana telah melemparkan beberapa data ke dalam GAM dan menerima orang-orang yang kompleks dan gila karena perangkat lunak mengatakan demikian. Itu sangat menyedihkan, kecuali fakta lucu / mengagumkan bahwa mereka dengan keras memasukkan catatan kaki yang mendokumentasikan fakta bahwa mereka telah menggunakan GAM dan perokok kelas atas yang dihasilkan.
Anda tidak harus memahami dengan tepat bagaimana cara kerja GAM untuk menggunakannya, tetapi Anda benar-benar perlu memikirkan data Anda, masalah yang dihadapi, pemilihan parameter otomatis perangkat lunak seperti pesanan yang lebih halus, pilihan Anda (apa yang Anda tentukan, interaksi, jika lebih halus dibenarkan, dll), dan masuk akal hasil Anda.
Lakukan banyak plot dan perhatikan kurva perataan Anda. Apakah mereka menjadi gila di daerah dengan sedikit data? Apa yang terjadi ketika Anda menentukan pesanan rendah lebih lancar atau menghapus penghalusan seluruhnya? Apakah tingkat 7 lebih halus realistis untuk variabel itu, apakah itu cocok meskipun ada jaminan bahwa itu memvalidasi pilihan-pilihannya? Apakah Anda memiliki cukup data? Apakah berkualitas tinggi atau berisik?
Saya suka GAMS dan berpikir mereka kurang dihargai untuk eksplorasi data. Mereka hanya sangat fleksibel dan jika Anda membiarkan diri Anda ke sains tanpa kekerasan, mereka akan membawa Anda lebih jauh ke dalam belantara statistik daripada model yang lebih sederhana seperti GLM.
sumber
mgcv
menangani data saya. Saya mencoba menjadi pelit dengan parameter saya, dan saya memeriksa seberapa baik nilai yang diprediksi cocok dengan data saya. komentar Anda adalah pengingat yang baik untuk menjadi sedikit lebih keras - dan mungkin akhirnya mendapatkan buku hutan simon!Saya tidak punya reputasi untuk sekadar menambahkan komentar. Saya sepenuhnya setuju dengan komentar Wayne: Dengan kekuatan yang lebih besar datang tanggung jawab yang lebih besar . GAM bisa sangat fleksibel dan seringkali kita mendapatkan / melihat orang -orang yang kompleks dan gila . Kemudian, saya sangat menyarankan peneliti untuk membatasi derajat kebebasan (jumlah simpul) dari fungsi halus dan untuk menguji struktur model yang berbeda (interaksi / tidak ada interaksi dll).
GAM dapat dipertimbangkan di antara pendekatan berbasis model (meskipun perbatasan tidak jelas, saya akan menyertakan GLM dalam kelompok itu) dan pendekatan berbasis data (misalnya Jaringan Syaraf Tiruan atau Hutan Acak yang mengasumsikan pengaruh variabel variabel non-linear sepenuhnya berinteraksi). Sesuai dengan itu, saya tidak sepenuhnya setuju dengan Hastie dan Tibshirani karena GAM masih membutuhkan beberapa pekerjaan detektif (Semoga tidak ada yang membunuh saya karena mengatakan demikian).
Dari perspektif ekologis, saya akan merekomendasikan menggunakan scam paket R untuk menghindari smoothers kompleks-gila variabel yang tidak dapat diandalkan ini . Ini dikembangkan oleh Natalya Pya dan Simon Wood dan memungkinkan membatasi kurva halus ke bentuk yang diinginkan (misalnya unimodal atau monotonik), bahkan untuk interaksi dua arah. Saya pikir GLM menjadi alternatif kecil setelah membatasi bentuk fungsi halus tapi ini hanya pendapat pribadi saya.
Pya, N., Wood, SN, 2015. Bentuk model aditif dibatasi. Stat. Komputasi. 25 (3), 543–559. 10.1007 / s11222-013-9448-7
sumber