Ini adalah posting pertama saya di StackExchange, tetapi saya telah menggunakannya sebagai sumber daya selama beberapa waktu, saya akan melakukan yang terbaik untuk menggunakan format yang sesuai dan melakukan pengeditan yang sesuai. Juga, ini adalah pertanyaan multi-bagian. Saya tidak yakin apakah saya harus membagi pertanyaan menjadi beberapa posting berbeda atau hanya satu. Karena semua pertanyaan berasal dari satu bagian dalam teks yang sama, saya pikir akan lebih relevan untuk memposting sebagai satu pertanyaan.
Saya sedang meneliti pemanfaatan habitat spesies mamalia besar untuk Tesis Master. Tujuan dari proyek ini adalah untuk memberikan pengelola hutan (yang kemungkinan besar bukan ahli statistik) dengan kerangka kerja praktis untuk menilai kualitas habitat pada lahan yang mereka kelola terkait dengan spesies ini. Hewan ini relatif sulit dipahami, spesialis habitat, dan biasanya berlokasi di daerah terpencil. Relatif sedikit penelitian yang telah dilakukan mengenai distribusi spesies, terutama musiman. Beberapa hewan dipasangi kerah GPS untuk jangka waktu satu tahun. Seratus lokasi (50 musim panas dan 50 musim dingin) dipilih secara acak dari masing-masing data kerah GPS. Selain itu, 50 titik dihasilkan secara acak di dalam wilayah jelajah masing-masing hewan untuk dijadikan lokasi "tersedia" atau "tidak ada semu".
Untuk setiap lokasi, beberapa variabel habitat diambil sampelnya di lapangan (diameter pohon, tutup horizontal, puing-puing kayu kasar, dll) dan beberapa sampel diambil dari jarak jauh melalui GIS (ketinggian, jarak ke jalan, kekasaran, dll). Variabel-variabel tersebut sebagian besar kontinu kecuali untuk 1 variabel kategori yang memiliki 7 level.
Tujuan saya adalah menggunakan pemodelan regresi untuk membangun fungsi pemilihan sumber daya (RSF) untuk memodelkan probabilitas relatif penggunaan unit sumber daya. Saya ingin membangun RSF musiman (musim dingin dan musim panas) untuk populasi hewan (tipe desain I) serta setiap hewan individu (tipe desain III).
Saya menggunakan R untuk melakukan analisis statistik.
The teks primer yang telah saya gunakan adalah ...
- "Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013. Regresi Logistik Terapan. Wiley, Chicester".
Mayoritas contoh dalam Hosmer et al. penggunaan STATA, saya juga telah menggunakan 2 teks berikut untuk referensi dengan R .
- "Crawley, MJ 2005. Statistik: pengantar menggunakan RJ Wiley, Chichester, Sussex Barat, Inggris."
- "Plant, RE 2012. Analisis Data Spasial dalam Ekologi dan Pertanian Menggunakan R. CRC Press, London, GBR."
Saat ini saya mengikuti langkah-langkah dalam Bab 4 dari Hosmer et al. untuk "Pemilihan Tujuan dari Kovariat" dan memiliki beberapa pertanyaan tentang prosesnya. Saya telah menguraikan beberapa langkah pertama dalam teks di bawah ini untuk membantu pertanyaan saya.
- Langkah 1: Analisis univariabel dari masing-masing variabel independen (saya menggunakan regresi logistik univariabel). Setiap variabel yang tes univariabelnya memiliki nilai p kurang dari 0,25 harus dimasukkan dalam model multivariabel pertama.
- Langkah 2: Pasang model multivariabel yang berisi semua kovariat yang diidentifikasi untuk dimasukkan pada langkah 1 dan untuk menilai pentingnya setiap kovariat menggunakan nilai p dari statistik Wald-nya. Variabel yang tidak berkontribusi pada tingkat signifikansi tradisional harus dihilangkan dan model baru cocok. Model baru yang lebih kecil harus dibandingkan dengan model lama yang lebih besar menggunakan uji rasio kemungkinan parsial.
- Langkah 3: Bandingkan nilai koefisien yang diestimasi dalam model yang lebih kecil dengan nilai masing-masing dari model besar. Setiap variabel yang koefisiennya telah berubah sangat besar harus ditambahkan kembali ke dalam model karena penting dalam arti memberikan penyesuaian yang diperlukan dari pengaruh variabel yang tetap dalam model. Siklus melalui langkah 2 dan 3 sampai tampak bahwa semua variabel penting dimasukkan dalam model dan yang dikecualikan secara klinis dan / atau secara statistik tidak penting. Hosmer et al. gunakan " delta-beta-hat-persen " sebagai ukuran perubahan besarnya koefisien. Mereka menyarankan perubahan signifikan sebagai delta-beta-hat-persen > 20%. Hosmer et al. mendefinisikan delta-beta-hat-persen sebagai . Dimanaθ1adalah koefisien dari model yang lebih kecil danβ1adalah koefisien dari model yang lebih besar.
- Langkah 4: Tambahkan setiap variabel yang tidak dipilih pada Langkah 1 ke model yang diperoleh pada akhir langkah 3, satu per satu, dan periksa signifikansinya dengan nilai p statistik Wald atau uji rasio kemungkinan parsial jika itu adalah kategori variabel dengan lebih dari 2 level. Langkah ini sangat penting untuk mengidentifikasi variabel yang, dengan sendirinya, tidak secara signifikan terkait dengan hasil tetapi memberikan kontribusi penting di hadapan variabel lain. Kami merujuk pada model pada akhir Langkah 4 sebagai model efek utama awal .
- Langkah 5-7: Saya belum maju ke titik ini jadi saya akan meninggalkan langkah-langkah ini untuk saat ini, atau menyimpannya untuk pertanyaan yang berbeda.
Pertanyaan saya:
- Pada langkah 2, apa yang akan sesuai sebagai tingkat signifikansi tradisional, nilai p <0,05 sesuatu yang lebih besar seperti <0,25?
- Pada langkah 2 lagi, saya ingin memastikan kode R yang saya gunakan untuk tes kemungkinan parsial benar dan saya ingin memastikan saya menafsirkan hasil dengan benar. Inilah yang telah saya lakukan ...
anova(smallmodel,largemodel,test='Chisq')
Jika p-value signifikan (<0,05) saya menambahkan variabel kembali ke model, jika tidak signifikan saya melanjutkan dengan penghapusan? 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])
Jawaban:
sumber
Metode yang ditentukan untuk pemilihan variabel menggunakan statistik seperti P, regresi bertahap dalam teks klasik Hosmer et al harus dihindari.
Baru-baru ini saya menemukan sebuah artikel yang diterbitkan dalam jurnal internasional peramalan berjudul " Illusions of predictability " dan komentar pada artikel ini oleh Keith ord . Saya akan sangat merekomendasikan kedua artikel ini karena mereka jelas menunjukkan bahwa menggunakan statistik regresi seringkali menyesatkan. Follwoing adalah tangkapan layar dari artikel Keith Ord yang menunjukkan dengan simulasi mengapa langkah langkah regresi (menggunakan statistik p) untuk pemilihan variabel buruk.
Artikel indah lain oleh Scott Armstrong yang muncul dalam edisi yang sama dari jurnal menunjukkan mengapa orang harus sangat berhati-hati dalam menggunakan analisis regresi pada data non-eksperimental dengan studi kasus. Sejak saya membaca artikel ini saya menghindari menggunakan analisis regresi untuk menarik kesimpulan kausal pada data non-eksperimental. Sebagai seorang praktisi, saya berharap saya telah membaca artikel seperti ini bertahun-tahun yang akan menyelamatkan saya dari membuat keputusan yang buruk dan menghindari kesalahan yang mahal.
Pada masalah khusus Anda, saya rasa eksperimen acak tidak mungkin dilakukan dalam kasus Anda, jadi saya akan merekomendasikan Anda menggunakan validasi silang untuk memilih variabel. Contoh latihan yang bagus tersedia dalam buku online gratis ini tentang bagaimana Anda akan menggunakan akurasi prediktif untuk memilih variabel. Ini juga banyak metode pemilihan lainnya, tetapi saya akan membatasi untuk cross validasi.
Saya pribadi menyukai kutipan dari Armstrong "Di suatu tempat saya menemukan gagasan bahwa statistik seharusnya membantu komunikasi. Metode regresi yang kompleks dan sekumpulan statistik diagnostik telah membawa kita ke arah lain."
Di bawah ini adalah pendapat saya sendiri. Saya bukan ahli statistik.
Sebagai seorang ahli biologi saya pikir Anda akan menghargai hal ini. Alam sangat kompleks, dengan asumsi fungsi logistik dan tidak ada interaksi antar variabel tidak terjadi di alam. Selain itu, regresi logistik memiliki asumsi sebagai berikut :
Probabilitas kondisional yang sebenarnya adalah fungsi logistik dari variabel independen.
Tidak ada variabel penting yang dihilangkan. Tidak ada variabel asing yang disertakan.
Saya akan merekomendasikan pohon klasifikasi dan regresi (CART (r)) sebagai alternatif daripada regresi logistik untuk jenis analisis ini karena bebas asumsi:
CART adalah merek dagang dari Salford Systems. Lihat video ini untuk pengenalan dan riwayat CART. Ada juga video lain seperti keranjang - logistic regrssion hybrids di situs web yang sama. Saya akan memeriksanya. impentasi open source dalam R disebut Tree , dan ada banyak paket lain seperti rattle yang tersedia di R. Jika saya menemukan waktu, saya akan memposting contoh pertama dalam teks Homser menggunakan CART. Jika Anda bersikeras menggunakan regresi logistik, maka saya setidaknya akan menggunakan metode seperti CART untuk memilih variabel dan kemudian menerapkan regresi logistik.
Saya pribadi lebih suka CART daripada regresi logistik karena keuntungan yang disebutkan di atas. Tapi tetap saja, saya akan mencoba regresi logistik dan CART atau CART-Logistc Regression Hybrid, dan melihat mana yang memberikan akurasi prediktif yang lebih baik dan lebih penting interpretatablity yang lebih baik dan memilih yang menurut Anda akan "mengomunikasikan" data dengan lebih jelas.
Juga, FYI CART ditolak oleh jurnal statistik utama dan akhirnya penemu CART keluar dengan monograf. CART membuka jalan menuju algoritma pembelajaran mesin modern dan sangat sukses seperti Random Forest (r), Gradient Boosting Machines (GBM), Multivariate Adaptive Regression Splines, semuanya lahir. Randomforest dan GBM lebih akurat daripada CART tetapi kurang bisa ditafsirkan (seperti kotak hitam) daripada CART.
Semoga ini bermanfaat. Beri tahu saya jika Anda menganggap posting ini bermanfaat?
sumber
Saya pikir Anda mencoba memprediksi keberadaan spesies dengan pendekatan kehadiran / latar belakang, yang didokumentasikan dengan baik dalam jurnal seperti Metode dalam Ekologi dan Evolusi, Ekografi, dll. Mungkin dismo paket R berguna untuk masalah Anda. Ini termasuk sketsa yang bagus. Menggunakan dismo atau paket serupa lainnya menyiratkan untuk mengubah pendekatan Anda terhadap masalah, tapi saya percaya ada baiknya untuk melihat.
sumber