Pembuatan model dan pemilihan menggunakan Hosmer et al. 2013. Regresi Logistik Terapan di R

17

Ini adalah posting pertama saya di StackExchange, tetapi saya telah menggunakannya sebagai sumber daya selama beberapa waktu, saya akan melakukan yang terbaik untuk menggunakan format yang sesuai dan melakukan pengeditan yang sesuai. Juga, ini adalah pertanyaan multi-bagian. Saya tidak yakin apakah saya harus membagi pertanyaan menjadi beberapa posting berbeda atau hanya satu. Karena semua pertanyaan berasal dari satu bagian dalam teks yang sama, saya pikir akan lebih relevan untuk memposting sebagai satu pertanyaan.

Saya sedang meneliti pemanfaatan habitat spesies mamalia besar untuk Tesis Master. Tujuan dari proyek ini adalah untuk memberikan pengelola hutan (yang kemungkinan besar bukan ahli statistik) dengan kerangka kerja praktis untuk menilai kualitas habitat pada lahan yang mereka kelola terkait dengan spesies ini. Hewan ini relatif sulit dipahami, spesialis habitat, dan biasanya berlokasi di daerah terpencil. Relatif sedikit penelitian yang telah dilakukan mengenai distribusi spesies, terutama musiman. Beberapa hewan dipasangi kerah GPS untuk jangka waktu satu tahun. Seratus lokasi (50 musim panas dan 50 musim dingin) dipilih secara acak dari masing-masing data kerah GPS. Selain itu, 50 titik dihasilkan secara acak di dalam wilayah jelajah masing-masing hewan untuk dijadikan lokasi "tersedia" atau "tidak ada semu".

Untuk setiap lokasi, beberapa variabel habitat diambil sampelnya di lapangan (diameter pohon, tutup horizontal, puing-puing kayu kasar, dll) dan beberapa sampel diambil dari jarak jauh melalui GIS (ketinggian, jarak ke jalan, kekasaran, dll). Variabel-variabel tersebut sebagian besar kontinu kecuali untuk 1 variabel kategori yang memiliki 7 level.

Tujuan saya adalah menggunakan pemodelan regresi untuk membangun fungsi pemilihan sumber daya (RSF) untuk memodelkan probabilitas relatif penggunaan unit sumber daya. Saya ingin membangun RSF musiman (musim dingin dan musim panas) untuk populasi hewan (tipe desain I) serta setiap hewan individu (tipe desain III).

Saya menggunakan R untuk melakukan analisis statistik.

The teks primer yang telah saya gunakan adalah ...

  • "Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013. Regresi Logistik Terapan. Wiley, Chicester".

Mayoritas contoh dalam Hosmer et al. penggunaan STATA, saya juga telah menggunakan 2 teks berikut untuk referensi dengan R .

  • "Crawley, MJ 2005. Statistik: pengantar menggunakan RJ Wiley, Chichester, Sussex Barat, Inggris."
  • "Plant, RE 2012. Analisis Data Spasial dalam Ekologi dan Pertanian Menggunakan R. CRC Press, London, GBR."

Saat ini saya mengikuti langkah-langkah dalam Bab 4 dari Hosmer et al. untuk "Pemilihan Tujuan dari Kovariat" dan memiliki beberapa pertanyaan tentang prosesnya. Saya telah menguraikan beberapa langkah pertama dalam teks di bawah ini untuk membantu pertanyaan saya.

  1. Langkah 1: Analisis univariabel dari masing-masing variabel independen (saya menggunakan regresi logistik univariabel). Setiap variabel yang tes univariabelnya memiliki nilai p kurang dari 0,25 harus dimasukkan dalam model multivariabel pertama.
  2. Langkah 2: Pasang model multivariabel yang berisi semua kovariat yang diidentifikasi untuk dimasukkan pada langkah 1 dan untuk menilai pentingnya setiap kovariat menggunakan nilai p dari statistik Wald-nya. Variabel yang tidak berkontribusi pada tingkat signifikansi tradisional harus dihilangkan dan model baru cocok. Model baru yang lebih kecil harus dibandingkan dengan model lama yang lebih besar menggunakan uji rasio kemungkinan parsial.
  3. Langkah 3: Bandingkan nilai koefisien yang diestimasi dalam model yang lebih kecil dengan nilai masing-masing dari model besar. Setiap variabel yang koefisiennya telah berubah sangat besar harus ditambahkan kembali ke dalam model karena penting dalam arti memberikan penyesuaian yang diperlukan dari pengaruh variabel yang tetap dalam model. Siklus melalui langkah 2 dan 3 sampai tampak bahwa semua variabel penting dimasukkan dalam model dan yang dikecualikan secara klinis dan / atau secara statistik tidak penting. Hosmer et al. gunakan " delta-beta-hat-persen " sebagai ukuran perubahan besarnya koefisien. Mereka menyarankan perubahan signifikan sebagai delta-beta-hat-persen > 20%. Hosmer et al. mendefinisikan delta-beta-hat-persen sebagai . Dimanaθ1adalah koefisien dari model yang lebih kecil danβ1adalah koefisien dari model yang lebih besar.Δβ^%=100θ^1-β^1β^1θ^1β^1
  4. Langkah 4: Tambahkan setiap variabel yang tidak dipilih pada Langkah 1 ke model yang diperoleh pada akhir langkah 3, satu per satu, dan periksa signifikansinya dengan nilai p statistik Wald atau uji rasio kemungkinan parsial jika itu adalah kategori variabel dengan lebih dari 2 level. Langkah ini sangat penting untuk mengidentifikasi variabel yang, dengan sendirinya, tidak secara signifikan terkait dengan hasil tetapi memberikan kontribusi penting di hadapan variabel lain. Kami merujuk pada model pada akhir Langkah 4 sebagai model efek utama awal .
  5. Langkah 5-7: Saya belum maju ke titik ini jadi saya akan meninggalkan langkah-langkah ini untuk saat ini, atau menyimpannya untuk pertanyaan yang berbeda.

Pertanyaan saya:

  1. Pada langkah 2, apa yang akan sesuai sebagai tingkat signifikansi tradisional, nilai p <0,05 sesuatu yang lebih besar seperti <0,25?
  2. Pada langkah 2 lagi, saya ingin memastikan kode R yang saya gunakan untuk tes kemungkinan parsial benar dan saya ingin memastikan saya menafsirkan hasil dengan benar. Inilah yang telah saya lakukan ... anova(smallmodel,largemodel,test='Chisq')Jika p-value signifikan (<0,05) saya menambahkan variabel kembali ke model, jika tidak signifikan saya melanjutkan dengan penghapusan?
  3. Δβ^%Δβ^%
  4. Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])

GNG
sumber
karena penasaran, apa spesies yang sedang Anda pelajari?
peramal

Jawaban:

23

Pβ

Frank Harrell
sumber
3
Ya, pengetahuan domain + dosis ketidakpercayaan yang sehat dalam kesederhanaan, misalnya, jangan menganggap variabel kontinu bertindak linier kecuali Anda memiliki data sebelumnya yang menunjukkan linieritas.
Frank Harrell
6
OP mengutip teks utama dalam edisi ketiga dengan penulis yang telah memberikan kontribusi besar untuk bidang ini. Poin-poin lain yang dibuat dalam pertanyaan dibahas dalam teks-teks berpengaruh lainnya (Agresti, Gelman). Saya mengemukakan ini bukan karena saya setuju dengan strategi ini, tetapi lebih kepada mencatat bahwa strategi ini disarankan dalam teks-teks arus utama oleh ahli statistik yang disegani. Singkatnya: meskipun ada banyak literatur yang menyarankan ini, sepertinya tidak ditolak oleh komunitas statistik.
Juli
2
Itu cukup salah kaprah menurut pendapat saya yang sederhana. Strategi yang didorong begitu keras dalam beberapa teks tidak pernah divalidasi. Penulis yang tidak percaya pada simulasi menempatkan diri mereka dalam risiko karena menganjurkan penggunaan metode yang tidak berfungsi seperti yang diiklankan.
Frank Harrell
2
Ya saya tahu. Saya sering merujuk teks dan makalah Anda, dan salah satu sumber yang saya gunakan untuk sampai pada kesimpulan saya tidak setuju dengan strategi di atas. Saya hanya menyampaikan dilema dari pengguna yang diterapkan. Kami tidak dapat menguji semuanya. Kami mengandalkan para ahli, seperti Anda.
Juli
3
@GNG: FH merujuk pada simulasi sebagai cara untuk menunjukkan bahwa pendekatan ini untuk pemilihan model benar-benar melakukan apa yang seharusnya dilakukan (mungkin untuk meningkatkan akurasi prediksi model Anda) dalam aplikasi tipikal. Pertanyaan (cerdik) Anda menyoroti penyertaan variabelnya yang agak sewenang-wenang, ad hoc, berdasarkan pada jumlah signifikansi tes signifikan pada tingkat "tradisional" tidak dapat ditunjukkan oleh teori untuk menjamin optimalisasi apa pun.
Scortchi
5

Metode yang ditentukan untuk pemilihan variabel menggunakan statistik seperti P, regresi bertahap dalam teks klasik Hosmer et al harus dihindari.

Baru-baru ini saya menemukan sebuah artikel yang diterbitkan dalam jurnal internasional peramalan berjudul " Illusions of predictability " dan komentar pada artikel ini oleh Keith ord . Saya akan sangat merekomendasikan kedua artikel ini karena mereka jelas menunjukkan bahwa menggunakan statistik regresi seringkali menyesatkan. Follwoing adalah tangkapan layar dari artikel Keith Ord yang menunjukkan dengan simulasi mengapa langkah langkah regresi (menggunakan statistik p) untuk pemilihan variabel buruk.

masukkan deskripsi gambar di sini

Artikel indah lain oleh Scott Armstrong yang muncul dalam edisi yang sama dari jurnal menunjukkan mengapa orang harus sangat berhati-hati dalam menggunakan analisis regresi pada data non-eksperimental dengan studi kasus. Sejak saya membaca artikel ini saya menghindari menggunakan analisis regresi untuk menarik kesimpulan kausal pada data non-eksperimental. Sebagai seorang praktisi, saya berharap saya telah membaca artikel seperti ini bertahun-tahun yang akan menyelamatkan saya dari membuat keputusan yang buruk dan menghindari kesalahan yang mahal.

Pada masalah khusus Anda, saya rasa eksperimen acak tidak mungkin dilakukan dalam kasus Anda, jadi saya akan merekomendasikan Anda menggunakan validasi silang untuk memilih variabel. Contoh latihan yang bagus tersedia dalam buku online gratis ini tentang bagaimana Anda akan menggunakan akurasi prediktif untuk memilih variabel. Ini juga banyak metode pemilihan lainnya, tetapi saya akan membatasi untuk cross validasi.

Saya pribadi menyukai kutipan dari Armstrong "Di suatu tempat saya menemukan gagasan bahwa statistik seharusnya membantu komunikasi. Metode regresi yang kompleks dan sekumpulan statistik diagnostik telah membawa kita ke arah lain."

Di bawah ini adalah pendapat saya sendiri. Saya bukan ahli statistik.

  • Sebagai seorang ahli biologi saya pikir Anda akan menghargai hal ini. Alam sangat kompleks, dengan asumsi fungsi logistik dan tidak ada interaksi antar variabel tidak terjadi di alam. Selain itu, regresi logistik memiliki asumsi sebagai berikut :

  • Probabilitas kondisional yang sebenarnya adalah fungsi logistik dari variabel independen.

  • Tidak ada variabel penting yang dihilangkan. Tidak ada variabel asing yang disertakan.

  • Variabel independen diukur tanpa kesalahan.
  • Pengamatan independen.
  • Variabel independen bukan kombinasi linear satu sama lain.

Saya akan merekomendasikan pohon klasifikasi dan regresi (CART (r)) sebagai alternatif daripada regresi logistik untuk jenis analisis ini karena bebas asumsi:

  1. Non parametrik / Didorong Data / Tidak ada asumsi bahwa probabilitas output Anda mengikuti fungsi logistik.
  2. Non linier
  3. memungkinkan interaksi variabel yang kompleks.
  4. Menyediakan pohon visual yang sangat dapat ditafsirkan yang akan dihargai oleh non-ahli statistik seperti pengelola hutan.
  5. Mudah menangani nilai yang hilang.
  6. Jangan perlu menjadi ahli statistik untuk menggunakan CART !!
  7. secara otomatis memilih variabel menggunakan validasi silang.

CART adalah merek dagang dari Salford Systems. Lihat video ini untuk pengenalan dan riwayat CART. Ada juga video lain seperti keranjang - logistic regrssion hybrids di situs web yang sama. Saya akan memeriksanya. impentasi open source dalam R disebut Tree , dan ada banyak paket lain seperti rattle yang tersedia di R. Jika saya menemukan waktu, saya akan memposting contoh pertama dalam teks Homser menggunakan CART. Jika Anda bersikeras menggunakan regresi logistik, maka saya setidaknya akan menggunakan metode seperti CART untuk memilih variabel dan kemudian menerapkan regresi logistik.

Saya pribadi lebih suka CART daripada regresi logistik karena keuntungan yang disebutkan di atas. Tapi tetap saja, saya akan mencoba regresi logistik dan CART atau CART-Logistc Regression Hybrid, dan melihat mana yang memberikan akurasi prediktif yang lebih baik dan lebih penting interpretatablity yang lebih baik dan memilih yang menurut Anda akan "mengomunikasikan" data dengan lebih jelas.

Juga, FYI CART ditolak oleh jurnal statistik utama dan akhirnya penemu CART keluar dengan monograf. CART membuka jalan menuju algoritma pembelajaran mesin modern dan sangat sukses seperti Random Forest (r), Gradient Boosting Machines (GBM), Multivariate Adaptive Regression Splines, semuanya lahir. Randomforest dan GBM lebih akurat daripada CART tetapi kurang bisa ditafsirkan (seperti kotak hitam) daripada CART.

Semoga ini bermanfaat. Beri tahu saya jika Anda menganggap posting ini bermanfaat?

peramal cuaca
sumber
8
Y
3
Jawaban ini melompat dari komentar umum, banyak di antaranya tampaknya paling tidak kontroversial bagi saya, ke dukungan yang sangat spesifik dan agak pribadi dari CART sebagai metode pilihan. Anda berhak atas pandangan Anda, karena orang lain akan berhak atas keberatan mereka. Saran saya adalah agar Anda menandai bumbu ganda dari jawaban Anda dengan lebih jelas.
Nick Cox
2
Regresi logistik adalah model linier umum, tetapi selain itu dapat dipertahankan karena, memang termotivasi dengan baik, model nonlinear alami (dalam arti bahwa itu sesuai dengan kurva atau setara, bukan garis atau setara, dalam ruang biasa) yang sangat cocok untuk tanggapan biner. Daya tarik untuk biologi di sini bermata dua; model logistik historis untuk respons biner diilhami oleh model untuk pertumbuhan logistik (misalnya populasi) dalam biologi!
Nick Cox
The Soyer et al. kertas, kertas Armstrong, dan komentar semuanya sangat bagus. Saya telah membaca mereka akhir pekan ini. Terima kasih telah menyarankan mereka. Bukan menjadi ahli statistik saya tidak bisa berkomentar menggunakan CART atas regresi logistik. Namun, jawaban Anda ditulis dengan sangat baik, membantu, dan telah menerima komentar yang berwawasan luas. Saya telah membaca tentang metode pembelajaran mesin seperti CART, MaxEnt, dan meningkatkan pohon regresi dan berencana membahasnya dengan komite saya untuk mendapatkan wawasan mereka. Ketika saya mendapatkan waktu luang, video CART juga akan menarik.
GNG
3
Dengan senyuman saya pikir kami dapat membalikkan komentar Anda pada model linier dan bersikeras bahwa jauh dari bebas asumsi, atau bahkan asumsi-cahaya, CART mengasumsikan bahwa kenyataan itu seperti pohon (apa lagi?). Jika Anda berpikir bahwa alam adalah kontinum yang bervariasi dengan lancar, Anda harus berlari ke arah yang berlawanan.
Nick Cox
3

Saya pikir Anda mencoba memprediksi keberadaan spesies dengan pendekatan kehadiran / latar belakang, yang didokumentasikan dengan baik dalam jurnal seperti Metode dalam Ekologi dan Evolusi, Ekografi, dll. Mungkin dismo paket R berguna untuk masalah Anda. Ini termasuk sketsa yang bagus. Menggunakan dismo atau paket serupa lainnya menyiratkan untuk mengubah pendekatan Anda terhadap masalah, tapi saya percaya ada baiknya untuk melihat.

Hugo
sumber
2
Apa yang membuat Anda tidak hanya menentukan model? Mengapa ada ketidakpastian besar dalam model apa? Mengapa perlunya pemilihan model menggunakan GLM?
Frank Harrell
1
Saya khawatir Anda mencampur beberapa konsep. (1) sebenarnya maxent adalah data kehadiran / latar belakang, atau data kehadiran / pseudo-absen. Jadi, maxent menggunakan data keberadaan saja dan menambahkan beberapa poin dari lanskap, yaitu latar belakang / absen semu. Dengan demikian, dapat digunakan dalam kasus Anda. (2) GLM dirancang untuk digunakan dengan absensi 'benar'. Namun, GLM telah diadaptasi untuk data ada / tidak ada semu. (3) paket dismo menawarkan pohon regresi yang disempurnakan tetapi tidak hanya. Anda dapat memuat GLM juga, cukup ikuti salah satu sketsa paket (ada 2).
Hugo
1
Jika pertanyaan Anda adalah tentang variabel mana yang harus Anda sertakan sebagai prediktor, lihat makalah ini: Sheppard 2013. Bagaimana pemilihan variabel iklim mempengaruhi prediksi distribusi spesies? Studi kasus tiga gulma baru di Selandia Baru. Weed Research; Harris, dkk. 2013. Menjadi Atau Tidak Menjadi? Seleksi variabel dapat mengubah proyeksi nasib spesies terancam di bawah iklim masa depan. Ecol. Manag. Kembalikan.
Hugo
2
Pemikiran bahwa teknik pemilihan variabel entah bagaimana mengurangi overfitting adalah aneh. Penghematan variabel yang jelas dari pengurangan model benar-benar ilusi ketika pengurangan itu berasal dari data itu sendiri.
Frank Harrell
1
@GNG: "Ketidakpastian saya tentang meninggalkan semua variabel dalam model berasal dari semua yang telah saya pelajari tentang collinearity dan over-fitting" - Apakah model Anda mengandung prediktor yang sangat collinear? Apakah model Anda terlalu pas?
Scortchi