Perbedaan antara Regresi Logistik Acak dan Regresi Logistik Plain-Vanilla

12

Saya ingin mengetahui perbedaan antara Regresi Logistik Acak (RLR) dan Regresi Logistik polos (LR), oleh karena itu, saya membaca makalah "Seleksi Stabilitas" oleh Meinshausen, dkk. ; namun saya tidak mengerti apa itu RLR dan apa perbedaan antara RLR dan LR.

Bisakah seseorang menunjukkan apa yang harus saya baca untuk memahami RLR? Atau adakah contoh sederhana untuk memulai?

Hendra Bunyamin
sumber
1
RLR bukan istilah standar. Silakan tentukan metodenya.
Frank Harrell
Terima kasih @ FrankHarrell ... Metode ini berasal dari perpustakaan belajar scikit .
Hendra Bunyamin
Sekarang ada situs pertukaran stack baru untuk pembelajaran mesin / Big Data, mungkin pertanyaan ini ada di sana.
Placidia
4
@Placidia Itu saran yang bagus. Namun, jawaban Anda sendiri menunjukkan mengapa pertanyaan ini ada di sini: kami lebih mampu memberikan perspektif yang seimbang yang secara akurat mengkarakterisasi dan membandingkan aspek statistik dan ML dari pertanyaan tersebut. Meskipun ada kemungkinan bahwa seseorang di situs "ilmu data" dapat menyumbangkan jawaban seperti itu, pengalaman saya di sana adalah bahwa itu tidak mungkin.
whuber
3
Saya terkejut bahwa situs baru itu adalah ilmu data panggilan, yang lebih dari setengah tentang statistik, yang merupakan tujuan dari situs ini.
Frank Harrell

Jawaban:

17

Anda mungkin ingin memeriksa referensi ini . Sci-kit learning mengimplementasikan regresi logistik acak dan metodenya dijelaskan di sana.

Tetapi untuk menjawab pertanyaan Anda, kedua metode ini sangat berbeda dalam tujuan mereka. Regresi logistik adalah tentang pemasangan model dan RLR adalah tentang menemukan variabel yang masuk ke dalam model.

Regresi logistik vanili adalah model linier umum. Untuk respons biner, kami berpendapat bahwa peluang log dari probabilitas respons adalah fungsi linier dari sejumlah prediktor. Koefisien prediktor diperkirakan menggunakan kemungkinan maksimum dan kesimpulan tentang parameter kemudian didasarkan pada sifat sampel yang besar dari model. Untuk hasil terbaik, kami biasanya menganggap bahwa model ini cukup sederhana dan dipahami dengan baik. Kami tahu variabel independen apa yang memengaruhi respons. Kami ingin memperkirakan parameter model.

Tentu saja, dalam praktiknya, kita tidak selalu tahu variabel apa yang harus dimasukkan dalam model. Ini terutama benar dalam situasi pembelajaran mesin di mana jumlah variabel penjelas potensial sangat besar dan nilainya jarang.

Selama bertahun-tahun, banyak orang telah mencoba menggunakan teknik pemasangan model statistik untuk tujuan pemilihan variabel (baca "fitur"). Dalam meningkatkan tingkat keandalan:

  1. Sesuaikan model besar dan drop variabel dengan statistik Wald yang tidak signifikan. Tidak selalu menghasilkan model terbaik.
  2. Lihatlah semua model yang mungkin dan pilih yang "terbaik". Komputasi intensif dan tidak kuat.
  3. Pas dengan model besar dengan istilah hukuman L1 (gaya laso). Variabel-variabel yang tidak berguna menjadi tidak cocok. Lebih baik, tetapi tidak stabil dengan matriks jarang.
  4. Metode acak 3. Ambil himpunan bagian acak, paskan model yang dikenakan sanksi untuk masing-masing dan susun hasilnya. Variabel yang sering muncul dipilih. Ketika responsnya adalah biner, ini adalah regresi logistik acak. Teknik serupa dapat ditarik dengan data kontinu dan model linear umum.
Placidia
sumber
2
+1 Sangat menyenangkan melihat survei metodologi umum yang diartikulasikan, dapat dibaca, dan informatif.
Whuber