Pertanyaan filosofis tentang regresi logistik: mengapa nilai ambang batas yang optimal tidak dilatih?

13

Biasanya dalam regresi logistik, kami cocok dengan model dan mendapatkan beberapa prediksi pada set pelatihan. Kami kemudian melakukan validasi silang pada prediksi pelatihan tersebut (seperti di sini ) dan memutuskan nilai ambang batas optimal berdasarkan pada sesuatu seperti kurva ROC.

Mengapa kita tidak memasukkan validasi silang dari ambang ke dalam model yang sebenarnya, dan melatih semuanya secara menyeluruh?

StorScerceress
sumber

Jawaban:

19

Ambang batas tidak dilatih dengan model karena regresi logistik bukan penggolong (lih., Mengapa Regresi Logistik tidak disebut Klasifikasi Logistik? ). Ini adalah model untuk memperkirakan parameter, hal , yang mengatur perilaku distribusi Bernoulli. Artinya, Anda mengasumsikan bahwa distribusi respons, tergantung pada kovariat, adalah Bernoulli, dan Anda ingin memperkirakan bagaimana parameter yang mengontrol perubahan variabel sebagai fungsi dari kovariat. Ini adalah model probabilitas langsung saja . Tentu saja, itu dapat digunakan sebagai classifier selanjutnya, dan kadang-kadang dalam konteks tertentu, tetapi masih merupakan model probabilitas.

gung - Pasang kembali Monica
sumber
1
Oke, saya mengerti bagian dari teori itu (terima kasih atas penjelasannya yang fasih!) Tetapi mengapa kita tidak dapat memasukkan aspek klasifikasi ke dalam model? Yaitu, mengapa kita tidak dapat menemukan p, kemudian menemukan ambangnya, dan melatih semuanya secara menyeluruh untuk meminimalkan kerugian?
StatsSorceress
4
Anda pasti bisa ( jawaban @ Sycorax berbicara tentang kemungkinan itu). Tetapi karena itu bukan LR itu sendiri, melainkan augmentasi ad hoc, Anda perlu mengkodekan skema optimisasi lengkap sendiri. Perhatikan BTW, bahwa Frank Harrell telah menunjukkan bahwa proses akan mengarah pada apa yang mungkin dianggap sebagai model inferior oleh banyak standar.
gung - Reinstate Monica
1
Hmm. Saya membaca jawaban yang diterima dalam pertanyaan terkait di sini , dan saya setuju dengan itu dalam teori, tetapi kadang-kadang dalam aplikasi klasifikasi pembelajaran mesin kami tidak peduli dengan jenis kesalahan relatif, kami hanya peduli tentang "klasifikasi yang benar". Kalau begitu, bisakah Anda melatih ujung ke ujung seperti yang saya jelaskan?
StatsSorceress
4
Seperti yang saya katakan, Anda dapat mengatur optimasi kustom Anda sendiri yang akan melatih model & memilih ambang secara bersamaan. Anda hanya harus melakukannya sendiri & model akhir cenderung lebih buruk dengan sebagian besar standar.
gung - Reinstate Monica
1
@StatsSorceress "... terkadang dalam klasifikasi pembelajaran mesin ...". Seharusnya ada penekanan besar pada terkadang . Sulit membayangkan proyek di mana akurasi adalah jawaban yang benar. Dalam pengalaman saya, itu selalu melibatkan ketepatan dan mengingat kelas minoritas.
Wayne
14

Itu karena ambang batas optimal tidak hanya fungsi dari true positive rate (TPR), false positive rate (FPR), akurasi atau apa pun. Unsur penting lainnya adalah biaya dan imbalan yang benar dan salah keputusan yang .

Jika target Anda adalah pilek biasa, respons Anda terhadap tes positif adalah dengan meresepkan dua aspirin, dan biaya positif yang tidak diobati adalah sakit kepala selama dua hari yang tidak perlu, maka ambang batas keputusan optimal (bukan klasifikasi!) Anda cukup berbeda dengan jika target Anda adalah penyakit yang mengancam jiwa, dan keputusan Anda adalah (a) beberapa prosedur yang relatif sederhana seperti operasi usus buntu, atau (b) intervensi besar seperti kemoterapi berbulan-bulan! Dan perhatikan bahwa meskipun variabel target Anda mungkin biner (sakit / sehat), keputusan Anda mungkin memiliki nilai lebih (kirim pulang dengan dua aspirin / jalankan lebih banyak tes / rawat ke rumah sakit dan tonton / operasikan segera).

Intinya: jika Anda mengetahui struktur biaya dan semua keputusan yang berbeda, Anda tentu dapat melatih sistem pendukung keputusan (DSS) secara langsung, yang mencakup klasifikasi atau prediksi probabilistik. Saya akan, bagaimanapun, sangat berpendapat bahwa prediksi diskritisasi atau klasifikasi melalui ambang batas bukanlah cara yang tepat untuk melakukan hal ini.

Lihat juga jawaban saya untuk utas "Batas probabilitas klasifikasi sebelumnya" . Atau jawaban saya ini . Atau yang itu .

Stephan Kolassa
sumber
4

Selain masalah filosofis, ini akan menyebabkan kesulitan komputasi.

Alasannya mengapa fungsi dengan output kontinu relatif mudah dioptimalkan. Anda mencari arah di mana fungsi meningkat, dan kemudian pergi ke sana. Jika kita mengubah fungsi kerugian kita untuk memasukkan langkah "cutoff", output kita menjadi diskrit, dan fungsi kerugian kita juga diskrit. Sekarang ketika kita mengubah parameter fungsi logistik kita dengan "sedikit" dan bersama-sama mengubah nilai cutoff dengan "sedikit", kerugian kita memberikan nilai yang identik, dan optimasi menjadi sulit. Tentu saja, itu bukan tidak mungkin (Ada seluruh bidang studi dalam optimasi diskrit ) tetapi sejauh ini optimasi berkelanjutanmasalah yang lebih mudah untuk dipecahkan ketika Anda mengoptimalkan banyak parameter. Dengan mudah, begitu model logistik telah sesuai, menemukan cutoff optimal, meskipun masih merupakan masalah keluaran diskrit, sekarang hanya dalam satu variabel, dan kami hanya dapat melakukan pencarian grid, atau semacam itu, yang benar-benar layak dalam satu variabel.

Scott
sumber
3

Terlepas dari model yang mendasarinya, kita dapat menghitung distribusi sampel TPR dan FPR pada ambang batas. Ini menyiratkan bahwa kita dapat mengkarakterisasi variabilitas dalam TPR dan FPR pada batas tertentu, dan kita dapat kembali ke trade-off tingkat kesalahan yang diinginkan.

Kurva ROC sedikit menipu karena satu-satunya hal yang Anda kendalikan adalah ambang, namun plot menampilkan TPR dan FPR, yang merupakan fungsi dari ambang tersebut. Selain itu, TPR dan FPR keduanya statistik , sehingga mereka tunduk pada keanehan pengambilan sampel acak. Ini menyiratkan bahwa jika Anda mengulangi prosedur (katakanlah dengan validasi silang), Anda bisa menghasilkan FPR dan TPR yang berbeda pada nilai ambang tertentu.

Namun, jika kita dapat memperkirakan variabilitas dalam TPR dan FPR, maka mengulangi prosedur ROC tidak diperlukan. Kami hanya memilih ambang sehingga titik akhir interval kepercayaan (dengan lebar) dapat diterima. Yaitu, pilih model sehingga FPR masuk akal di bawah beberapa maksimum yang ditentukan peneliti, dan / atau TPR masuk akal di atas beberapa minimum yang ditentukan peneliti. Jika model Anda tidak dapat mencapai target, Anda harus membuat model yang lebih baik.

Tentu saja, nilai TPR dan FPR apa yang dapat ditoleransi dalam penggunaan Anda akan tergantung pada konteks.

Untuk informasi lebih lanjut, lihat Kurva ROC untuk Data Berkelanjutan oleh Wojtek J. Krzanowski dan David J. Hand.

Sycorax berkata Reinstate Monica
sumber
Ini tidak benar-benar menjawab pertanyaan saya, tetapi itu adalah deskripsi yang sangat bagus dari kurva ROC.
StatsSorceress
Dengan cara apa ini tidak menjawab pertanyaan Anda? Apa pertanyaan Anda, jika tidak bertanya tentang bagaimana memilih ambang untuk klasifikasi?
Sycorax berkata Reinstate Monica
2
Saya tidak mengetahui adanya prosedur statistik yang berfungsi seperti itu. Mengapa roda persegi ini ide yang bagus? Masalah apa yang dipecahkan?
Sycorax berkata Reinstate Monica
1
"Bagaimana cara saya memilih ambang dengan cara yang mengurangi waktu pelatihan?" sepertinya pertanyaan yang sangat berbeda dari yang ada di posting asli Anda.
Sycorax berkata Reinstate Monica
1
Bagaimanapun, saya tidak melihat bagaimana ini menghemat waktu. Membuat kurva ROC bukan bagian paling mahal dari estimasi model, sehingga bergerak pilihan ambang ke langkah optimasi tampaknya ad hoc dan tidak perlu.
Sycorax berkata Reinstate Monica
-2

Biasanya dalam penelitian biomedis, kami tidak menggunakan set pelatihan --- kami hanya menerapkan regresi logistik pada dataset lengkap untuk melihat prediktor mana yang merupakan faktor risiko signifikan untuk hasil yang kita lihat; atau untuk melihat satu prediktor minat sambil mengendalikan efek dari kemungkinan prediktor lain pada hasilnya.
Saya tidak yakin apa yang Anda maksud dengan nilai ambang batas, tetapi ada berbagai parameter yang dapat diusahakan untuk dioptimalkan: AUC, nilai batas untuk dikotomi variabel prediktor kontinu, nilai prediktif positif dan negatif, interval kepercayaan dan nilai-p, tingkat positif palsu dan negatif palsu. Regresi logistik melihat pada populasi subjek dan menilai kekuatan dan arah kausal dari faktor-faktor risiko yang berkontribusi pada hasil yang diinginkan pada populasi tersebut. Dimungkinkan juga untuk "menjalankannya secara terbalik," sehingga untuk berbicara, dan menentukan risiko individu dari hasil mengingat faktor risiko yang dimiliki individu. Regresi logistik memberi setiap individu risiko dari hasil, berdasarkan pada faktor risiko masing-masing, dan secara default ini adalah 0,5. Jika subjek ' s probabilitas memiliki hasil (berdasarkan semua data dan subjek dalam model Anda) adalah 0,5 atau lebih, itu memprediksi ia akan memiliki hasilnya; jika di bawah 0,5 maka ia memprediksi ia tidak akan melakukannya. Tetapi Anda dapat menyesuaikan tingkat cutoff ini, misalnya untuk menandai lebih banyak orang yang mungkin berisiko memiliki hasilnya, meskipun pada harga memiliki lebih banyak positif palsu yang diprediksi oleh model. Anda dapat menyesuaikan level cutoff ini untuk mengoptimalkan keputusan skrining untuk memprediksi individu mana yang disarankan untuk menjalani tindak lanjut medis lebih lanjut, misalnya; dan untuk membangun nilai prediksi positif Anda, nilai prediksi negatif, dan tingkat false negative dan false positive untuk tes penyaringan berdasarkan pada model regresi logistik. Anda dapat mengembangkan model pada setengah dataset Anda dan mengujinya pada setengah lainnya, tetapi Anda tidak t benar-benar harus (dan itu akan memotong data 'pelatihan' Anda menjadi dua dan dengan demikian mengurangi kekuatan untuk menemukan prediktor signifikan dalam model). Jadi ya, Anda bisa 'melatih semuanya dari ujung ke ujung'. Tentu saja, dalam penelitian biomedis, Anda ingin memvalidasinya pada populasi lain, kumpulan data lain sebelum mengatakan bahwa hasil Anda dapat digeneralisasikan ke populasi yang lebih luas. Pendekatan lain adalah dengan menggunakan pendekatan tipe bootstrap di mana Anda menjalankan model Anda pada subsampel populasi studi Anda, kemudian ganti subjek-subjek itu kembali ke kolam dan ulangi dengan sampel lain, berkali-kali (biasanya 1000 kali). Jika Anda mendapatkan hasil yang signifikan sebagian besar waktu yang ditentukan (misalnya 95% dari waktu) maka model Anda dapat dianggap divalidasi --- setidaknya pada data Anda sendiri. Tapi sekali lagi, semakin kecil populasi studi tempat Anda menjalankan model Anda, semakin kecil kemungkinannya bahwa beberapa prediktor akan menjadi faktor risiko yang signifikan secara statistik untuk hasilnya. Ini terutama berlaku untuk studi biomedis dengan jumlah peserta yang terbatas.
Menggunakan setengah dari data Anda untuk 'melatih' model Anda dan kemudian 'memvalidasinya' di setengah lainnya adalah beban yang tidak perlu. Anda tidak melakukan itu untuk uji-t atau regresi linier, jadi mengapa melakukannya dalam regresi logistik? Yang paling akan dilakukan adalah membiarkan Anda mengatakan 'yeah it works' tetapi jika Anda menggunakan dataset lengkap Anda maka Anda tetap menentukannya. Memecah data Anda menjadi kumpulan data yang lebih kecil berisiko tidak mendeteksi faktor risiko yang signifikan dalam populasi penelitian (ATAU populasi validasi) ketika mereka sebenarnya hadir, karena ukuran sampel yang kecil, memiliki terlalu banyak prediktor untuk ukuran studi Anda, dan kemungkinan bahwa 'sampel validasi' Anda tidak akan menunjukkan hubungan apa pun hanya dari kebetulan. Logika di balik pendekatan 'train then validate' tampaknya bahwa jika faktor risiko yang Anda identifikasi signifikan tidak cukup kuat, maka mereka tidak akan signifikan secara statistik ketika dimodelkan pada setengah dari data Anda yang dipilih secara acak. Tetapi sampel yang dipilih secara acak itu dapat terjadi untuk menunjukkan tidak ada hubungan hanya secara kebetulan, atau karena terlalu kecil untuk faktor risiko yang signifikan secara statistik. Tetapi besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingan mereka dan untuk alasan itulah yang terbaik adalah menggunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. t menjadi signifikan secara statistik ketika dimodelkan pada sebagian data Anda yang dipilih secara acak. Tetapi sampel yang dipilih secara acak itu dapat terjadi untuk menunjukkan tidak ada hubungan hanya secara kebetulan, atau karena terlalu kecil untuk faktor risiko yang signifikan secara statistik. Tetapi besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingan mereka dan untuk alasan itulah yang terbaik adalah menggunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. t menjadi signifikan secara statistik ketika dimodelkan pada sebagian data Anda yang dipilih secara acak. Tetapi sampel yang dipilih secara acak itu dapat terjadi untuk menunjukkan tidak ada hubungan hanya secara kebetulan, atau karena terlalu kecil untuk faktor risiko yang signifikan secara statistik. Tetapi besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingan mereka dan untuk alasan itulah yang terbaik adalah menggunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. Tetapi sampel yang dipilih secara acak itu dapat terjadi untuk menunjukkan tidak ada hubungan hanya secara kebetulan, atau karena terlalu kecil untuk faktor risiko yang signifikan secara statistik. Tetapi besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingan mereka dan untuk alasan itulah yang terbaik adalah menggunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. Tetapi sampel yang dipilih secara acak itu dapat terjadi untuk menunjukkan tidak ada hubungan hanya secara kebetulan, atau karena terlalu kecil untuk faktor risiko yang signifikan secara statistik. Tetapi besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingan mereka dan untuk alasan itulah yang terbaik adalah menggunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingannya dan karena itu, sebaiknya gunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingannya dan karena itu, sebaiknya gunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda.

Jeremy
sumber