Klasifikasi vs regresi untuk prediksi tanda variabel respon kontinu

8

Katakanlah saya ingin memprediksi apakah suatu proyek akan menguntungkan atau tidak. Dalam data sampel saya, variabel respons sebenarnya adalah variabel kontinu: $ untung / rugi proyek.

Karena tujuan akhir saya hanyalah klasifikasi biner (proyek menguntungkan atau proyek tidak menguntungkan), haruskah saya menggunakan teknik klasifikasi? Atau haruskah saya menggunakan regresi agar saya tidak membuang informasi tambahan yang disediakan oleh variabel respon kontinu?

pengguna2303
sumber

Jawaban:

10

Saya tidak bisa memikirkan contoh di mana saya akan merekomendasikan teknik klasifikasi ketika variabel kontinu atau ordinal. Setelah secara efisien memasang model kontinu Anda dapat menggunakan model itu untuk memperkirakan probabilitas ituYmelebihi tingkat bunga apa pun. Jika model Gaussian, probabilitas ini adalah fungsi dari rata-rata yang diprediksi dan standar deviasi residual.

Frank Harrell
sumber
4
Salah satu contoh (seperti dicatat di bawah) adalah jika biaya prediksi yang salah adalah sama untuk semua tingkat profitabilitas. Yaitu. ketika Anda memiliki variabel kontinu, tetapi Anda benar-benar hanya tertarik pada nilai-nilai diskrit. Sebuah spline dengan n knot yang diregresikan ke variabel kontinu dapat menempatkan banyak knot pada nilai ekstrem untuk secara akurat mengatur bentuk data di sana, sedangkan spline yang dioptimalkan untuk klasifikasi dapat menempatkan semua simpulnya di sekitar 0.
Peter
9

Vladimir Vapnik (co-inventor dari Support Vector Machine dan ahli teori belajar komputasi terkemuka) selalu berusaha untuk memecahkan masalah secara langsung, daripada menyelesaikan beberapa masalah yang lebih umum dan kemudian membuang beberapa informasi yang disediakan oleh solusi. Saya umumnya setuju dengan ini, jadi saya akan menyarankan pendekatan klasifikasi untuk masalah seperti yang diajukan saat ini. Alasan untuk ini adalah bahwa jika kita hanya tertarik dalam mengklasifikasikan suatu proyek sebagai menguntungkan atau tidak-menguntungkan, maka kita benar-benar hanya tertarik pada wilayah di mana profitabilitas sekitar nol. Jika kita membentuk model klasifikasi, di situlah kita akan memusatkan sumber daya pemodelan kita. Jika kita mengambil pendekatan regresi, kita mungkin menyia-nyiakan sumber daya pemodelan untuk membuat perbaikan kecil dalam kinerja untuk proyek yang akan sangat menguntungkan atau tidak menguntungkan, berpotensi dengan mengorbankan peningkatan kinerja proyek-proyek perbatasan.

Sekarang alasan yang saya katakan "seperti yang diajukan saat ini", adalah bahwa sangat sedikit masalah yang benar-benar melibatkan klasifikasi biner yang sederhana dan keras (pengenalan karakter optik mungkin satu). Umumnya berbagai jenis kesalahan klasifikasi memiliki biaya yang berbeda, atau frekuensi kelas operasional mungkin tidak diketahui, atau variabel dll. Dalam kasus seperti itu lebih baik untuk memiliki pengelompokan probabilistik, seperti regresi logistik, bukan SVM. Jika menurut saya untuk aplikasi keuangan, kita akan melakukan lebih baik jika kita tahu kemungkinan apakah proyek akan menguntungkan, dan seberapa menguntungkan atau sebaliknya. Kita mungkin bersedia untuk mendanai proyek yang memiliki peluang kecil untuk mendapat untung, tetapi untung secara besar-besaran jika berhasil, tetapi bukan proyek yang hampir pasti berhasil, tetapi yang akan memiliki margin keuntungan yang sangat kecil seperti yang kita inginkan. lebih baik hanya menempel uang di rekening tabungan.

Jadi Frank dan Omri374 sama-sama benar! (+1; o)

EDIT: Untuk memperjelas mengapa regresi mungkin tidak selalu menjadi pendekatan yang baik untuk menyelesaikan masalah klasifikasi, berikut ini sebuah contoh. Katakanlah kita memiliki tiga proyek, dengan profitabilitasy=($1000,+$1,+$1000), dan untuk setiap proyek, kami memiliki variabel penjelas yang kami harap merupakan indikasi profitabilitas, x=(1,2,10). Jika kita mengambil pendekatan regresi (dengan offset), kita mendapatkan koefisien regresiβ0=-800.8288 dan β1=184.8836(Asalkan saya telah melakukan penjumlahan dengan benar!). Model tersebut kemudian memprediksi proyek sebagai menghasilkan keuntungany^1-$616, y^2-$431 dan y^3$1048. Perhatikan bahwa proyek kedua diprediksi secara salah sebagai tidak menguntungkan. Jika di sisi lain, kita mengambil pendekatan klasifikasi, dan malah mundurt=2(y> =0)-1, kami mendapatkan koefisien regresi β0=-0,2603 dan β1=0,1370, yang mencetak tiga proyek sebagai berikut: t^1=-0,1233, t^2=0,0137 dan t^3=1.1096. Jadi pendekatan klasifikasi dengan benar mengklasifikasikan proyek 1 sebagai tidak menguntungkan dan dua lainnya menguntungkan.

Alasan mengapa hal ini terjadi adalah bahwa pendekatan regresi berusaha keras untuk meminimalkan jumlah kesalahan kuadrat untuk masing-masing poin data. Dalam hal ini, SSE yang lebih rendah diperoleh dengan membiarkan proyek dua jatuh di sisi yang salah dari batas keputusan, untuk mencapai kesalahan yang lebih rendah pada dua poin lainnya.

Jadi Frank benar dalam mengatakan bahwa pendekatan regresi cenderung menjadi pendekatan yang baik dalam praktiknya, tetapi jika klasifikasi sebenarnya adalah tujuan akhir, ada situasi di mana ia dapat berkinerja buruk dan pendekatan klasifikasi akan berkinerja lebih baik.

Dikran Marsupial
sumber
Saya tidak bisa mengikuti logika itu. Model klasifikasi melemahkan hubungan dalam data, dan model kontinu tidak memerlukan lebih banyak sumber daya pemodelan. Model berkelanjutan memperhitungkan bahwa laba $ 1 (meskipun "menguntungkan") jauh berbeda dengan laba $ 1 miliar. Model klasifikasi adalah pilihan yang dipaksakan di mana "tidak ada pilihan" (zona abu-abu) bukan pilihan. Dan inefisiensi statistik dari model biner lebih dari yang berkelanjutan sangat mencolok. Anda selalu dapat menggunakan model berkelanjutan untuk memperkirakan Prob[Y>0|X]saat selesai.
Frank Harrell
Apakah model berkelanjutan memerlukan lebih banyak sumber daya daripada model klasifikasi tergantung pada jenis model apa itu (misalnya model jaringan saraf dapat menggunakan unit tersembunyi untuk memodelkan fitur di dekat garis batas atau dapat menggunakannya untuk meningkatkan kesesuaian jauh dari garis batas) . Hal yang sama juga berlaku pada tingkat yang lebih rendah dari bobot model linier, di mana nilai-nilai yang dipasang mungkin didominasi oleh titik-titik pengungkit tinggi yang jauh dari batas, yang mungkin merupakan hal yang buruk jika klasifikasi sederhana sebenarnya adalah yang penting.
Dikran Marsupial
Poin kedua Anda tentang profitabilitas tampaknya pada dasarnya mengapa saya jelaskan dalam paragraf kedua saya (masalah sebenarnya mungkin sebenarnya bukan klasifikasi keras yang sederhana), itulah sebabnya saya mengatakan Anda dan omri374 benar.
Dikran Marsupial
"Near the borderline" tidak diketahui oleh classifier yang tidak disediakan kontinu Ynilai-nilai.
Frank Harrell
Sistem classifier telah digunakan untuk menemukan batas keputusan menggunakan label diskrit untuk waktu yang lama. Anda kehilangan intinya, saya sebenarnya sebagian besar setuju dengan apa yang Anda tulis, dengan peringatan bahwa model dapat bias dengan titik leverage tinggi yang tidak dekat dengan batas keputusan, yang dapat mengurangi kinerja jika klasifikasi sebenarnya adalah tujuannya ( yang relatif jarang dalam praktiknya). Saya telah melihat fenomena ini dalam pekerjaan terapan saya selama bertahun-tahun, tetapi saya masih sering menggunakan model regresi untuk menyelesaikan masalah klasifikasi sendiri. Tanya Prof. Vapnik.
Dikran Marsupial
3

Setelah membaca komentar, saya pikir perbedaan berikut adalah apa yang hilang dari diskusi:

Cara memodelkan masalah

Ini tidak ada hubungannya dengan teknik apa yang digunakan. Ini pertanyaan tentang apa input dan output dan bagaimana mengevaluasi hasilnya.

Jika Anda benar-benar hanya peduli apakah proyek kami menguntungkan atau tidak, dan jumlah yang mereka gunakan sangat tidak relevan, maka Anda harus memodelkan ini sebagai masalah klasifikasi. Itu berarti Anda akhirnya mengoptimalkan untuk tingkat yang diharapkan dari klasifikasi yang benar (akurasi) atau AUC. Apa artinya pengoptimalan ini bergantung pada teknik apa yang Anda gunakan.

Semua pertanyaan tentang pilihan model dan algoritma pencarian dapat didekati secara heuristik (menggunakan argumen yang telah diajukan dalam jawaban dan komentar lain) tetapi bukti puding paling utama adalah pada saat makan. Apa pun model yang Anda miliki, Anda akan mengevaluasi dengan uji silang yang divalidasi untuk akurasi, jadi akurasi adalah yang Anda optimalkan.

Bagaimana mengatasi masalah tersebut

Anda dapat menggunakan metode apa pun yang Anda suka yang sesuai dengan paradigma klasifikasi. Karena Anda memiliki variabel y kontinu, Anda dapat melakukan regresi atas hal itu, dan menerjemahkannya ke klasifikasi biner. Ini kemungkinan akan bekerja dengan baik. Namun, tidak ada jaminan bahwa model regresi optimal (dengan jumlah kesalahan kuadrat atau kemungkinan maksimum atau apa pun) juga akan memberi Anda model klasifikasi optimal (berdasarkan akurasi atau AUC).

Peter
sumber
+1 sebagai pepatah umum, saya akan menyarankan bahwa tugas pertama adalah memiliki gagasan yang jelas tentang masalah yang harus dipecahkan, dan yang kedua adalah mendekati masalah dengan metode yang memberikan jawaban paling langsung terhadap pertanyaan yang sebenarnya diminta. Ini adalah sedikit generalisasi dari pepatah Vapnik, tetapi hanya sangat sedikit!
Dikran Marsupial
Ungkapan masalah seperti itu masih belum menyiratkan dikotomisasi itu Yadalah pendekatan yang tepat. Seperti yang saya katakan di tempat lain Anda dapat menghitung probabilitas ituY>0diberikan estimasi koefisien regresi optimal dari model kontinu.
Frank Harrell
Perhatikan bahwa saya tidak mengatakan bahwa Anda harus membuang atau mengabaikan nilai y terus menerus. Tetapi ada perbedaan antara menggunakannya dalam classifier dan mengoptimalkan akurasi regresi (Anda memodelkan masalah sebagai klasifikasi, tetapi Anda menyelesaikannya dengan regresi). Mungkin solusi terbaik Anda adalah metode regresi, tetapi Anda harus membuktikan ini dengan mengevaluasinya sebagai penggolong. Dan ada situasi di mana membuang nilai-nilai kontinu dan hanya menggunakan nilai-nilai yang didiskritisasi, akan memberi Anda kinerja yang lebih baik.
Peter
Mengevaluasinya sebagai pengklasifikasi menyiratkan bahwa fungsi utilitas Anda terputus-putus yang tampaknya tidak realistis bagi saya. Ini juga menyiratkan bahwa keputusan biner dipaksakan, yaitu, tidak ada kategori "tidak ada keputusan, dapatkan lebih banyak data". Saya telah membuat contoh di mana akurasi klasifikasi turun setelah menambahkan variabel yang sangat penting ke model. Masalahnya bukan dengan variabel; itu dengan ukuran akurasi.
Frank Harrell
Meskipun benar bahwa Anda dapat menentukan batas keputusan jika Anda memiliki kemungkinan ituY>0, masalahnya adalah bahwa memperkirakan probabilitas ini adalah masalah estimasi yang lebih sulit daripada hanya memperkirakan batas keputusan. Karena kami umumnya memiliki jumlah data yang terbatas, kesulitan tambahan estimasi berarti bahwa pendekatan dikotomi bekerja lebih baik dalam praktiknya. Ini adalah ide yang mendasari SVM, yang telah membuktikan nilainya dalam berbagai masalah klasifikasi.
Dikran Marsupial
1

Model klasifikasi umumnya berusaha meminimalkan tanda (kesalahan dalam hal kelas) dan bukan bias. Dalam kasus banyak outlier, misalnya, saya lebih suka menggunakan model klasifikasi dan bukan model regresi.

Omri374
sumber
Itu tidak mengikuti, dan akan sangat tidak efisien. Anda dapat menggunakan model kontinu yang kuat termasuk model semiparametrik seperti model odds proporsional.
Frank Harrell
0

Saya akan membingkai masalah sebagai meminimalkan kerugian. Pertanyaannya adalah apa fungsi kerugian Anda yang sebenarnya? Apakah prediksi yang salah menguntungkan ketika proyek kehilangan $ biaya 1 sebanyak prediksi untung ketika proyek kehilangan $ 1000? Dalam hal ini fungsi kerugian Anda benar-benar biner, dan Anda lebih baik menampilkan semuanya sebagai masalah klasifikasi. Fungsi regresi mungkin masih menjadi salah satu calon pengklasifikasi, tetapi Anda harus mengoptimalkannya dengan fungsi kerugian diskrit alih-alih yang kontinu. Jika Anda memiliki definisi kerugian yang lebih rumit, maka Anda harus mencoba memformalkannya, dan melihat apa yang Anda dapatkan jika Anda mengambil turunannya.

Menariknya, banyak metode pembelajaran mesin benar-benar mengoptimalkan fungsi kehilangan diskrit dengan memperkirakan dengan yang kontinu, karena fungsi kehilangan diskrit memberikan gradien yang buruk untuk optimasi. Jadi, Anda mungkin berakhir melemparkannya sebagai masalah klasifikasi, karena itulah fungsi kerugian Anda, tetapi kemudian mendekati fungsi kerugian itu dengan yang kontinu asli.

Peter
sumber
Itu tidak menceritakan keseluruhan cerita. Dengan regresi Gaussian, penduga kemungkinan maksimum dari Prob[Y>0|X]adalah fungsi dari rata-rata yang diprediksi dan varians residual.
Frank Harrell
Itu menarik. Tetapi ML tidak berarti tujuan akhir, baik itu akurasi atau AUC. Jika Anda mengoptimalkan kemungkinan (atau SSE), Anda mungkin berakhir dengan "kompleksitas model pengeluaran" pada pemodelan artefak data yang tidak penting. Model setara sebenarnya dapat mengurangi akurasi pemodelannya untuk fokus pada peningkatan akurasi klasifikasi.
Peter
Tergantung pada apa yang Anda maksud dengan "akurasi", dan AUC jarang kuantitas yang tepat untuk dioptimalkan karena fungsi kerugian tersirat. Anda tidak perlu menghabiskan kompleksitas model pada artefak jika melakukan pemodelan berkelanjutan dengan benar. Proporsi yang diklasifikasikan benar adalah aturan penilaian yang tidak tepat yang dioptimalkan oleh model palsu. Jika 0,99 perusahaan menguntungkan dalam tahun yang baik, Anda akan benar 0,99 dengan mengabaikan semuanyaXdata dan hanya mengklasifikasikan semua perusahaan sebagai menguntungkan. Menggunakan prediktor yang berharga (dalam arti apa pun selain klasifikasi) dapat membuat akurasi klasifikasi sebenarnya menurun.
Frank Harrell
Saya setuju dengan kekhawatiran Anda tentang AUC. Secara akurat, maksud saya proporsi diklasifikasikan dengan benar. Saya setuju bahwa tidak mungkin bahwa poster tersebut benar-benar hanya tertarik pada variabel biner, dan saya menduga bahwa sebenarnya jumlah laba yang dihasilkan memainkan peranan. Tetapi jika klasifikasi diskrit benar-benar satu-satunya perhatian, maka saya tidak melihat hal lain untuk mengoptimalkan tetapi ukuran klasifikasi. Dan jika kelas Anda sangat bias terhadap kelas menguntungkan maka mengabaikan data dan selalu mengklasifikasikan sebagai menguntungkan memang akan menjadi dasar yang sulit untuk dikalahkan.
Peter
Proporsi yang diklasifikasikan dengan benar memiliki kinerja yang lebih buruk daripada AUC. Itu ditunjukkan dalam literatur pengambilan keputusan Jerman pada 1970-an bahwa akurasi klasifikasi adalah aturan penilaian yang tidak tepat. Jika klasifikasi diskrit menjadi perhatian Anda, itu dapat diperoleh pada detik terakhir. Keputusan optimal Bayes menggunakan pengondisian penuh pada semua informasi yang tersedia.
Frank Harrell