Bagaimana ambang probabilitas suatu classifier dapat disesuaikan jika ada beberapa kelas? [duplikat]

10

Distribusi Probabilitas Biner

Di atas adalah contoh yang sangat sederhana untuk memiliki output probabilitas classifier untuk kasus kelas biner 0 atau 1 berdasarkan beberapa probabilitas.
Selain itu, mudah bagaimana Anda dapat mengubah ambang batas. Anda menetapkan ambang batas lebih tinggi atau lebih rendah dari 50% untuk mengubah keseimbangan presisi / penarikan dan dengan demikian mengoptimalkan untuk situasi unik Anda sendiri.

Namun ketika kami mencoba untuk memiliki pemikiran yang sama untuk skenario multikelas, bahkan hanya tiga kelas seperti yang ditunjukkan pada gambar di bawah ini (bayangkan bahwa ini adalah probabilitas)

Tiga Prob Dist

Bagaimana Anda mulai berpikir bagaimana menggeser ambang batas?
Standarnya adalah untuk mengambil kelas dengan probabilitas terbesar (di sini adalah kelas 3).
Jika Anda ingin mengambil keseimbangan ini (untuk memengaruhi presisi / daya ingat) apa yang bisa Anda lakukan?
Satu ide bisa mengambil kelas paling dominan pertama kembali normal mereka dan mempertimbangkan menempatkan ambang batas di antara keduanya, tetapi ini tidak terdengar seperti solusi yang elegan.
Apakah ada metodologi yang kuat untuk diikuti?

George Pligoropoulos
sumber

Jawaban:

10

Anda dapat menggunakan distribusi sebelumnya melalui kelas.

Mari kita asumsikan bahwa model Anda menghitung vektor probabilitas kelas . Anda dapat mendefinisikan vektor probabilitas sebelumnya dan kemudian menghitung probabilitas kelas Anda agar proporsional dengan , di mana menunjukkan produk elemen-bijaksana. Jadi probabilitas bahwa observasi Anda termasuk dalam kelas sebanding dengan .vπvπcvcπc

Jika Anda ingin distribusi yang tepat, Anda hanya perlu melakukan renormalisasi.

Dalam contoh Anda, jika Anda ingin prediksi Anda sedikit bias ke kelas 1, Anda dapat mendefinisikan , misalnya.π=(0,4,0,3,0,3)

Jika Anda memikirkannya, dalam kasus biner inilah yang secara implisit Anda lakukan saat Anda mengubah ambang batas. Katakanlah Anda menetapkan aturan berikut: jika vektor probabilitas Anda adalah dan fungsi keputusan Anda adalah , maka untuk beberapa .vf(x)

f(x)={2v2θ1jika tidak
θ(0,1)

Maka ini setara (setidaknya ketika datang untuk membuat keputusan) untuk menghitung probabilitas kelas agar sebanding dengan , jadi Anda akan mendefinisikan .(v11-θ,v2θ)π=(11-θ,1θ)

Anda juga dapat mempelajari nilai dari data Anda. Misalnya, Anda dapat menghitung proporsi setiap kelas dan menggunakannya sebagai probabilitas sebelumnya.π

Untuk cara yang lebih berprinsip memasukkan asumsi sebelumnya ke dalam model Anda, Anda mungkin ingin melihat kesimpulan Bayesian.

cangrejo
sumber
Terima kasih atas jawaban anda. Ini masuk akal. Jadi Anda menyarankan setelah melakukan penggandaan elemen-bijaksana dengan prior untuk kemudian hanya memilih jumlah terbesar seperti biasa
George Pligoropoulos
Iya. Perhatikan bahwa jika Anda menormalkan kembali vektor yang dihasilkan, Anda akan mendapatkan distribusi dengan urutan yang sama.
cangrejo
1
Cantik sekali, thak!
guyos