Saya sedang mempelajari kursus pembelajaran mesin dan slide kuliah berisi informasi apa yang saya temukan bertentangan dengan buku yang direkomendasikan.
Masalahnya adalah sebagai berikut: ada tiga pengklasifikasi:
- classifier A memberikan kinerja yang lebih baik di kisaran ambang yang lebih rendah,
- classifier B memberikan kinerja yang lebih baik dalam rentang ambang yang lebih tinggi,
- classifier C apa yang kita dapatkan dengan membalik koin p dan memilih dari dua pengklasifikasi.
Apa yang akan menjadi kinerja classifier C, seperti yang terlihat pada kurva ROC?
Slide kuliah menyatakan bahwa hanya dengan membalik koin ini, kita akan mendapatkan magis " cembung lambung " dari kurva classifier A dan B's ROC.
Saya tidak mengerti poin ini. Hanya dengan membalik koin, bagaimana kita dapat memperoleh informasi?
Slide kuliah
Apa kata buku itu
Buku yang direkomendasikan ( Data Mining ... oleh Ian H. Witten, Eibe Frank dan Mark A. Hall ) di sisi lain menyatakan bahwa:
Untuk melihat ini, pilih cutoff probabilitas tertentu untuk metode A yang memberikan tingkat positif benar dan salah dari tA dan fA, masing-masing, dan cutoff lain untuk metode B yang memberikan tB dan fB. Jika Anda menggunakan kedua skema ini secara acak dengan probabilitas p dan q, di mana p + q = 1, maka Anda akan mendapatkan tingkat positif benar dan salah p. tA + q. tB dan p. fA + q. fB. Ini merupakan titik yang terletak pada garis lurus yang menghubungkan titik-titik (tA, fA) dan (tB, fB), dan dengan memvariasikan p dan q Anda dapat melacak seluruh garis di antara kedua titik ini.
Dalam pemahaman saya, apa yang dikatakan buku itu adalah bahwa untuk benar-benar mendapatkan informasi dan mencapai lambung cembung kita perlu melakukan sesuatu yang lebih maju daripada hanya membalik koin p.
AFAIK, cara yang benar (seperti yang disarankan oleh buku) adalah sebagai berikut:
- kita harus menemukan ambang batas optimal Oa untuk classifier A
- kita harus menemukan ambang batas optimal Ob untuk classifier B
definisikan C sebagai berikut:
- Jika t <Oa, gunakan classifier A dengan t
- Jika t> Ob, gunakan classifier B dengan t
- Jika Oa <t <Ob, pilih antara classifier A dengan Oa dan B dengan Ob dengan probabilitas sebagai kombinasi linear di mana kita berada di antara Oa dan Ob.
Apakah ini benar? Jika ya, ada beberapa perbedaan utama dibandingkan dengan apa yang disarankan slide.
- Ini bukan membalik koin sederhana, tetapi algoritma yang lebih maju yang membutuhkan poin dan pilihan yang ditentukan secara manual berdasarkan wilayah mana kita jatuh.
- Itu tidak pernah menggunakan classifier A dan B dengan nilai ambang batas antara Oa dan Ob.
Bisakah Anda menjelaskan kepada saya masalah ini dan apa cara yang benar untuk memahaminya , jika pemahaman saya tidak benar?
Apa yang akan terjadi jika kita hanya cukup melempar koin p seperti yang akan disarankan slide? Saya akan berpikir bahwa kita akan mendapatkan kurva ROC antara A dan B, tetapi tidak pernah "lebih baik" daripada yang lebih baik pada titik tertentu.
Sejauh yang saya bisa lihat, saya benar-benar tidak mengerti bagaimana slide bisa benar. Perhitungan probabilistik di sisi kiri tidak masuk akal bagi saya.
Pembaruan: Menemukan artikel yang ditulis oleh penulis asli yang menemukan metode convex hull: http://www.bmva.org/bmvc/1998/pdf/p082.pdf
Jawaban:
(Diedit)
Slide ceramahnya benar.
Metode A memiliki "titik optimal" yang memberikan tingkat positif benar dan salah (TPA, FPA dalam grafik). Poin ini akan sesuai dengan ambang, atau lebih umum [*] batas keputusan optimal untuk A. Semua sama berlaku untuk B. (Tapi ambang batas dan batas tidak terkait).
Terlihat bahwa classifier A berkinerja baik di bawah preferensi "meminimalkan false positive" (strategi konservatif) dan classifier B ketika kita ingin "memaksimalkan true positive" (strategi yang bersemangat).
Jawaban untuk pertanyaan pertama Anda, pada dasarnya adalah ya, kecuali bahwa probabilitas koin (dalam beberapa hal) sewenang-wenang. Clasiffier terakhir adalah:(Dikoreksi: sebenarnya, ceramahnya benar-benar benar, kita bisa membalik koinnya dalam keadaan apa pun. Lihat diagram)
[*] Anda harus umum di sini: jika Anda berpikir dalam batasan skalar tunggal, semua ini tidak masuk akal; fitur satu dimensi dengan penggolong berbasis ambang tidak memberi Anda cukup derajat kebebasan untuk memiliki penggolong berbeda seperti A dan B, yang berkinerja di sepanjang kurva yang berbeda ketika paramen bebas (batas keputusan = ambang batas) bervariasi. Dengan kata lain: A dan B disebut "metode" atau "sistem", bukan "pengklasifikasi"; karena A adalah seluruh keluarga pengklasifikasi, ditentukan oleh beberapa parameter (skalar) yang menentukan batas keputusan, bukan hanya skalar]
Saya menambahkan beberapa diagram untuk membuatnya lebih jelas:
Dalam skenario ini, maka, dapat dikatakan bahwa garis oranye yang terisi adalah "optimal A classifier" (di dalam keluarganya), dan sama untuk B. Tetapi orang tidak dapat mengatakan apakah garis oranye lebih baik daripada garis biru: seseorang melakukan lebih baik ketika kita menetapkan biaya tinggi untuk positif palsu, yang lain ketika negatif palsu jauh lebih mahal.
Sekarang, mungkin terjadi bahwa dua pengklasifikasi ini terlalu ekstrem untuk kebutuhan kita, kami ingin kedua jenis kesalahan memiliki bobot yang sama. Kami lebih suka, daripada menggunakan classifier A (titik oranye) atau B (titik biru) untuk mencapai kinerja yang ada di antara mereka. Seperti yang dikatakan oleh kursus, seseorang dapat mencapai hasil itu hanya dengan membalik koin dan memilih salah satu pengklasifikasi secara acak.
Kami tidak mendapatkan informasi. Pengklasifikasi acak baru kami bukan sekadar "lebih baik" daripada A atau B, kinerjanya semacam rata-rata A dan B, dalam hal apa biaya yang ditetapkan untuk setiap jenis kesalahan. Itu bisa bermanfaat atau tidak bagi kita, tergantung pada berapa biaya kita.
sumber
Saya setuju dengan alasan Anda. Jika Anda menggunakan classifier dengan membalik koin untuk memilih satu ketika Anda berada di antara titik A dan B titik Anda pada kurva akan selalu berada di bawah classifier yang lebih baik dan di atas yang lebih miskin dan tidak mungkin di atas keduanya! Pasti ada yang salah dengan diagram. Pada titik di mana 2 kurva ROC melewati algoritma pemilihan acak akan memiliki kinerja yang sama dengan kedua algoritma. Itu tidak akan di atasnya seperti yang digambarkan diagram itu.
sumber