Saya tidak tahu jawaban standar untuk ini, tetapi saya memikirkannya beberapa waktu lalu dan saya punya beberapa ide untuk dibagikan.
Ketika Anda memiliki satu matriks kebingungan, Anda memiliki lebih atau kurang gambaran tentang bagaimana Anda model klasifikasi membingungkan kelas (salah klasifikasi). Ketika Anda mengulangi tes klasifikasi Anda akhirnya akan memiliki beberapa matriks kebingungan. Pertanyaannya adalah bagaimana cara mendapatkan matriks kebingungan agregat yang bermakna. Jawabannya tergantung pada apa arti bermakna (pun intended). Saya pikir tidak ada versi tunggal yang bermakna.
Salah satu caranya adalah dengan mengikuti ide kasar dari beberapa pengujian. Secara umum, Anda menguji sesuatu beberapa kali untuk mendapatkan hasil yang lebih akurat. Sebagai prinsip umum, seseorang dapat beralasan bahwa rata-rata pada hasil beberapa pengujian mengurangi varians estimasi, sehingga sebagai konsekuensinya, ia meningkatkan ketepatan estimasi. Anda dapat melanjutkan dengan cara ini, tentu saja, dengan menjumlahkan posisi dengan posisi dan kemudian membaginya dengan jumlah tes. Anda dapat melangkah lebih jauh dan alih-alih hanya memperkirakan nilai untuk setiap sel dari matriks kebingungan, Anda juga dapat menghitung beberapa interval kepercayaan, nilai-t, dan sebagainya. Ini tidak masalah dari sudut pandang saya. Tapi itu hanya menceritakan satu sisi cerita.
Sisi lain dari cerita yang mungkin diselidiki adalah seberapa stabil hasilnya untuk kejadian yang sama. Sebagai contoh bahwa saya akan mengambil contoh ekstrem. Misalkan Anda memiliki model klasifikasi untuk 3 kelas. Misalkan kelas-kelas ini dalam proporsi yang sama. Jika model Anda dapat memprediksi satu kelas dengan sempurna dan 2 kelas lainnya dengan kinerja acak, Anda akan mendapatkan 0,33 + 0,166 + 0,166 = 0,66 rasio kesalahan klasifikasi. Ini mungkin tampak bagus, tetapi bahkan jika Anda melihat pada matriks kebingungan tunggal Anda tidak akan tahu bahwa kinerja Anda pada 2 kelas terakhir sangat bervariasi. Berbagai tes dapat membantu. Tetapi rata-rata matriks kebingungan akan mengungkapkan ini? Keyakinan saya tidak. Rata-rata akan memberikan hasil yang sama kurang lebih, dan melakukan beberapa tes hanya akan mengurangi varians estimasi.
Jadi cara lain untuk menyusun matriks kebingungan akan lebih baik melibatkan kepadatan prediksi untuk setiap contoh. Seseorang dapat membangun kepadatan ini dengan menghitung untuk setiap contoh, berapa kali diprediksi kelas yang diberikan. Setelah normalisasi, Anda akan memiliki untuk setiap contoh kepadatan prediksi bukan label prediksi tunggal. Anda dapat melihat bahwa label prediksi tunggal mirip dengan kepadatan yang terdegenerasi di mana Anda memiliki probabilitas 1 untuk kelas prediksi dan 0 untuk kelas lainnya untuk setiap instance terpisah. Sekarang memiliki kepadatan ini orang dapat membangun matriks kebingungan dengan menambahkan probabilitas dari setiap instance dan memprediksi kelas ke sel yang sesuai dari matriks kebingungan agregat.
Orang bisa berpendapat bahwa ini akan memberikan hasil yang sama seperti metode sebelumnya. Namun saya berpikir bahwa ini mungkin terjadi kadang-kadang, sering ketika model memiliki varians rendah, metode kedua kurang terpengaruh oleh bagaimana sampel dari tes diambil, dan dengan demikian lebih stabil dan lebih dekat dengan kenyataan.
Juga metode kedua dapat diubah untuk mendapatkan metode ketiga, di mana orang dapat menetapkan prediksi label dengan kepadatan tertinggi dari prediksi contoh yang diberikan.
Saya tidak menerapkan hal-hal itu tetapi saya berencana untuk belajar lebih lanjut karena saya percaya mungkin perlu menghabiskan waktu.
Ada beberapa cara untuk mencapai "master confusion matrix" Anda.
Jumlahkan semua matriks kebingungan bersama: Seperti yang Anda sarankan, menjumlahkan ini menghasilkan matriks kebingungan. Masalah dengan ini adalah Anda tidak dapat menafsirkan total.
Rata-rata entri. Metode ini sama dengan nomor satu, tetapi Anda membagi setiap entri dengan jumlah percobaan (~ 400 dalam kasus Anda). Ini akan menjadi metode pilihan saya karena dengan begitu Anda dapat benar-benar menerjemahkan setiap kategori menjadi (rata-rata) + - (pengukuran kesalahan) dan benar-benar melihat kategori mana yang paling tidak stabil atau stabil. Hati-hati dengan menafsirkan 'pengukuran kesalahan' ini.
Laporkan pengukuran spesifik masalah nomor kebingungan. Misalnya, jika nomor Anda memiliki outlier, median lebih disukai daripada cara.
Ada statistik lain yang memungkinkan untuk dilaporkan juga. Anda dapat mengulangi metode untuk melacak klasifikasi individu. Maka kita dapat mengatakan statistik penting lainnya seperti '% klasifikasi yang tetap sama dan akurat', dll ...
sumber