Secara intuitif, mendapatkan P / R / F1 tinggi pada set data kecil, atau pada dataset yang sangat seragam / dapat diprediksi mungkin lebih mudah daripada mendapatkan P / R / F1 tinggi pada dataset yang lebih besar atau lebih kacau. Oleh karena itu, peningkatan P / R / F1 pada dataset yang lebih besar dan lebih kacau lebih signifikan.
Mengikuti intuisi ini, Anda mungkin perlu akses ke output metode "kotak hitam" untuk mengukur perbedaan dalam distribusi hasil, sambil mempertimbangkan ukuran dan variasi dalam set itu. P / R / F1 saja mungkin informasi terlalu sedikit.
Pengujian signifikansi dalam pengaturan ini biasanya dilakukan dengan membentuk hipotesis nol (kedua algoritma menghasilkan output yang selalu sama) dan kemudian menghitung probabilitas mengamati perbedaan dalam output yang Anda amati jika algoritma itu memang sama. Jika probabilitasnya kurang dari 0,05 misalnya, Anda menolak hipotesis nol dan menyimpulkan bahwa peningkatannya signifikan.
Makalah ini memiliki diskusi yang relevan:
http://www.aclweb.org/anthology/C00-2137