Untuk sementara, sepertinya Fisher Kernels mungkin menjadi populer, karena mereka tampaknya menjadi cara untuk membangun kernel dari model probabilistik. Namun, saya jarang melihat mereka digunakan dalam praktik, dan saya memiliki otoritas yang baik sehingga mereka cenderung tidak bekerja dengan baik. Mereka mengandalkan perhitungan Informasi Fisher - mengutip Wikipedia:
informasi Fisher adalah negatif dari ekspektasi turunan kedua sehubungan dengan θ dari logaritma natural f. Informasi dapat dilihat sebagai ukuran dari "kelengkungan" dari kurva dukungan dekat perkiraan kemungkinan maksimum (MLE) dari θ.
Sejauh yang saya tahu ini berarti bahwa fungsi kernel antara dua titik adalah kemudian jarak di sepanjang permukaan melengkung ini - apakah saya benar?
Namun ini bisa menjadi masalah untuk digunakan dalam metode kernel, seperti
- MLE mungkin merupakan perkiraan yang sangat buruk untuk model yang diberikan
- Lengkungan kurva dukungan di sekitar MLE mungkin tidak ada gunanya untuk membedakan antara instance, misalnya jika permukaan Likelihood sangat memuncak
- Ini sepertinya membuang banyak informasi tentang model
Jika ini masalahnya, apakah ada cara yang lebih modern untuk membangun kernel dari metode probabilistik? Misalnya, dapatkah kita menggunakan set penahan untuk menggunakan perkiraan MAP dengan cara yang sama? Apa pengertian lain tentang jarak atau kesamaan dari metode probabilistik yang dapat bekerja untuk membangun fungsi kernel (valid)?