Saya bertanya-tanya mengapa kita menggunakan asumsi Gaussian saat memodelkan kesalahan. Dalam kursus ML Stanford , Prof. Ng menjelaskannya pada dasarnya dalam dua cara:
- Secara matematis nyaman. (Ini terkait dengan fitting Least Squares dan mudah diselesaikan dengan pseudoinverse)
- Karena Teorema Limit Sentral, kita dapat berasumsi bahwa ada banyak fakta mendasar yang mempengaruhi proses dan jumlah kesalahan individu ini akan cenderung berperilaku seperti dalam distribusi normal rata-rata nol. Dalam praktiknya, sepertinya begitu.
Sebenarnya saya tertarik pada bagian kedua. Teorema Limit Pusat berfungsi untuk sampel iid sejauh yang saya tahu, tetapi kami tidak dapat menjamin sampel yang mendasarinya adalah iid.
Apakah Anda punya ide tentang asumsi Gaussian tentang kesalahan?
regression
normality-assumption
pac-learning
petrichor
sumber
sumber
Jawaban:
Saya pikir Anda pada dasarnya telah memukul paku di kepala dalam pertanyaan, tetapi saya akan melihat apakah saya bisa menambahkan sesuatu. Saya akan menjawab ini dengan sedikit jalan memutar ...
Bidang Statistik Kuat memeriksa pertanyaan tentang apa yang harus dilakukan ketika asumsi Gaussian gagal (dalam arti bahwa ada pencilan):
Ini telah diterapkan dalam ML juga, misalnya di Mika el al. (2001) Suatu Pendekatan Pemrograman Matematika untuk Algoritma Kernel Fisher , mereka menggambarkan bagaimana Huber's Robust Loss dapat digunakan dengan KDFA (bersama dengan fungsi-fungsi kerugian lainnya). Tentu saja ini adalah kehilangan klasifikasi, tetapi KFDA terkait erat dengan Mesin Vektor Relevansi (lihat bagian 4 dari makalah Mika).
Seperti tersirat dalam pertanyaan, ada hubungan dekat antara fungsi kerugian dan model kesalahan Bayesian (lihat di sini untuk diskusi).
Namun cenderung menjadi kasus bahwa segera setelah Anda mulai menggabungkan fungsi kerugian "funky", optimisasi menjadi sulit (perhatikan bahwa ini juga terjadi di dunia Bayesian). Jadi dalam banyak kasus orang menggunakan fungsi kehilangan standar yang mudah dioptimalkan, dan bukannya melakukan pra-pemrosesan tambahan untuk memastikan bahwa data sesuai dengan model.
Poin lain yang Anda sebutkan adalah bahwa CLT hanya berlaku untuk sampel yang IID. Ini benar, tetapi kemudian asumsi (dan analisis yang menyertainya) dari sebagian besar algoritma adalah sama. Saat Anda mulai melihat data non-IID, banyak hal menjadi semakin rumit. Salah satu contoh adalah jika ada ketergantungan temporal, dalam hal ini biasanya pendekatannya adalah dengan mengasumsikan bahwa ketergantungan hanya menjangkau jendela tertentu, dan sampel karenanya dapat dianggap kira-kira IID di luar jendela ini (lihat misalnya kertas PAC Chromatic yang brilian namun tangguh ini) -Bayi Batas untuk Data Non-IID: Aplikasi untuk Pemeringkatan dan Stasioner Proses Pencampuran β ), setelah itu analisis normal dapat diterapkan.
Jadi, ya, sebagian turun ke kenyamanan, dan sebagian karena di dunia nyata, sebagian besar kesalahan memang terlihat (kira-kira) Gaussian. Seseorang tentu saja harus selalu berhati-hati ketika melihat masalah baru untuk memastikan bahwa anggapan tersebut tidak dilanggar.
sumber