Mengapa kita menganggap bahwa kesalahan terdistribusi secara normal?

17

Saya bertanya-tanya mengapa kita menggunakan asumsi Gaussian saat memodelkan kesalahan. Dalam kursus ML Stanford , Prof. Ng menjelaskannya pada dasarnya dalam dua cara:

  1. Secara matematis nyaman. (Ini terkait dengan fitting Least Squares dan mudah diselesaikan dengan pseudoinverse)
  2. Karena Teorema Limit Sentral, kita dapat berasumsi bahwa ada banyak fakta mendasar yang mempengaruhi proses dan jumlah kesalahan individu ini akan cenderung berperilaku seperti dalam distribusi normal rata-rata nol. Dalam praktiknya, sepertinya begitu.

Sebenarnya saya tertarik pada bagian kedua. Teorema Limit Pusat berfungsi untuk sampel iid sejauh yang saya tahu, tetapi kami tidak dapat menjamin sampel yang mendasarinya adalah iid.

Apakah Anda punya ide tentang asumsi Gaussian tentang kesalahan?

petrichor
sumber
Pengaturan apa yang sedang Anda bicarakan? Klasifikasi, regresi, atau sesuatu yang lebih umum?
tdc
Saya mengajukan pertanyaan untuk kasus umum. Sebagian besar cerita dimulai dengan asumsi kesalahan Gaussian. Tapi, secara pribadi, minat saya sendiri adalah faktorisasi matriks dan solusi model linier (katakanlah regresi).
petrichor

Jawaban:

9

Saya pikir Anda pada dasarnya telah memukul paku di kepala dalam pertanyaan, tetapi saya akan melihat apakah saya bisa menambahkan sesuatu. Saya akan menjawab ini dengan sedikit jalan memutar ...

Bidang Statistik Kuat memeriksa pertanyaan tentang apa yang harus dilakukan ketika asumsi Gaussian gagal (dalam arti bahwa ada pencilan):

sering diasumsikan bahwa kesalahan data terdistribusi secara normal, setidaknya kira-kira, atau bahwa teorema batas pusat dapat diandalkan untuk menghasilkan estimasi yang terdistribusi normal. Sayangnya, ketika ada pencilan dalam data, metode klasik seringkali memiliki kinerja yang sangat buruk

Ini telah diterapkan dalam ML juga, misalnya di Mika el al. (2001) Suatu Pendekatan Pemrograman Matematika untuk Algoritma Kernel Fisher , mereka menggambarkan bagaimana Huber's Robust Loss dapat digunakan dengan KDFA (bersama dengan fungsi-fungsi kerugian lainnya). Tentu saja ini adalah kehilangan klasifikasi, tetapi KFDA terkait erat dengan Mesin Vektor Relevansi (lihat bagian 4 dari makalah Mika).

Seperti tersirat dalam pertanyaan, ada hubungan dekat antara fungsi kerugian dan model kesalahan Bayesian (lihat di sini untuk diskusi).

Namun cenderung menjadi kasus bahwa segera setelah Anda mulai menggabungkan fungsi kerugian "funky", optimisasi menjadi sulit (perhatikan bahwa ini juga terjadi di dunia Bayesian). Jadi dalam banyak kasus orang menggunakan fungsi kehilangan standar yang mudah dioptimalkan, dan bukannya melakukan pra-pemrosesan tambahan untuk memastikan bahwa data sesuai dengan model.

Poin lain yang Anda sebutkan adalah bahwa CLT hanya berlaku untuk sampel yang IID. Ini benar, tetapi kemudian asumsi (dan analisis yang menyertainya) dari sebagian besar algoritma adalah sama. Saat Anda mulai melihat data non-IID, banyak hal menjadi semakin rumit. Salah satu contoh adalah jika ada ketergantungan temporal, dalam hal ini biasanya pendekatannya adalah dengan mengasumsikan bahwa ketergantungan hanya menjangkau jendela tertentu, dan sampel karenanya dapat dianggap kira-kira IID di luar jendela ini (lihat misalnya kertas PAC Chromatic yang brilian namun tangguh ini) -Bayi Batas untuk Data Non-IID: Aplikasi untuk Pemeringkatan dan Stasioner Proses Pencampuran β ), setelah itu analisis normal dapat diterapkan.

Jadi, ya, sebagian turun ke kenyamanan, dan sebagian karena di dunia nyata, sebagian besar kesalahan memang terlihat (kira-kira) Gaussian. Seseorang tentu saja harus selalu berhati-hati ketika melihat masalah baru untuk memastikan bahwa anggapan tersebut tidak dilanggar.

tdc
sumber
1
+1 Terima kasih banyak terutama karena menyebutkan tentang statistik yang kuat dan tidak kuat. Saya mengamati bahwa rata-rata dan rata-rata alpha bekerja biasanya lebih baik daripada rata-rata dalam praktik tetapi saya tidak tahu teori di balik mereka.
petrichor
3
Item kenyamanan lain yang terkait dengan data yang didistribusikan secara normal adalah 0 korelasi yang menyiratkan independensi.
AdamO
3
Komentar tentang IID-ness tidak tepat. Ada (beberapa) Teorema Limit Sentral yang sangat umum yang berlaku ketika hasilnya independen tetapi tidak terdistribusi secara identik; lihat misalnya CLT Lindeberg. Ada juga hasil CLT yang bahkan tidak membutuhkan kemerdekaan; mereka dapat muncul dari pengamatan yang dapat dipertukarkan, misalnya.
tamu