Data Gaussian yang didistribusikan dalam dimensi tunggal memerlukan dua parameter untuk mengkarakterisasi (rata-rata, varians), dan rumor mengatakan bahwa sekitar 30 sampel yang dipilih secara acak biasanya cukup untuk memperkirakan parameter ini dengan kepercayaan yang cukup tinggi. Tetapi apa yang terjadi ketika jumlah dimensi bertambah?
Dalam dua dimensi (mis. Tinggi, berat), dibutuhkan 5 parameter untuk menentukan elips "paling pas". Dalam tiga dimensi, ini naik menjadi 9 parameter untuk menggambarkan ellipsoid, dan dalam 4-D dibutuhkan 14 parameter. Saya tertarik untuk mengetahui apakah jumlah sampel yang diperlukan untuk memperkirakan parameter-parameter ini juga naik pada tingkat yang sebanding, pada tingkat yang lebih lambat atau (harap tidak!) Pada tingkat yang lebih tinggi. Lebih baik lagi, jika ada aturan praktis yang diterima secara luas yang menunjukkan berapa banyak sampel yang diperlukan untuk mengkarakterisasi distribusi gaussian dalam sejumlah dimensi tertentu, itu akan baik untuk diketahui.
Untuk lebih tepatnya, misalkan kita ingin mendefinisikan batas "paling cocok" simetris yang berpusat pada titik rata-rata di mana kita dapat yakin bahwa 95% dari semua sampel akan jatuh. Saya ingin tahu berapa banyak sampel yang diperlukan untuk menemukan parameter untuk memperkirakan batas ini (interval dalam 1-D, elips dalam 2-D, dll) dengan kepercayaan yang cukup tinggi (> 95%), dan bagaimana angka itu bervariasi sesuai dengan jumlah dimensi bertambah.
Jawaban:
Jumlah data yang diperlukan untuk memperkirakan parameter dari distribusi Normal multivariat ke dalam akurasi yang ditentukan untuk kepercayaan yang diberikan tidak berbeda dengan dimensi, semua hal lainnya sama. Karenanya, Anda dapat menerapkan aturan praktis apa pun untuk dua dimensi pada masalah dimensi yang lebih tinggi tanpa perubahan apa pun.
Kenapa harus begitu? Hanya ada tiga jenis parameter: mean, varians, dan covariances. Kesalahan estimasi dalam rata-rata hanya bergantung pada varians dan jumlah data, . Jadi, ketika memiliki distribusi Normal multivariat dan memiliki varian , maka perkiraan hanya bergantung pada dan . Dari mana, untuk mencapai akurasi yang memadai dalam memperkirakan semua yang , kita hanya perlu mempertimbangkan jumlah data yang dibutuhkan untuk memiliki terbesar dari( X 1 , X 2 , ... , X d ) X i σ 2 i E [ X i ] σ i n E [ X i ] X i σ i d σ in (X1,X2,…,Xd) Xi σ2i E[Xi] σi n E[Xi] Xi σi . Karena itu, ketika kita merenungkan suksesi masalah estimasi untuk meningkatkan dimensi , yang perlu kita perhatikan adalah berapa banyak terbesar akan meningkat. Ketika parameter ini dibatasi di atas, kami menyimpulkan bahwa jumlah data yang dibutuhkan tidak tergantung pada dimensi.d σi
Pertimbangan serupa berlaku untuk memperkirakan varians dan covariances : jika sejumlah data cukup untuk memperkirakan satu kovarians (atau koefisien korelasi) dengan akurasi yang diinginkan, maka - asalkan distribusi normal yang mendasarinya memiliki kesamaan nilai parameter - jumlah data yang sama akan cukup untuk memperkirakan setiap kovarian atau koefisien korelasi. σ i jσ2i σij
Untuk mengilustrasikan, dan memberikan dukungan empiris untuk argumen ini, mari kita pelajari beberapa simulasi. Berikut ini menciptakan parameter untuk distribusi multinormal dimensi tertentu, menarik banyak set vektor independen, terdistribusi secara identik dari distribusi itu, memperkirakan parameter dari masing-masing sampel tersebut, dan merangkum hasil estimasi parameter tersebut dalam hal (1) rata-rata- -untuk menunjukkan bahwa mereka tidak bias (dan kodenya bekerja dengan benar - dan (2) standar deviasi mereka, yang mengukur keakuratan estimasi. iterasi simulasi, dengan standar deviasi yang digunakan untuk menentukan distribusi multinormal yang mendasarinya!dd perubahan, asalkan sebagai perubahan, kita tidak memperkenalkan lebih besar varians ke dalam distribusi multinormal mendasari itu sendiri.d
Ukuran varian distribusi yang mendasarinya dikendalikan dalam simulasi ini dengan membuat nilai eigen terbesar dari matriks kovarians sama dengan . Ini menjaga kerapatan probabilitas "awan" dalam batas seiring dengan meningkatnya dimensi, tidak peduli apa pun bentuk awan ini. Simulasi model perilaku sistem lainnya ketika dimensi meningkat dapat dibuat hanya dengan mengubah cara nilai eigen dihasilkan; satu contoh (menggunakan distribusi Gamma) ditunjukkan dikomentari dalam kode di bawah ini.1
R
Yang kami cari adalah memverifikasi bahwa standar deviasi estimasi parameter tidak berubah ketika dimensi berubah. Karena itu saya menunjukkan hasil untuk dua ekstrem, dan , menggunakan jumlah data yang sama ( ) dalam kedua kasus. Perlu dicatat bahwa jumlah parameter diperkirakan ketika , sama dengan , jauh melebihi jumlah vektor ( ) dan bahkan melebihi angka individu ( ) di seluruh dataset.d = 2 d = 60 30 d = 60 1890 30 30 ∗ 60 = 1800d d=2 d=60 30 d=60 1890 30 30∗60=1800
Mari kita mulai dengan dua dimensi, . Ada lima parameter: dua varians (dengan standar deviasi dan dalam simulasi ini), sebuah kovarians (SD = ), dan dua rata-rata (SD = dan ). Dengan simulasi yang berbeda (dapat diperoleh dengan mengubah nilai awal dari benih acak) ini akan sedikit bervariasi, tetapi mereka akan secara konsisten memiliki ukuran yang sebanding ketika ukuran sampel . Misalnya, dalam simulasi berikutnya SD adalah , , , , dan0,097 0,182 0,126 0,11 0,15 n = 30 0,014 0,263 0,043 0,04 0,18d=2 0.097 0.182 0.126 0.11 0.15 n=30 0.014 0.263 0.043 0.04 0.18 , masing-masing: mereka semua berubah tetapi urutan besarnya sebanding.
(Pernyataan-pernyataan ini dapat didukung secara teoritis tetapi intinya di sini adalah untuk memberikan demonstrasi yang murni empiris.)
Sekarang kita beralih ke , menjaga ukuran sampel pada . Secara khusus, ini berarti setiap sampel terdiri dari vektor, masing-masing memiliki komponen. Daripada mendaftar semua standar deviasi, mari kita lihat gambar mereka menggunakan histogram untuk menggambarkan rentang mereka.n = 30 30 60 1890d=60 n=30 30 60 1890
Plot sebar di baris atas membandingkan parameter aktualσ μ 104
sigma
( ) dan ( ) dengan perkiraan rata-rata yang dibuat selama iterasi dalam simulasi ini. Garis referensi abu-abu menandai lokus kesetaraan sempurna: jelas perkiraan berfungsi sebagaimana dimaksud dan tidak bias.μ 10 4mu
Histogram muncul di baris bawah, secara terpisah untuk semua entri dalam matriks kovarians (kiri) dan untuk sarana (kanan). SD dari masing-masing varian cenderung terletak antara dan sedangkan SD kovarian antara komponen yang terpisah cenderung berada di antara dan : tepat dalam kisaran yang dicapai ketika . Demikian pula, SD dari estimasi rata-rata cenderung terletak antara dan , yang sebanding dengan apa yang terlihat ketika . Tentu saja tidak ada indikasi bahwa SD telah meningkat sebagai0.08 0.12 0.04 0.08 d=2 0.08 0.13 d=2 d naik dari menjadi .2 60
Kode berikut.
sumber
Beberapa numerik singkat memberikan distribusi kesalahan berikut untuk kesesuaian 30 sampel yang dibuat dari distribusi normal standar kemudian cocok untuk Gaussian univariat.
Kuartil ditunjukkan. Diasumsikan bahwa tingkat variasi ini diinginkan dalam kasus multi-dimensi.
Saya tidak punya waktu untuk mengalahkan MatLab untuk mendapatkan hasil total, jadi saya akan membagikan "aturan praktis" saya. 30 diberikan sebagai patokan, atau heuristik sehingga diasumsikan bahwa heuristik tidak dapat diterima.
Heuristik saya adalah menggunakan segitiga Pascal dikalikan dengan kasus univariat.
Jika saya menggunakan data 2d maka saya pergi ke baris ke-2 dan menjumlahkannya untuk mendapatkan 2x jumlah sampel, atau 60 sampel. Untuk data 3d saya pergi ke baris ke-3 dan menjumlahkannya untuk mendapatkan 4x jumlah sampel atau 120 sampel. Untuk data 5d saya pergi ke baris ke-5 dan jumlah itu untuk mendapatkan 16x jumlah sampel, atau 480 sampel.
Semoga berhasil.
EDIT:
Itu intuitif, tetapi semuanya harus dipertahankan dalam matematika. Saya tidak bisa hanya mengambil lompatan dari formulasi bentuk polinomial dari Elemen Hingga dengan pengalaman untuk mendapatkan rata-rata.
Persamaan untuk jumlah baris dari segitiga Pascal adalah .kth 2k
Ide saya untuk pendekatan di sini adalah untuk menyamakan AIC dari distribusi dimensi yang lebih tinggi dengan lebih banyak sampel ke distribusi dimensi yang dikurangi dengan sampel yang lebih sedikit.
Kriteria Informasi Akaike (AIC) didefinisikan sebagai mana adalah jumlah sisa kuadrat, adalah jumlah sampel, dan adalah jumlah parameter untuk model .AIC=nlog(RSSn)+2∗k RSS n k
Untuk setiap dimensi yang kita hilangkan ini berarti rata-rata kehilangan satu baris dan kovarians kehilangan satu baris dan satu kolom. Kita dapat menyatakan ini sebagai
dari
Dengan asumsi kesalahan per titik sampel adalah konstan, maka jumlah residu kuadrat dengan jumlah sampel, dan istilah dalam logaritma tetap konstan. Perbedaan dalam jumlah sampel menjadi konstanta penskalaan.
jadi kita punya:
pemecahan untuk peningkatan sampel dengan dimensi memberi:
Jadi apa fungsi penskalaan? Mari kita asumsikan bahwa untuk Gaussian multivariat 2 dimensi, jumlah sampel yang dibutuhkan adalah 15 per parameter. Ada 2 cara dan 4 elemen kovarian karena itu 6 parameter atau 90 sampel. Perbedaannya adalah 60 sampel, nilai .A−1=5
Pada titik ini saya akan mengatakan bahwa heuristik mulai sedikit rendah tetapi akhirnya menjadi sekitar 2x jumlah sampel yang diperlukan. Kisaran utilitas terbaiknya, menurut pendapat pribadi saya, adalah sekitar 4 dimensi atau lebih.
EDIT:
Jadi saya sudah membaca jawaban @whuber dan saya suka. Ini empiris, dan dalam hal ini yang otoritatif. Saya memilih jawabannya.
Berikut ini saya mencoba untuk mendiskusikan dan berharap untuk dapat menggunakan lebih dari ~ 300 karakter, dan saya berharap dapat menanamkan gambar. Karena itu saya membahas dalam batas-batas jawaban. Saya harap ini baik-baik saja.
Saya pada titik ini tidak yakin bahwa penggunaan AIC untuk ini, atau bagaimana ukuran sampel dan ukuran parameter digunakan tidak benar.
Langkah selanjutnya:
Komentar dan saran diterima.
sumber