Memperkirakan dimensi kumpulan data

9

Seorang kolega dalam statistik terapan mengirimi saya ini:

"Saya bertanya-tanya apakah Anda tahu cara untuk mengetahui dimensi sebenarnya dari suatu fungsi. Misalnya, lingkaran adalah fungsi satu dimensi dalam ruang dua dimensi. Jika saya tidak tahu cara menggambar, apakah ada statistik yang dapat saya hitung yang memberi tahu saya bahwa itu adalah objek satu dimensi dalam ruang dua dimensi? Saya harus melakukan ini dalam situasi dimensi tinggi sehingga tidak dapat menggambar. Bantuan apa pun akan sangat dihargai. "

Gagasan dimensi di sini jelas tidak jelas. Maksud saya, saya dapat menjalankan kurva melalui kumpulan titik hingga dalam ruang dimensi tinggi, dan mengatakan bahwa data saya adalah satu dimensi. Namun, tergantung pada konfigurasi, mungkin ada cara yang lebih mudah atau lebih efisien untuk menggambarkan data sebagai set dimensi yang lebih tinggi.

Masalah seperti itu pasti telah dipertimbangkan dalam literatur statistik, tetapi saya tidak terbiasa dengannya. Adakah petunjuk atau saran? Terima kasih!


sumber

Jawaban:

7

Lihat

Levina, E. dan Bickel, P. (2004) "Estimasi Kemungkinan Maksimum Dimensi Intrinsik." Kemajuan dalam Sistem Pemrosesan Informasi Saraf Tiruan 17

http://books.nips.cc/papers/files/nips17/NIPS2004_0094.pdf

Gagasan mereka adalah jika data diambil dari kepadatan yang halus Rm tertanam di Rp dengan m<p, lalu secara lokal jumlah titik data dalam bola jari-jari kecil tberperilaku kasar seperti proses poisson. Tingkat proses terkait dengan volume bola yang pada gilirannya terkait dengan dimensi intrinsik.

vqv
sumber
1
+1 Temuan bagus! Makalah ini juga memiliki diskusi singkat tentang pendekatan PCA (serta beberapa metode lain).
whuber
Terima kasih banyak, saya pikir inilah yang paling dekat dengan apa yang dicari rekan saya.
7

Analisis Komponen utama dari lokal data titik yang baik keberangkatan. Kita harus berhati-hati untuk membedakan dimensi lokal (intrinsik) dari dimensi global (ekstrinsik). Dalam contoh titik pada lingkaran, dimensi lokal adalah 1, tetapi keseluruhan titik dalam lingkaran terletak pada ruang 2D. Untuk menerapkan PCA dalam hal ini, triknya adalah melokalisasi : pilih satu titik data dan ekstrak hanya yang dekat dengannya. Terapkan PCA ke subset ini. Jumlah nilai eigen besar akan menyarankan dimensi intrinsik. Pengulangan ini pada titik data lain akan menunjukkan apakah data tersebut menunjukkan dimensi intrinsik yang konstan di seluruh. Jika demikian, masing-masing hasil PCA menyediakan atlas parsial bermacam-macam.

whuber
sumber
Terima kasih banyak atas jawaban Anda. Saya akan meneruskannya ke rekan saya.
3

Saya tidak yakin tentang bagian 'domain fungsi', tetapi Dimensi Hausdorff tampaknya menjawab pertanyaan ini. Ini memiliki sifat aneh menyetujui dengan contoh sederhana ( misalnya lingkaran memiliki Dimensi 1 Hausdorff), tetapi memberikan hasil non-integral untuk beberapa set ('fraktal').

shabbychef
sumber
1
Saya bahkan akan mengatakan dimensi penghitungan kotak untuk statistik yang lebih praktis.
Raskolnikov