Ada banyak referensi dalam literatur statistik untuk " data fungsional " (yaitu data yang kurva), dan secara paralel, " data dimensi tinggi " (yaitu ketika data vektor vektor dimensi tinggi). Pertanyaan saya adalah tentang perbedaan antara kedua tipe data tersebut.
Ketika berbicara tentang metodologi statistik terapan yang berlaku dalam kasus 1 dapat dipahami sebagai pengubahan ulang metodologi dari kasus 2 melalui proyeksi menjadi subruang dimensi terbatas dari ruang fungsi, dapat berupa polinom, splines, wavelet, Fourier, ... dan akan menerjemahkan masalah fungsional menjadi masalah vektorial dimensi terbatas (karena dalam matematika terapan semuanya menjadi terbatas pada titik tertentu).
Pertanyaan saya adalah: dapatkah kita mengatakan bahwa prosedur statistik apa pun yang berlaku untuk data fungsional juga dapat diterapkan (hampir secara langsung) ke data dimensi tinggi dan bahwa prosedur apa pun yang didedikasikan untuk data dimensi tinggi dapat (hampir langsung) diterapkan pada data fungsional?
Jika jawabannya tidak, bisakah Anda menggambarkan?
EDIT / PEMBARUAN dengan bantuan jawaban Simon Byrne:
- sparsity (asumsi S-jarang, bola dan lemah bola untuk ) digunakan sebagai asumsi struktural dalam analisis statistik dimensi tinggi.
- "kehalusan" digunakan sebagai asumsi struktural dalam analisis data fungsional.
Di sisi lain, invers Fourier transform dan inverse wavelet transform mengubah sparcity menjadi smooth, dan smoothness ditransformasikan menjadi sparcity oleh wavelet dan fourier transform. Apakah ini membuat perbedaan kritis yang disebutkan oleh Simon tidak terlalu kritis?
sumber
Jawaban:
Data Fungsional seringkali melibatkan pertanyaan yang berbeda. Saya telah membaca Analisis Data Fungsional, Ramsey dan Silverman, dan mereka menghabiskan banyak waktu membahas pendaftaran kurva, fungsi melengkung, dan memperkirakan turunan kurva. Pertanyaan-pertanyaan ini cenderung sangat berbeda dari pertanyaan yang diajukan oleh orang-orang yang tertarik untuk mempelajari data dimensi tinggi.
sumber
Iya dan tidak. Pada tingkat teoritis, kedua kasus dapat menggunakan teknik dan kerangka kerja yang sama (contoh yang sangat bagus adalah regresi proses Gaussian).
Perbedaan kritis adalah asumsi yang digunakan untuk mencegah overfitting (regularisasi):
Dalam kasus fungsional, biasanya ada beberapa asumsi kelancaran, dengan kata lain, nilai-nilai yang terjadi berdekatan satu sama lain harus serupa dalam beberapa cara yang sistematis. Ini mengarah pada penggunaan teknik seperti splines, loess, proses Gaussian, dll.
Dalam kasus dimensi tinggi, biasanya ada asumsi sparsity: yaitu, hanya sebagian dari dimensi yang akan memiliki sinyal. Ini mengarah pada teknik yang bertujuan mengidentifikasi dimensi-dimensi tersebut (Lasso, LARS, prior slab-and-spike, dll.)
MEMPERBARUI:
Saya tidak benar-benar berpikir tentang metode wavelet / Fourier, tapi ya, teknik thresholding yang digunakan untuk metode tersebut bertujuan untuk sparsity di ruang yang diproyeksikan. Sebaliknya, beberapa teknik dimensi tinggi mengasumsikan proyeksi ke manifold dimensi rendah (misalnya analisis komponen utama), yang merupakan jenis asumsi kelancaran.
sumber