Apa saja penggunaan matriks padat dalam statistik?

8

OK, saya bukan ahli statistik (bahkan tidak dekat). Saya seorang peneliti Komputasi Kinerja Tinggi dan saya ingin beberapa kasus uji untuk Matriks Padat Besar (Lebih dari 5000x5000). Saya telah bertanya di sini dan beberapa tempat lain tetapi tidak pernah mendapat jawaban dari ahli statistik. Saya sangat tertarik untuk mencoba kode saya pada masalah statistik. Bisakah Anda menyarankan aplikasi dalam statistik di mana kita perlu menyelesaikan untuk x di mana padat dan persegi.Ax=bA

Saya akan sangat menghargai itu jika Anda juga bisa memberi saya aplikasi di mana A tidak memiliki struktur yaitu Tidak ada simetri, Tidak Ada Kepastian-Positif dll. Tapi itu tidak sepenuhnya diperlukan. Matriks padat besar dengan aplikasi yang cukup sudah mencukupi.

Maaf jika pertanyaan ini tampak terbuka atau tidak jelas tetapi saya tidak dapat membayangkan tempat yang lebih baik untuk mengajukan pertanyaan ini.

Komunitas
sumber
Contoh yang cukup mendasar yang muncul di benak saya adalah paket lme4 R untuk pemodelan efek campuran, yang bergantung pada matriks desain jarang untuk menangani banyak efek acak. Namun, saya merasa Anda lebih tertarik pada input yang jarang, apakah saya benar?
chl
Tidak, saya ingin matriks A. Padat. Idealnya, itu harus padat hampir tanpa simetri
Ketika Anda mengatakan 'selesaikan untuk padat ', maksud Anda 'selesaikan untuk , di mana padat'? Ax=bAAx=bxA
onestop
Iya. Maaf untuk jalan pintas yang buruk. Itu maksud saya. Misalnya, A = rand (5000.5000); b = rand (5000,1); memecahkan (A, x, b); Asumsikan rand memberikan distribusi yang seragam antara 1 dan 2
Ada generator masalah regresi, misalnya di scikit-learn samples_generator , dan pasti ada yang lain. Tapi, benar kan, biasa cukup cepat dengan Lapack dan sejenisnya; ada saya pikir lebih dari pasar untuk metode yang kuat, sistem besar / jarang / tidak ditentukan, ... Pokoknya Anda mungkin juga bertanya metaoptimize . Ax=b
denis

Jawaban:

0

Ini besar, meskipun saya tidak yakin apakah itu cukup padat untuk Anda. Dari http://www.grouplens.org/node/73

  • MovieLens 100k - Terdiri dari 100.000 peringkat dari 1000 pengguna pada 1700 film.
  • MovieLens 1M - Terdiri dari 1 juta peringkat dari 6000 pengguna di 4000 film.
  • MovieLens 10M - Terdiri dari 10 juta peringkat dan 100.000 aplikasi tag yang diterapkan pada 10.000 film oleh 72.000 pengguna.
Jack Tanner
sumber
1. Kepadatan adalah yang terpenting dan saya ragu bahwa matriks yang terbentuk akan padat. 2. Bagaimana ini relevan dengan Ax = b? Saya membutuhkan aplikasi statistik bukan statistik besar acak.
Aplikasi statistik adalah penyaringan kolaboratif - diberi matriks pengguna x film, memprediksi peringkat yang akan diberikan pengguna ke film yang belum dilihatnya. Pikirkan rekomendasi produk gaya Amazon.com. Matriks besar dari preferensi barang-pengguna semacam itu cenderung jarang, tetapi Anda dapat memotong hal-hal yang sangat panjang.
Jack Tanner
"Matriks besar dari preferensi pengguna-item seperti itu cenderung jarang" Kepadatan adalah yang paling penting. Saya tidak yakin apa yang berekor panjang tapi tetap saja, saya ragu itu akan mengarah ke matriks padat penuh yang tidak terstruktur.
0

Saya tidak yakin aplikasi yang Anda cari masuk akal dalam konteks statistik. Yang Anda minati adalah analisis regresi linier. adalah matriks pengukuran di mana setiap baris adalah pengukuran tunggal variabel . Dua aplikasi potensial dengan kemungkinan muncul di benak saya. 1) analisis microarray DNA dan 2) analisis data MRI fungsional. Bagaimanapun, akan sulit untuk menemukan kumpulan data dengan orang (pengukuran) di dalamnya.ARm×nmnn>5000m>5000

Namun, persyaratan Anda tentang membatasi pengertian analisis semacam itu dengan cara prinsip. Setelah semua statistik tentang menyimpulkan beberapa yang mendasarinya, katakanlah, kebenaran dari data berisik , yaitu, model statistik yang tersirat untuk pertanyaan Anda adalah mana adalah pengukuran tunggal, adalah parameter yang diasumsikan yang Anda coba untuk menemukan dengan analisis Anda dan adalah beberapa bentuk kebisingan. Sekarang Anda mengatakan bahwa perlu dapat dibalik, yaitu, harus peringkat penuh, yaitu, pengukuran tidak harus diulang, yaitu, Anda hanya memiliki satu, pengamatan rusak kebisingan perm=n

b=aTx+ϵ
axϵAabadan itu adalah situasi yang sangat buruk untuk mencoba memperkirakan parameter , terutama, dalam kasus di mana jumlah parameter melebihi (atau sama dengan) jumlah pengukuran. Maka model Anda cukup sesuai dengan noise dalam data yang disebut overfitting.x
sbitzer
sumber