Metode statistik online yang dapat diskalakan

12

Ini terinspirasi oleh regresi linier online yang efisien , yang menurut saya sangat menarik. Apakah ada teks atau sumber daya yang dikhususkan untuk komputasi statistik skala besar, di mana komputasi dengan dataset terlalu besar untuk muat dalam memori utama, dan mungkin terlalu beragam untuk dijadikan subsampel secara efektif. Misalnya, apakah mungkin untuk menyesuaikan model efek campuran dalam mode online? Adakah yang melihat efek menggantikan teknik optimasi urutan 2 standar untuk MLE dengan teknik urutan 1 SGD?

grg s
sumber
Menurut saya jawabannya adalah ya". Tentu saja, ada sedikit masalah definisi di sini. Apa yang satu orang anggap sebagai "skala besar" kadang-kadang sangat berbeda dari yang lain. Kesan saya adalah bahwa, misalnya, banyak peneliti akademis menganggap dataset Netflix "skala besar", sementara di banyak pengaturan industri itu akan dianggap "lemah". Mengenai teknik estimasi, biasanya dengan data yang sangat besar, efisiensi komputasi mengalahkan efisiensi statistik. Misalnya, metode momen akan, dalam banyak kasus, melakukan (hampir) serta MLE dalam pengaturan ini dan dapat lebih mudah untuk dihitung.
kardinal
2
Anda mungkin juga melihat Workshop tentang Algoritma untuk Kumpulan Data Massive Modern (MMDS). Ini masih muda, tetapi menarik seperangkat pembicara yang cukup mengesankan di antarmuka statistik, teknik dan ilmu komputer serta antara akademisi dan industri.
kardinal
Ini hanya beberapa dekade karena sebagian besar dataset terlalu besar untuk muat dalam memori utama, dan pilihan algoritma yang digunakan dalam program statistik awal mencerminkan hal itu. Program seperti itu tidak memiliki fasilitas untuk model efek campuran.
onestop
Apakah Anda dapat menghitung statistik untuk kumpulan data? katakan misalnya jumlah, atau rata-rata item data?
probabilityislogic

Jawaban:

5

Anda mungkin melihat ke dalam proyek Vowpal Wabbit , dari John Langford di Yahoo! Penelitian Ini adalah pelajar online yang melakukan penurunan gradien khusus pada beberapa fungsi kerugian. VW memiliki beberapa fitur mematikan:

  • Instal di Ubuntu sepele, dengan "sudo apt-get install vowpal-wabbit".
  • Menggunakan trik hashing untuk ruang fitur yang sangat besar.
  • Bobot adaptif spesifik-fitur.
  • Yang paling penting, ada milis aktif dan komunitas yang menghubungkan proyek.

Buku Prediksi, Pembelajaran, dan Permainan Bianchi & Lugosi memberikan landasan teori yang kuat untuk pembelajaran online. Bacaan yang berat, tapi layak!

Someben
sumber