Pertanyaan yang diberi tag large-data

9
Pengelompokan yang efisien ruang

Kebanyakan algoritma pengelompokan yang saya lihat dimulai dengan membuat jarak masing-masing untuk setiap titik, yang menjadi masalah pada kumpulan data yang lebih besar. Apakah ada yang tidak melakukannya? Atau apakah itu dalam semacam pendekatan parsial / perkiraan / terhuyung-huyung? Algoritma...

9
Memperkirakan dimensi kumpulan data

Seorang kolega dalam statistik terapan mengirimi saya ini: "Saya bertanya-tanya apakah Anda tahu cara untuk mengetahui dimensi sebenarnya dari suatu fungsi. Misalnya, lingkaran adalah fungsi satu dimensi dalam ruang dua dimensi. Jika saya tidak tahu cara menggambar, apakah ada statistik yang...

9
Bootstrap parametrik, semiparametrik, dan nonparametrik untuk model campuran

Cangkok berikut diambil dari artikel ini . Saya pemula untuk bootstrap dan mencoba mengimplementasikan bootstrap parametrik, semiparametrik, dan nonparametrik untuk model campuran linier dengan R bootpaket. Kode R Ini Rkode saya : library(SASmixed) library(lme4) library(boot) fm1Cult...

8
Hutan Acak dalam pengaturan Big Data

Saya memiliki dataset dengan 5.818.446 baris dan 51 kolom, di mana 50 di antaranya adalah prediktor. Respons saya kuantitatif, jadi saya tertarik dengan model regresi. Saya mencoba menyesuaikan hutan acak dengan data saya menggunakan paket tanda sisipan. Namun, saya tidak memiliki cukup RAM untuk...

8
Apa saja penggunaan matriks padat dalam statistik?

OK, saya bukan ahli statistik (bahkan tidak dekat). Saya seorang peneliti Komputasi Kinerja Tinggi dan saya ingin beberapa kasus uji untuk Matriks Padat Besar (Lebih dari 5000x5000). Saya telah bertanya di sini dan beberapa tempat lain tetapi tidak pernah mendapat jawaban dari ahli statistik. Saya...

8
R sebagai alternatif SAS untuk data besar

Saya tahu bahwa R tidak terlalu membantu untuk menganalisis dataset besar mengingat R memuat semua data dalam memori sedangkan sesuatu seperti SAS melakukan analisis sekuensial. Yang mengatakan, ada paket seperti bigmemory yang memungkinkan pengguna untuk melakukan analisis data besar (analisis...

8
Mengapa model statistik cocok jika diberi set data yang sangat besar?

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel...

8
Star Coordinates vs. analisis komponen utama

Saat ini saya sedang mempersiapkan presentasi untuk kursus universitas di "Analisis Data Visual". Dan salah satu topik saya adalah visualisasi "Koordinat Bintang". Koordinat Bintang Ketika Star Coordinates melakukan transformasi data dimensi tinggi, dan teknik PCA yang terkenal juga melakukannya,...