Pertanyaan yang diberi tag large-data

12
Good-of-fit untuk ukuran sampel yang sangat besar

Saya mengumpulkan sampel kategori data yang sangat besar (> 1.000.000) setiap hari dan ingin melihat data yang terlihat "berbeda" secara signifikan antar hari untuk mendeteksi kesalahan dalam pengumpulan data. Saya pikir menggunakan tes good-of-fit (khususnya, G-test) akan menjadi cocok (pun...

12
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?

Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE),...

12
Pengujian Hipotesis dengan Big Data

Bagaimana Anda melakukan tes hipotesis dengan data besar? Saya menulis skrip MATLAB berikut untuk menekankan kebingungan saya. Yang dilakukannya hanyalah menghasilkan dua seri acak, dan menjalankan regresi linier sederhana dari satu variabel di variabel lainnya. Itu melakukan regresi ini beberapa...

11
Menangani set data besar dalam R - tutorial, praktik terbaik, dll

Saya seorang R noob yang diharuskan untuk melakukan berbagai macam analisis pada set data besar di R. Jadi sambil melihat-lihat situs ini dan di tempat lain, tampak bagi saya bahwa ada banyak masalah esoteris dan kurang terkenal yang terlibat di sini - seperti paket mana yang digunakan kapan,...

10
Apakah masuk akal untuk menghitung interval kepercayaan dan untuk menguji hipotesis ketika data dari seluruh populasi tersedia?

Apakah masuk akal untuk menghitung interval kepercayaan dan untuk menguji hipotesis ketika data dari seluruh populasi tersedia? Menurut pendapat saya, jawabannya adalah tidak, karena kita dapat secara akurat menghitung nilai sebenarnya dari parameter. Tetapi kemudian, berapa proporsi maksimal data...