Mengapa model statistik cocok jika diberi set data yang sangat besar?

8

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi):

id, age, income, gender, job category, monthly spend

di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, dan dataset (yang berisi id, age, income, gender, job categorytetapi tidak ada variabel respons) yang akan diprediksi berisi 1 juta baris. Pertanyaan saya adalah: apakah ada masalah potensial jika saya melemparkan terlalu banyak baris (3 juta dalam kasus ini) ke dalam model statistik? Saya mengerti biaya komputasi adalah salah satu perhatian, apakah ada masalah lain? Apakah ada buku / makalah yang sepenuhnya menjelaskan masalah ukuran kumpulan data?

pengguna2926523
sumber
15
Memiliki terlalu banyak baris tidak menghasilkan overfitting. Terlalu banyak kolom.
Peter Flom
5
Karena pertanyaan ini didasarkan pada beberapa asumsi yang salah - bahwa orang enggan menggunakan banyak kasus untuk analisis dan bahwa sebagian besar model statistik tidak dapat mengatasi set data besar - kemungkinan untuk mengakumulasi jawaban yang tidak relevan atau membingungkan. Harap pertimbangkan untuk mengedit pertanyaan Anda untuk menghapus kesalahan penyajian ini.
whuber
Anda masih tidak memperhitungkan apa yang dikatakan @whuber. Tempatnya salah. Tidak benar bahwa "kebanyakan model statistik tidak dapat menangani kumpulan data besar", jadi Anda tidak akan mendapatkan jawaban yang berguna untuk pertanyaan Anda. Tidak benar bahwa Anda dapat menggunakan informasi tentang semua orang di suatu negara pada waktu tertentu (saya kira inilah yang Anda maksud dengan "populasi").
pkofod
2
ID adalah, jika ini adalah analisis waras, bukan variabel kontinu tunggal. ID adalah variabel kategori karena perbedaan antara individu tidak sesuai dengan penugasan numerik sewenang-wenang yang mereka terima. Itu berarti Anda memiliki 1 variabel untuk setiap individu dalam analisis. Berpotensi jutaan.
AdamO
terima kasih atas komentarnya, tetapi saya masih bingung mengapa saya tidak dapat menggunakan informasi tentang semua orang di suatu negara pada waktu tertentu (ini adalah contoh yang dibuat-buat, jadi mari kita asumsikan saya memiliki info itu)?
user2926523

Jawaban:

12

Ada dua macam masalah yang mungkin Anda temui:

1) Masalah komputer karena kumpulan data terlalu besar. Saat ini, beberapa juta baris dengan 6 kolom tidak terlalu besar. Tapi, tergantung pada program Anda, komputer Anda, jumlah RAM Anda dan mungkin hal-hal lain, itu mungkin macet.

2) Masalah statistik. Di sini, masalah seperti yang Anda diskusikan akan memiliki satu "masalah" yang saya tahu: Bahkan efek kecil akan sangat signifikan. Ini bukan masalah dengan regresi, ini masalah dengan nilai p. Lebih baik melihat ukuran efek (parameter regresi).

3) Jenis lain masalah dengan model Anda bukan karena jumlah baris, tetapi sifat variabel respons (pengeluaran bulanan). Meskipun regresi OLS tidak membuat asumsi tentang distribusi respons (hanya tentang kesalahan), namun, model dengan uang sebagai variabel dependen sering memiliki kesalahan tidak normal. Selain itu, seringkali masuk akal, secara substantif, untuk mengambil catatan tanggapan. Apakah ini benar dalam kasus Anda tergantung pada apa yang Anda coba lakukan.

Peter Flom
sumber
Hai Peter, dapatkah Anda menjelaskan lebih detail mengapa variabel respons (yaitu, pengeluaran bulanan) harus diambil log? Apa manfaatnya dari ini?
shihpeng
1
Tentu. Nilai moneter harus sering dicatat. Kami memikirkan uang dalam bentuk multiplikasi, bukan tambahan. Jika Anda beralih dari menghabiskan 1010, itu bukan apa-apa. Jika Anda beralih dari 20 itu sangat besar. 1000to10to
Peter Flom
2

Yang penting adalah jumlah individu (baris) dibandingkan dengan jumlah koefisien yang Anda perlu perkirakan untuk model yang ingin Anda muat. Aturan umum yang tipikal menyarankan sekitar 20 pengamatan per koefisien sebagai minimum, jadi Anda harus dapat memperkirakan hingga 150.000 koefisien — tentunya lebih dari cukup untuk empat prediksi Anda.

Bahkan Anda memiliki peluang, bukan masalah, dalam hal ini: untuk menyesuaikan model yang agak rumit termasuk hubungan non-linear dari respons terhadap prediktor, & interaksi antara prediktor; yang dapat memprediksi respons jauh lebih baik daripada yang lebih sederhana di mana hubungan respons terhadap prediktor dianggap linier & aditif.

Scortchi - Reinstate Monica
sumber