"Data besar" ada di mana-mana di media. Semua orang mengatakan bahwa "big data" adalah hal besar untuk 2012, misalnya jajak pendapat KDNuggets tentang topik hangat untuk 2012 . Namun, saya memiliki keprihatinan yang mendalam di sini. Dengan data besar, semua orang tampaknya senang hanya untuk mengeluarkan apa pun . Tetapi bukankah kita melanggar semua prinsip statistik klasik seperti pengujian hipotesis dan pengambilan sampel representatif?
Selama kita hanya membuat prediksi tentang kumpulan data yang sama, ini akan baik-baik saja. Jadi jika saya menggunakan data Twitter untuk memprediksi perilaku pengguna Twitter, itu mungkin tidak apa-apa. Namun, menggunakan data Twitter untuk memprediksi misalnya Pemilu benar-benar mengabaikan fakta bahwa pengguna Twitter bukan sampel yang representatif untuk seluruh populasi. Plus, sebagian besar metode sebenarnya tidak akan dapat membedakan antara suasana "akar rumput" yang sebenarnya dan kampanye. Dan twitter penuh dengan kampanye. Jadi ketika menganalisis Twitter, Anda dengan cepat berakhir hanya dengan mengukur kampanye dan bot. (Lihat misalnya "Yahoo Memprediksi Pemenang Politik Amerika"yang penuh dengan bashing polling dan "analisis sentimen jauh lebih baik". Mereka memperkirakan "Romney memiliki lebih dari 90 persen kemungkinan memenangkan nominasi, dan memenangkan primer Carolina Selatan" (ia memiliki 28%, sementara Gingrich memiliki 40% pada primer ini).
Apakah Anda tahu data besar lainnya gagal ? Saya ingat kira-kira bahwa satu ilmuwan memperkirakan Anda tidak dapat mempertahankan lebih dari 150 persahabatan. Dia sebenarnya hanya menemukan batas topi di friendster ...
Mengenai data twitter, atau sebenarnya "data besar" apa pun yang dikumpulkan dari web, saya percaya bahwa seringkali orang bahkan memperkenalkan bias tambahan dengan cara mereka mengumpulkan data mereka. Sedikit yang memiliki semua Twitter. Mereka akan memiliki subset tertentu yang mereka jelajahi, dan ini hanyalah satu lagi bias dalam set data mereka.
Memisahkan data ke dalam set uji atau untuk melakukan validasi silang sepertinya tidak banyak membantu. Set lainnya akan memiliki bias yang sama. Dan untuk data besar, saya perlu "mengompres" informasi saya sedemikian rupa sehingga saya agak tidak cocok.
Baru-baru ini saya mendengar lelucon ini, dengan ilmuwan data besar yang menemukan ada sekitar 6 jenis kelamin di dunia ... dan saya dapat membayangkan hal ini terjadi ... "Pria, Wanita, Orc, Furry, Ya dan Tidak".
Jadi metode apa yang kita miliki untuk mendapatkan kembali validitas statistik ke dalam analisis, khususnya ketika mencoba untuk memprediksi sesuatu di luar dataset "data besar"?
sumber
Ada sejumlah teknik dalam desain dan analisis eksperimental yang dapat membantu Anda mengurangi bias Anda, tetapi ini lagi selalu bermuara pada hal yang sama: Seseorang harus tahu apa yang sedang dilakukan seseorang. Analisis data besar memiliki masalah yang sama dengan analisis data lainnya; itu menderita karena kurangnya hipotesis.
Contoh yang jelas adalah regresi berganda dengan pemilihan variabel bertahap. Sangat bagus, kata seseorang, tetapi dengan 100 variabel yang diukur undang-undang statistik menentukan bahwa beberapa dari mereka akan menunjukkan hubungan yang signifikan ketika dievaluasi dengan melihat apakah koefisien masing-masing berbeda secara signifikan dari nol. Jadi semakin banyak variabel dalam dataset Anda, semakin banyak peluang untuk menemukan dua yang menunjukkan beberapa hubungan (tidak berarti). Dan semakin besar dataset Anda, semakin besar peluang untuk model yang tidak berarti karena misalnya efek pengganggu kecil. Jika Anda menguji banyak model (dan bahkan dengan hanya 10 variabel yang dapat menjadi banyak sekali model), Anda kemungkinan besar akan menemukan setidaknya satu yang signifikan. Apakah ini berarti sesuatu? Tidak.
Lalu apa yang harus dilakukan? Gunakan otak Anda:
Semua ini jelas dan terkenal. Heck, sudah pada tahun 1984 Rosenbaum dan Rubin mengilustrasikan bagaimana menggunakan skor kecenderungan untuk mengurangi bias dalam penelitian observasional, dan itulah yang sebagian besar dataset adalah: data observasi. Dalam karya terbaru Feng et al , penggunaan jarak Mahalanobis juga dianjurkan. Dan faktanya, salah satu pahlawan statistik saya, Cochran, telah menulis ulasan tentang masalah itu pada tahun 1973! Atau bagaimana dengan Rubin, yang telah memperkenalkan pengambilan sampel multivariat dan koreksi yang sudah dilakukan pada tahun 1979. Publikasi lama sangat diremehkan dan terlalu sering diabaikan, tentu saja dalam bidang seperti statistik.
Semua teknik ini memiliki pro dan kontra, dan kita harus memahami bahwa mengurangi bias tidak sama dengan menghilangkan bias. Tetapi jika Anda menyadari:
Big data bukan alasan untuk datang dengan hasil palsu.
Diedit setelah komentar (correc) dari @DW yang menunjukkan saya menggunakan istilah 'overfitting' dalam konteks yang salah.
sumber