Bagaimana cara menarik kesimpulan yang valid dari "data besar"?

40

"Data besar" ada di mana-mana di media. Semua orang mengatakan bahwa "big data" adalah hal besar untuk 2012, misalnya jajak pendapat KDNuggets tentang topik hangat untuk 2012 . Namun, saya memiliki keprihatinan yang mendalam di sini. Dengan data besar, semua orang tampaknya senang hanya untuk mengeluarkan apa pun . Tetapi bukankah kita melanggar semua prinsip statistik klasik seperti pengujian hipotesis dan pengambilan sampel representatif?

Selama kita hanya membuat prediksi tentang kumpulan data yang sama, ini akan baik-baik saja. Jadi jika saya menggunakan data Twitter untuk memprediksi perilaku pengguna Twitter, itu mungkin tidak apa-apa. Namun, menggunakan data Twitter untuk memprediksi misalnya Pemilu benar-benar mengabaikan fakta bahwa pengguna Twitter bukan sampel yang representatif untuk seluruh populasi. Plus, sebagian besar metode sebenarnya tidak akan dapat membedakan antara suasana "akar rumput" yang sebenarnya dan kampanye. Dan twitter penuh dengan kampanye. Jadi ketika menganalisis Twitter, Anda dengan cepat berakhir hanya dengan mengukur kampanye dan bot. (Lihat misalnya "Yahoo Memprediksi Pemenang Politik Amerika"yang penuh dengan bashing polling dan "analisis sentimen jauh lebih baik". Mereka memperkirakan "Romney memiliki lebih dari 90 persen kemungkinan memenangkan nominasi, dan memenangkan primer Carolina Selatan" (ia memiliki 28%, sementara Gingrich memiliki 40% pada primer ini).

Apakah Anda tahu data besar lainnya gagal ? Saya ingat kira-kira bahwa satu ilmuwan memperkirakan Anda tidak dapat mempertahankan lebih dari 150 persahabatan. Dia sebenarnya hanya menemukan batas topi di friendster ...

Mengenai data twitter, atau sebenarnya "data besar" apa pun yang dikumpulkan dari web, saya percaya bahwa seringkali orang bahkan memperkenalkan bias tambahan dengan cara mereka mengumpulkan data mereka. Sedikit yang memiliki semua Twitter. Mereka akan memiliki subset tertentu yang mereka jelajahi, dan ini hanyalah satu lagi bias dalam set data mereka.

Memisahkan data ke dalam set uji atau untuk melakukan validasi silang sepertinya tidak banyak membantu. Set lainnya akan memiliki bias yang sama. Dan untuk data besar, saya perlu "mengompres" informasi saya sedemikian rupa sehingga saya agak tidak cocok.

Baru-baru ini saya mendengar lelucon ini, dengan ilmuwan data besar yang menemukan ada sekitar 6 jenis kelamin di dunia ... dan saya dapat membayangkan hal ini terjadi ... "Pria, Wanita, Orc, Furry, Ya dan Tidak".

Jadi metode apa yang kita miliki untuk mendapatkan kembali validitas statistik ke dalam analisis, khususnya ketika mencoba untuk memprediksi sesuatu di luar dataset "data besar"?

Anony-Mousse
sumber

Jawaban:

31

Ketakutan Anda cukup beralasan dan tanggap. Yahoo dan mungkin beberapa perusahaan lain melakukan percobaan acak pada pengguna dan melakukannya dengan baik. Tetapi data pengamatan dipenuhi dengan kesulitan. Ini adalah kesalahan persepsi umum bahwa masalah berkurang dengan bertambahnya ukuran sampel. Ini berlaku untuk varian, tetapi bias tetap konstan ketika n meningkat. Ketika biasnya besar, sampel acak yang sangat kecil atau studi acak bisa lebih berharga dari 100.000.000 pengamatan.

Frank Harrell
sumber
8
Data besar mungkin merupakan salah satu area di mana dekomposisi varians bias tidak membantu - kualitas data dan manajemen data lebih penting. Ini karena kita tidak bisa berharap untuk mengetahui setiap titik data atau bahkan kasus khusus - terlalu banyak dari mereka
probabilityislogic
24

Ada sejumlah teknik dalam desain dan analisis eksperimental yang dapat membantu Anda mengurangi bias Anda, tetapi ini lagi selalu bermuara pada hal yang sama: Seseorang harus tahu apa yang sedang dilakukan seseorang. Analisis data besar memiliki masalah yang sama dengan analisis data lainnya; itu menderita karena kurangnya hipotesis.

Contoh yang jelas adalah regresi berganda dengan pemilihan variabel bertahap. Sangat bagus, kata seseorang, tetapi dengan 100 variabel yang diukur undang-undang statistik menentukan bahwa beberapa dari mereka akan menunjukkan hubungan yang signifikan ketika dievaluasi dengan melihat apakah koefisien masing-masing berbeda secara signifikan dari nol. Jadi semakin banyak variabel dalam dataset Anda, semakin banyak peluang untuk menemukan dua yang menunjukkan beberapa hubungan (tidak berarti). Dan semakin besar dataset Anda, semakin besar peluang untuk model yang tidak berarti karena misalnya efek pengganggu kecil. Jika Anda menguji banyak model (dan bahkan dengan hanya 10 variabel yang dapat menjadi banyak sekali model), Anda kemungkinan besar akan menemukan setidaknya satu yang signifikan. Apakah ini berarti sesuatu? Tidak.

Lalu apa yang harus dilakukan? Gunakan otak Anda:

  • merumuskan hipotesis sebelum mengumpulkan data dan menguji hipotesis itu. Itulah satu-satunya cara untuk memastikan statistik Anda benar-benar menceritakan sebuah kisah.
  • Gunakan kovariat Anda untuk membuat stratifikasi pengambilan sampel Anda sebelum melakukan beberapa tes. Contoh bodoh: Jika Anda memiliki 1000 pria dan 100 wanita dalam dataset Anda, pilih masing-masing 50 secara acak jika Anda ingin berbicara tentang populasi rata-rata. Itu sebenarnya sesuatu yang berguna untuk data besar: Anda memiliki lebih dari cukup untuk mengambil sampel.
  • Jelaskan populasi uji secara menyeluruh, jadi jelas untuk populasi mana kesimpulan Anda dirumuskan.
  • Jika Anda menggunakan dataset besar Anda untuk tujuan eksplorasi, uji hipotesis yang Anda buat selama eksplorasi ini pada dataset baru dan berbeda , bukan hanya sebagian dari apa yang Anda kumpulkan. Dan mengujinya lagi menggunakan semua tindakan pencegahan yang diperlukan.

Semua ini jelas dan terkenal. Heck, sudah pada tahun 1984 Rosenbaum dan Rubin mengilustrasikan bagaimana menggunakan skor kecenderungan untuk mengurangi bias dalam penelitian observasional, dan itulah yang sebagian besar dataset adalah: data observasi. Dalam karya terbaru Feng et al , penggunaan jarak Mahalanobis juga dianjurkan. Dan faktanya, salah satu pahlawan statistik saya, Cochran, telah menulis ulasan tentang masalah itu pada tahun 1973! Atau bagaimana dengan Rubin, yang telah memperkenalkan pengambilan sampel multivariat dan koreksi yang sudah dilakukan pada tahun 1979. Publikasi lama sangat diremehkan dan terlalu sering diabaikan, tentu saja dalam bidang seperti statistik.

Semua teknik ini memiliki pro dan kontra, dan kita harus memahami bahwa mengurangi bias tidak sama dengan menghilangkan bias. Tetapi jika Anda menyadari:

  • apa yang ingin Anda uji, dan
  • bagaimana Anda melakukannya

Big data bukan alasan untuk datang dengan hasil palsu.


Diedit setelah komentar (correc) dari @DW yang menunjukkan saya menggunakan istilah 'overfitting' dalam konteks yang salah.

Joris Meys
sumber
12
"Semakin besar dataset Anda, semakin banyak peluang untuk overfitting yang tidak berarti" - Sebenarnya, itu terbalik. Semakin besar seperangkat model yang mungkin, semakin besar kemungkinan overfitting (semuanya sama). Semakin besar dataset, semakin kecil kemungkinan overfitting (semuanya sama).
DW
@ DW Bagaimana bisa begitu? Bahkan, jika ada kemandirian mutlak dalam simulasi, ada banyak kesempatan pada model signifikan dengan dataset kecil dan besar (simulasi sederhana menunjukkan kepada Anda bahwa). Sayangnya, saya belum menemukan dataset di mana independensinya sempurna. Saat Anda memiliki misalnya efek pengganggu yang sangat kecil, kumpulan data besar lebih cenderung memberikan hasil signifikan yang tidak berarti daripada kumpulan data kecil.
Joris Meys
Jawaban yang bagus - komentar Anda tentang menemukan efek yang signifikan memberikan alasan yang baik untuk metode penyusutan dibandingkan metode pemilihan model "masuk-atau-keluar".
probabilityislogic
10
@DW membuat pernyataan tentang overfitting, dan tampaknya benar - terutama karena semakin besar kumpulan data, semakin banyak peluang untuk merendahkan cross-validation pada subset data. Joris Meys membuat pernyataan tentang signifikansi statistik. Itu juga benar. Tetapi dalam set data besar signifikansi statistik diperdebatkan - itu ukuran efek yang penting karena hampir semuanya "signifikan secara statistik".
zbicyclist
1
@ zbicyclist Observasi yang sangat tepat. Saya akui saya salah menafsirkan DW dan menggunakan istilah overfitting dalam konteks yang salah. Saya berdiri dikoreksi.
Joris Meys