Apa perbedaan antara penambangan data dan analisis statistik?

19

Apa perbedaan antara penambangan data dan analisis statistik?

Untuk beberapa latar belakang, pendidikan statistik saya, saya pikir, agak tradisional. Sebuah pertanyaan spesifik diajukan, penelitian dirancang, dan data dikumpulkan dan dianalisis untuk menawarkan beberapa wawasan tentang pertanyaan itu. Akibatnya, saya selalu skeptis dengan apa yang saya anggap "pengerukan data", yaitu mencari pola dalam dataset besar dan menggunakan pola-pola ini untuk menarik kesimpulan. Saya cenderung mengasosiasikan yang terakhir dengan data-mining dan selalu menganggap ini agak tidak berprinsip (bersama dengan hal-hal seperti rutinitas pemilihan variabel algoritmik).

Meskipun demikian, ada literatur yang besar dan terus berkembang tentang data mining. Seringkali, saya melihat label ini mengacu pada teknik tertentu seperti pengelompokan, klasifikasi berbasis pohon, dll. Namun, setidaknya dari sudut pandang saya, teknik ini dapat "dilepaskan" pada set data atau digunakan secara terstruktur untuk mengatasi suatu pertanyaan. Saya akan memanggil bekas penambangan data dan analisis statistik yang terakhir.

Saya bekerja dalam administrasi akademik dan telah diminta untuk melakukan "penambangan data" untuk mengidentifikasi masalah dan peluang. Konsisten dengan latar belakang saya, pertanyaan pertama saya adalah: apa yang ingin Anda pelajari dan hal-hal apa yang menurut Anda berkontribusi terhadap masalah? Dari tanggapan mereka, jelas bahwa saya dan orang yang mengajukan pertanyaan memiliki ide yang berbeda tentang sifat dan nilai penambangan data.

Brett
sumber
1
duplikat? stats.stackexchange.com/questions/6/…
Neil McGuigan
3
Jika itu duplikat, saya bisa menebak bahwa penambangan data dan pembelajaran mesin adalah hal yang sama!
George Dontas
@ George Dontas Ya, saya datang ke sini dari tautan di komentar jika pertanyaan lain dengan harapan melihat ada perbedaan antara ML dan data mining.
DJG

Jawaban:

20

Jerome Friedman menulis makalah beberapa waktu lalu: Penambangan Data dan Statistik: Apa Hubungannya? , yang saya pikir Anda akan menemukan menarik.

Penambangan data sebagian besar merupakan perhatian komersial dan didorong oleh kebutuhan bisnis (ditambah dengan "kebutuhan" vendor untuk menjual perangkat lunak dan sistem perangkat keras ke bisnis). Satu hal yang dicatat Friedman adalah bahwa semua "fitur" yang dihipnotis berasal dari luar statistik - mulai dari algoritma dan metode seperti jaring saraf hingga analisis data berbasis GUI - dan tidak satu pun dari penawaran statistik tradisional yang tampaknya menjadi bagian dari salah satu sistem ini. (regresi, pengujian hipotesis, dll). "Metodologi inti kami sebagian besar telah diabaikan." Itu juga dijual sebagai pengguna didorong sepanjang garis dari apa yang Anda catat: inilah data saya, inilah "pertanyaan bisnis" saya, beri saya jawaban.

Saya pikir Friedman berusaha memprovokasi. Dia tidak berpikir data mining memiliki dasar intelektual yang serius di mana metodologi terkait, tetapi bahwa ini akan berubah dan ahli statistik harus memainkan peran daripada mengabaikannya.

Kesan saya sendiri adalah bahwa ini kurang lebih telah terjadi. Garis-garisnya kabur. Statistik sekarang mempublikasikan di jurnal data mining. Para penambang data akhir-akhir ini tampaknya memiliki semacam pelatihan statistik. Sementara paket penambangan data masih tidak hype model linier umum, regresi logistik terkenal di kalangan analis - di samping clustering dan jaring saraf. Desain eksperimental yang optimal mungkin bukan bagian dari inti penambangan data, tetapi perangkat lunak dapat dibujuk untuk mengeluarkan nilai-p. Kemajuan!

ars
sumber
1
Ini adalah makalah yang bagus dan konsisten dengan perspektif saya tentang apa itu data mining dan bagaimana hal itu berbeda dari statistik. Tangkapannya adalah, ini dari tahun 1997! Catat dakwaan makalah atau rekomendasi Anda, tetapi sejauh mana saya terus mengikuti penggalian data. Sepertinya saya perlu mengambil buku terbaru tentang penambangan data untuk mengejar ketinggalan.
Brett
Heh, aku sengaja tidak mengencani tanggal karena kupikir akan memperhatikan rentang waktunya. :) Buku-buku oleh Michael Berry dan Gordon Linoff cukup bagus dan akan menarik bagi ahli statistik (untuk paparan yang lebih luas daripada belajar teknik statistik). Jika Anda ingin merasakan sisi "perusahaan" kabur dari bidang ini, membaca sekilas salah satu buku pada produk vendor, seperti SAS's Enterprise Miner atau SPSS's Clementine, dapat membantu. Saya tidak akan merekomendasikan membelinya kecuali Anda akan bekerja dengan produk itu sendiri.
ars
10

Perbedaan antara statistik dan penambangan data sebagian besar historis, karena mereka berasal dari tradisi yang berbeda: statistik dan ilmu komputer. Penambangan data tumbuh secara paralel di luar pekerjaan di bidang kecerdasan buatan dan statistik.

Bagian 1.4 dari Witten & Frank merangkum sudut pandang saya jadi saya akan mengutip panjang lebar:

Apa perbedaan antara pembelajaran mesin dan statistik? Orang-orang sinis, yang memandang dengan muram ledakan kepentingan komersial (dan sensasi) di bidang ini, menyamakan penambangan data dengan statistik plus pemasaran. Sebenarnya, Anda tidak harus mencari garis pemisah antara pembelajaran mesin dan statistik karena ada kontinum - dan multidimensi pada saat itu - teknik analisis data. Beberapa berasal dari keterampilan yang diajarkan dalam kursus statistik standar, dan yang lain lebih erat terkait dengan jenis pembelajaran mesin yang telah muncul dari ilmu komputer. Secara historis, kedua belah pihak memiliki tradisi yang agak berbeda. Jika dipaksa untuk menunjukkan satu perbedaan penekanan, mungkin statistik lebih mementingkan pengujian hipotesis,

Di masa lalu, metode yang sangat mirip telah dikembangkan secara paralel dalam pembelajaran mesin dan statistik ...

Namun sekarang kedua perspektif tersebut telah bertemu.

NB1 IMO, penambangan data, dan pembelajaran mesin adalah istilah yang sangat terkait erat. Di satu sisi, teknik pembelajaran mesin digunakan dalam penambangan data. Saya secara teratur melihat istilah-istilah ini dapat dipertukarkan, dan sejauh mereka berbeda, mereka biasanya pergi bersama. Saya sarankan melihat melalui kertas "The Two Cultures" dan juga utas lainnya dari pertanyaan awal saya.

NB2 Istilah "data mining" dapat memiliki konotasi negatif ketika digunakan bahasa sehari-hari berarti membiarkan beberapa algoritma longgar pada data tanpa pemahaman konseptual. Intinya adalah bahwa penambangan data akan menyebabkan hasil yang palsu dan terlalu pas. Saya biasanya menghindari penggunaan istilah ketika berbicara dengan non-ahli, dan sebagai gantinya menggunakan pembelajaran mesin atau pembelajaran statistik sebagai sinonim.

Shane
sumber
Tentang NB2 - Saya pikir Anda benar tentang konotasi data mining dan saya belum membuat koneksi ke pembelajaran mesin. Pelatihan saya selalu menekankan masalah over-fitting, spuriousness, dan memanfaatkan kesempatan dan karena itu saya skeptis pada DM - dan masih ada, mungkin sampai seseorang benar-benar memberi tahu saya APA yang mereka lakukan dan BAGAIMANA. Terima kasih.
Brett
1
Berdalih saya hanya pada perbedaan ML / DM adalah bahwa saya pikir DM lebih luas. Misalnya, OLAP dan alat terkait termasuk teknologi penambangan. Tapi ini berasal dari sisi basis data ilmu komputer daripada pembelajaran mesin. Peran perdagangan dalam membentuk "makna" dari penambangan data sulit untuk diabaikan - ia membawa unsur-unsur ilmu manajemen, penelitian operasi, pembelajaran mesin dan statistik yang diperlukan. Ini juga memberi kesan sesuatu yang tipis, tetapi itu biasanya menjadi masalah bagi para puritan, bukan praktisi.
ars
@ars: Saya setuju. Saya mencoba untuk mengatakan bahwa sedikit dengan mengatakan "teknik pembelajaran mesin digunakan dalam data mining" (yaitu data mining adalah super-set). Poin Anda tentang aplikasi komersial juga tepat. Meskipun seseorang dalam aplikasi komersial sekarang-a-hari mungkin menyebut pekerjaan mereka sebagai sesuatu yang lain (misalnya "ilmu data").
Shane
Benar, saya seharusnya mengatakan saya mencoba untuk menyempurnakan perbedaan, daripada benar-benar berdalih dengan apa yang Anda tulis. Permintaan maaf untuk penyesatan. Poin bagus tentang perubahan waktu dan istilah seperti adopsi "ilmu data". Bukankah salah satu buku Gelman dimulai dengan sesuatu seperti "statistik adalah ilmu data"? Jadi "mereka" mencuri dari ahli statistik. Lagi. :)
ars
8

Data mining dikategorikan sebagai deskriptif atau prediktif. Penambangan data deskriptif adalah untuk mencari kumpulan data besar-besaran dan menemukan lokasi struktur atau hubungan, pola, tren, kluster, dan outlier yang tidak terduga dalam data. Di sisi lain, Predictive adalah untuk membangun model dan prosedur untuk regresi, klasifikasi, pengenalan pola, atau tugas pembelajaran mesin, dan menilai akurasi prediksi model dan prosedur tersebut ketika diterapkan pada data baru.

Mekanisme yang digunakan untuk mencari pola atau struktur dalam data dimensi tinggi mungkin manual atau otomatis; pencarian mungkin memerlukan secara interaktif menanyakan sistem manajemen basis data, atau mungkin memerlukan menggunakan perangkat lunak visualisasi untuk menemukan anomali dalam data. Dalam istilah pembelajaran mesin, penambangan data deskriptif dikenal sebagai pembelajaran tanpa pengawasan, sedangkan penambangan data prediktif dikenal sebagai pembelajaran terbimbing.

Sebagian besar metode yang digunakan dalam penambangan data terkait dengan metode yang dikembangkan dalam statistik dan pembelajaran mesin. Yang terpenting di antara metode-metode tersebut adalah topik umum regresi, klasifikasi, pengelompokan, dan visualisasi. Karena ukuran yang sangat besar dari kumpulan data, banyak aplikasi penambangan data fokus pada teknik pengurangan dimensi (misalnya, pemilihan variabel) dan situasi di mana data dimensi tinggi diduga terletak pada pesawat terbang dimensi rendah. Perhatian baru-baru ini telah diarahkan pada metode mengidentifikasi data dimensi tinggi yang terletak pada permukaan atau manifol nonlinier.

Ada juga situasi dalam penggalian data ketika inferensi statistik - dalam pengertian klasik - baik tidak memiliki arti atau validitasnya meragukan: yang pertama terjadi ketika kita memiliki seluruh populasi untuk mencari jawaban, dan yang terakhir terjadi ketika kumpulan data adalah "Kenyamanan" sampel daripada sampel acak yang diambil dari beberapa populasi besar. Ketika data dikumpulkan melalui waktu (misalnya, transaksi ritel, transaksi pasar saham, catatan pasien, catatan cuaca), pengambilan sampel juga mungkin tidak masuk akal; urutan waktu pengamatan sangat penting untuk memahami fenomena yang menghasilkan data, dan untuk memperlakukan pengamatan sebagai independen ketika mereka mungkin sangat berkorelasi akan memberikan hasil yang bias.

Komponen utama dari data mining adalah - selain teori dan metode statistik - komputasi dan efisiensi komputasi, pemrosesan data otomatis, teknik visualisasi data yang dinamis dan interaktif, dan pengembangan algoritma.

Salah satu masalah terpenting dalam penambangan data adalah masalah skalabilitas komputasi . Algoritma yang dikembangkan untuk menghitung metode statistik exploratory dan konfirmasi standar dirancang agar cepat dan efisien secara komputasi ketika diterapkan pada set data kecil dan menengah; namun, telah ditunjukkan bahwa sebagian besar dari algoritma ini tidak sampai pada tantangan menangani kumpulan data yang sangat besar. Ketika set data tumbuh, banyak algoritma yang ada menunjukkan kecenderungan untuk melambat secara dramatis (atau bahkan terhenti).

George Dontas
sumber
8

Penambangan data adalah statistik, dengan beberapa perbedaan kecil. Anda dapat menganggapnya sebagai statistik re-branding, karena ahli statistik agak aneh.

Ini sering dikaitkan dengan statistik komputasi, yaitu hanya hal-hal yang dapat Anda lakukan dengan komputer.

Penambang data mencuri sebagian besar statistik multivariat dan menyebutnya sebagai milik mereka. Periksa daftar isi buku multivarian 1990-an apa pun dan bandingkan dengan buku penambangan data baru. Sangat mirip.

Statistik dikaitkan dengan pengujian hipotesis dan dengan pengembangan model, sedangkan data mining lebih terkait dengan prediksi dan klasifikasi, terlepas dari apakah ada model yang dapat dimengerti.

Neil McGuigan
sumber
1
Apa duplikatnya? Saya tidak bisa melihat sesuatu yang jelas.
Rob Hyndman
1
Cukup mirip dengan yang ini saya pikir: stats.stackexchange.com/questions/6/…
Neil McGuigan
1
baik. Saya sedang mencari data mining, bukan pembelajaran mesin. Berikan suara untuk menutup jika Anda menganggap itu duplikat.
Rob Hyndman
Hmm, jadi Data Mining == Machine Learning?
ars
1
1) Saya tidak melihat perbedaan stat stat. Tidak banyak yang dilakukan ahli statistik yang tidak memerlukan komputer. Saya kira maksud Anda prosedur intensif komputasi seperti solusi berulang, dll? Tapi kemudian, ini juga umum dalam pekerjaan statistik modern yang bukan penambangan data. 2) Dalam karya saya sendiri (statistik), saya telah tertarik dalam membangun model untuk penjelasan dan prediksi, tergantung pada masalahnya-saya tidak akan mempertimbangkan data mining itu. 3) Saya setuju dengan kesimpulan bahwa DM modern adalah aplikasi statistik tertentu, yang menurut saya kesimpulan yang bagus.
Brett
6

Saya sebelumnya menulis posting di mana saya membuat beberapa pengamatan membandingkan data mining dengan psikologi. Saya pikir pengamatan ini dapat menangkap beberapa perbedaan yang Anda identifikasi:

  1. "Data mining tampaknya lebih mementingkan prediksi menggunakan variabel yang diamati daripada dengan memahami sistem kausal dari variabel laten; psikologi biasanya lebih peduli dengan sistem kausal dari variabel laten.
  2. Penambangan data biasanya melibatkan kumpulan data besar-besaran (misalnya 10.000 + baris) yang dikumpulkan untuk tujuan selain dari tujuan penambangan data. Kumpulan data psikologis biasanya kecil (mis., Kurang dari 1.000 atau 100 baris) dan dikumpulkan secara eksplisit untuk mengeksplorasi pertanyaan penelitian.
  3. Analisis psikologis biasanya melibatkan pengujian model tertentu. Pendekatan pengembangan model otomatis cenderung tidak menarik secara teoritis. "- Data Mining dan R
Jeromy Anglim
sumber
Saya pikir poin 2 dan 3 adalah komentar yang berguna dan konsisten dengan apa yang saya lihat sebagai perbedaan antara kedua SA dan DM. Saya tidak begitu yakin tentang poin pertama Anda. Saya telah melakukan pekerjaan statistik di mana saya tertarik untuk meningkatkan pemahaman tentang hubungan sebab akibat. Namun, saya juga telah melakukan pekerjaan statistik di mana tugasnya adalah untuk mengambil hubungan yang diketahui dan mengembangkan model dengan satu-satunya tujuan prediksi tetapi yang berbagi bukan fitur lain dari "data mining".
Brett
4

Saya tidak berpikir perbedaan yang Anda buat benar-benar terkait dengan perbedaan antara data mining dan analisis statistik. Anda berbicara tentang perbedaan antara analisis eksplorasi dan pendekatan pemodelan-prediksi.

Saya pikir tradisi statistikic dibangun dengan semua langkah: analisis eksplorasi, kemudian pemodelan, kemudian estimasi, kemudian pengujian, lalu peramalan / penarikan kesimpulan. Ahli statistik melakukan analisis eksplorasi untuk mengetahui seperti apa data itu (ringkasan fungsi di bawah R!) Saya kira datamining kurang terstruktur dan dapat diidentifikasi dengan analisis eksplorasi. Namun menggunakan teknik dari statistik yang berasal dari estimasi, perkiraan, klasifikasi ....

robin girard
sumber
Saya bisa membelinya. Penambangan data adalah aplikasi yang lebih eksploratif dari teknik statistik. Padahal, saya rasa perbedaan itu tidak cukup. Ketika saya melakukan EDA pada set 100 pengamatan saya dari percobaan yang dirancang, saya tidak berpikir ada yang akan menyebut data mining, bukan?
Brett