Apa perbedaan antara penambangan data dan analisis statistik?
Untuk beberapa latar belakang, pendidikan statistik saya, saya pikir, agak tradisional. Sebuah pertanyaan spesifik diajukan, penelitian dirancang, dan data dikumpulkan dan dianalisis untuk menawarkan beberapa wawasan tentang pertanyaan itu. Akibatnya, saya selalu skeptis dengan apa yang saya anggap "pengerukan data", yaitu mencari pola dalam dataset besar dan menggunakan pola-pola ini untuk menarik kesimpulan. Saya cenderung mengasosiasikan yang terakhir dengan data-mining dan selalu menganggap ini agak tidak berprinsip (bersama dengan hal-hal seperti rutinitas pemilihan variabel algoritmik).
Meskipun demikian, ada literatur yang besar dan terus berkembang tentang data mining. Seringkali, saya melihat label ini mengacu pada teknik tertentu seperti pengelompokan, klasifikasi berbasis pohon, dll. Namun, setidaknya dari sudut pandang saya, teknik ini dapat "dilepaskan" pada set data atau digunakan secara terstruktur untuk mengatasi suatu pertanyaan. Saya akan memanggil bekas penambangan data dan analisis statistik yang terakhir.
Saya bekerja dalam administrasi akademik dan telah diminta untuk melakukan "penambangan data" untuk mengidentifikasi masalah dan peluang. Konsisten dengan latar belakang saya, pertanyaan pertama saya adalah: apa yang ingin Anda pelajari dan hal-hal apa yang menurut Anda berkontribusi terhadap masalah? Dari tanggapan mereka, jelas bahwa saya dan orang yang mengajukan pertanyaan memiliki ide yang berbeda tentang sifat dan nilai penambangan data.
sumber
Jawaban:
Jerome Friedman menulis makalah beberapa waktu lalu: Penambangan Data dan Statistik: Apa Hubungannya? , yang saya pikir Anda akan menemukan menarik.
Penambangan data sebagian besar merupakan perhatian komersial dan didorong oleh kebutuhan bisnis (ditambah dengan "kebutuhan" vendor untuk menjual perangkat lunak dan sistem perangkat keras ke bisnis). Satu hal yang dicatat Friedman adalah bahwa semua "fitur" yang dihipnotis berasal dari luar statistik - mulai dari algoritma dan metode seperti jaring saraf hingga analisis data berbasis GUI - dan tidak satu pun dari penawaran statistik tradisional yang tampaknya menjadi bagian dari salah satu sistem ini. (regresi, pengujian hipotesis, dll). "Metodologi inti kami sebagian besar telah diabaikan." Itu juga dijual sebagai pengguna didorong sepanjang garis dari apa yang Anda catat: inilah data saya, inilah "pertanyaan bisnis" saya, beri saya jawaban.
Saya pikir Friedman berusaha memprovokasi. Dia tidak berpikir data mining memiliki dasar intelektual yang serius di mana metodologi terkait, tetapi bahwa ini akan berubah dan ahli statistik harus memainkan peran daripada mengabaikannya.
Kesan saya sendiri adalah bahwa ini kurang lebih telah terjadi. Garis-garisnya kabur. Statistik sekarang mempublikasikan di jurnal data mining. Para penambang data akhir-akhir ini tampaknya memiliki semacam pelatihan statistik. Sementara paket penambangan data masih tidak hype model linier umum, regresi logistik terkenal di kalangan analis - di samping clustering dan jaring saraf. Desain eksperimental yang optimal mungkin bukan bagian dari inti penambangan data, tetapi perangkat lunak dapat dibujuk untuk mengeluarkan nilai-p. Kemajuan!
sumber
Perbedaan antara statistik dan penambangan data sebagian besar historis, karena mereka berasal dari tradisi yang berbeda: statistik dan ilmu komputer. Penambangan data tumbuh secara paralel di luar pekerjaan di bidang kecerdasan buatan dan statistik.
Bagian 1.4 dari Witten & Frank merangkum sudut pandang saya jadi saya akan mengutip panjang lebar:
NB1 IMO, penambangan data, dan pembelajaran mesin adalah istilah yang sangat terkait erat. Di satu sisi, teknik pembelajaran mesin digunakan dalam penambangan data. Saya secara teratur melihat istilah-istilah ini dapat dipertukarkan, dan sejauh mereka berbeda, mereka biasanya pergi bersama. Saya sarankan melihat melalui kertas "The Two Cultures" dan juga utas lainnya dari pertanyaan awal saya.
NB2 Istilah "data mining" dapat memiliki konotasi negatif ketika digunakan bahasa sehari-hari berarti membiarkan beberapa algoritma longgar pada data tanpa pemahaman konseptual. Intinya adalah bahwa penambangan data akan menyebabkan hasil yang palsu dan terlalu pas. Saya biasanya menghindari penggunaan istilah ketika berbicara dengan non-ahli, dan sebagai gantinya menggunakan pembelajaran mesin atau pembelajaran statistik sebagai sinonim.
sumber
Data mining dikategorikan sebagai deskriptif atau prediktif. Penambangan data deskriptif adalah untuk mencari kumpulan data besar-besaran dan menemukan lokasi struktur atau hubungan, pola, tren, kluster, dan outlier yang tidak terduga dalam data. Di sisi lain, Predictive adalah untuk membangun model dan prosedur untuk regresi, klasifikasi, pengenalan pola, atau tugas pembelajaran mesin, dan menilai akurasi prediksi model dan prosedur tersebut ketika diterapkan pada data baru.
Mekanisme yang digunakan untuk mencari pola atau struktur dalam data dimensi tinggi mungkin manual atau otomatis; pencarian mungkin memerlukan secara interaktif menanyakan sistem manajemen basis data, atau mungkin memerlukan menggunakan perangkat lunak visualisasi untuk menemukan anomali dalam data. Dalam istilah pembelajaran mesin, penambangan data deskriptif dikenal sebagai pembelajaran tanpa pengawasan, sedangkan penambangan data prediktif dikenal sebagai pembelajaran terbimbing.
Sebagian besar metode yang digunakan dalam penambangan data terkait dengan metode yang dikembangkan dalam statistik dan pembelajaran mesin. Yang terpenting di antara metode-metode tersebut adalah topik umum regresi, klasifikasi, pengelompokan, dan visualisasi. Karena ukuran yang sangat besar dari kumpulan data, banyak aplikasi penambangan data fokus pada teknik pengurangan dimensi (misalnya, pemilihan variabel) dan situasi di mana data dimensi tinggi diduga terletak pada pesawat terbang dimensi rendah. Perhatian baru-baru ini telah diarahkan pada metode mengidentifikasi data dimensi tinggi yang terletak pada permukaan atau manifol nonlinier.
Ada juga situasi dalam penggalian data ketika inferensi statistik - dalam pengertian klasik - baik tidak memiliki arti atau validitasnya meragukan: yang pertama terjadi ketika kita memiliki seluruh populasi untuk mencari jawaban, dan yang terakhir terjadi ketika kumpulan data adalah "Kenyamanan" sampel daripada sampel acak yang diambil dari beberapa populasi besar. Ketika data dikumpulkan melalui waktu (misalnya, transaksi ritel, transaksi pasar saham, catatan pasien, catatan cuaca), pengambilan sampel juga mungkin tidak masuk akal; urutan waktu pengamatan sangat penting untuk memahami fenomena yang menghasilkan data, dan untuk memperlakukan pengamatan sebagai independen ketika mereka mungkin sangat berkorelasi akan memberikan hasil yang bias.
Komponen utama dari data mining adalah - selain teori dan metode statistik - komputasi dan efisiensi komputasi, pemrosesan data otomatis, teknik visualisasi data yang dinamis dan interaktif, dan pengembangan algoritma.
Salah satu masalah terpenting dalam penambangan data adalah masalah skalabilitas komputasi . Algoritma yang dikembangkan untuk menghitung metode statistik exploratory dan konfirmasi standar dirancang agar cepat dan efisien secara komputasi ketika diterapkan pada set data kecil dan menengah; namun, telah ditunjukkan bahwa sebagian besar dari algoritma ini tidak sampai pada tantangan menangani kumpulan data yang sangat besar. Ketika set data tumbuh, banyak algoritma yang ada menunjukkan kecenderungan untuk melambat secara dramatis (atau bahkan terhenti).
sumber
Penambangan data adalah statistik, dengan beberapa perbedaan kecil. Anda dapat menganggapnya sebagai statistik re-branding, karena ahli statistik agak aneh.
Ini sering dikaitkan dengan statistik komputasi, yaitu hanya hal-hal yang dapat Anda lakukan dengan komputer.
Penambang data mencuri sebagian besar statistik multivariat dan menyebutnya sebagai milik mereka. Periksa daftar isi buku multivarian 1990-an apa pun dan bandingkan dengan buku penambangan data baru. Sangat mirip.
Statistik dikaitkan dengan pengujian hipotesis dan dengan pengembangan model, sedangkan data mining lebih terkait dengan prediksi dan klasifikasi, terlepas dari apakah ada model yang dapat dimengerti.
sumber
Saya sebelumnya menulis posting di mana saya membuat beberapa pengamatan membandingkan data mining dengan psikologi. Saya pikir pengamatan ini dapat menangkap beberapa perbedaan yang Anda identifikasi:
sumber
Saya tidak berpikir perbedaan yang Anda buat benar-benar terkait dengan perbedaan antara data mining dan analisis statistik. Anda berbicara tentang perbedaan antara analisis eksplorasi dan pendekatan pemodelan-prediksi.
Saya pikir tradisi statistikic dibangun dengan semua langkah: analisis eksplorasi, kemudian pemodelan, kemudian estimasi, kemudian pengujian, lalu peramalan / penarikan kesimpulan. Ahli statistik melakukan analisis eksplorasi untuk mengetahui seperti apa data itu (ringkasan fungsi di bawah R!) Saya kira datamining kurang terstruktur dan dapat diidentifikasi dengan analisis eksplorasi. Namun menggunakan teknik dari statistik yang berasal dari estimasi, perkiraan, klasifikasi ....
sumber