Ada banyak tumpang tindih di antara ini, tetapi beberapa perbedaan dapat dibuat. Karena kebutuhan, saya harus terlalu menyederhanakan beberapa hal atau memberikan sedikit perhatian kepada orang lain, tetapi saya akan melakukan yang terbaik untuk memberikan pengertian tentang bidang-bidang ini.
Pertama, Kecerdasan Buatan cukup berbeda dari yang lain. AI adalah studi tentang cara membuat agen cerdas. Dalam praktiknya, ini adalah cara memprogram komputer untuk berperilaku dan melakukan tugas seperti yang akan dilakukan oleh agen cerdas (misalnya, seseorang). Ini tidak harus melibatkan pembelajaran atau induksi sama sekali, itu hanya bisa menjadi cara untuk 'membangun perangkap tikus yang lebih baik'. Misalnya, aplikasi AI telah memasukkan program untuk memantau dan mengontrol proses yang sedang berlangsung (misalnya, tingkatkan aspek A jika tampaknya terlalu rendah). Perhatikan bahwa AI dapat mencakup sangat dekat apa pun yang dilakukan mesin, asalkan tidak melakukannya dengan 'bodoh'.
Namun dalam praktiknya, sebagian besar tugas yang membutuhkan kecerdasan memerlukan kemampuan untuk membujuk pengetahuan baru dari pengalaman. Dengan demikian, area luas dalam AI adalah pembelajaran mesin . Suatu program komputer dikatakan mempelajari beberapa tugas dari pengalaman jika kinerjanya pada tugas tersebut meningkat dengan pengalaman, menurut beberapa ukuran kinerja. Pembelajaran mesin melibatkan studi tentang algoritma yang dapat mengekstraksi informasi secara otomatis (yaitu, tanpa panduan manusia online). Memang benar bahwa beberapa dari prosedur ini memasukkan ide-ide yang berasal langsung dari, atau diilhami oleh, statistik klasik, tetapi mereka tidak memilikinyamenjadi. Demikian pula untuk AI, pembelajaran mesin sangat luas dan dapat mencakup hampir semua, asalkan ada beberapa komponen induktif untuk itu. Contoh dari algoritma pembelajaran mesin mungkin adalah filter Kalman.
Penambangan data adalah bidang yang telah mengambil banyak inspirasi dan teknik dari pembelajaran mesin (dan beberapa, juga, dari statistik), tetapi diletakkan untuk tujuan yang berbeda . Penambangan data dilakukan oleh seseorang , dalam situasi tertentu, pada set data tertentu, dengan tujuan dalam pikiran. Biasanya, orang ini ingin memanfaatkan kekuatan berbagai teknik pengenalan pola yang telah dikembangkan dalam pembelajaran mesin. Seringkali, kumpulan data bersifat masif , rumit , dan / atau mungkin memiliki masalah khusus(seperti ada lebih banyak variabel daripada pengamatan). Biasanya, tujuannya adalah untuk menemukan / menghasilkan beberapa wawasan awal di daerah di mana hanya ada sedikit pengetahuan sebelumnya, atau untuk dapat memprediksi pengamatan di masa depan secara akurat. Selain itu, prosedur penambangan data dapat berupa 'tidak diawasi' (kami tidak tahu jawabannya - penemuan) atau 'diawasi' (kami tahu jawabannya - prediksi). Perhatikan bahwa tujuannya umumnya bukan untuk mengembangkan pemahaman yang lebih canggih tentang proses pembuatan data yang mendasarinya. Teknik penambangan data umum akan mencakup analisis klaster, pohon klasifikasi dan regresi, dan jaringan saraf.
Saya kira saya tidak perlu banyak bicara untuk menjelaskan statistik apa yang ada di situs ini, tapi mungkin saya bisa mengatakan beberapa hal. Statistik klasik (di sini yang saya maksud adalah sering dan Bayesian) adalah sub-topik dalam matematika. Saya menganggapnya sebagai persimpangan sebagian besar dari apa yang kita ketahui tentang probabilitas dan apa yang kita ketahui tentang optimasi. Meskipun statistik matematika dapat dipelajari hanya sebagai objek penyelidikan Platonis, sebagian besar dipahami sebagai lebih praktis dan diterapkan dalam karakter daripada bidang matematika lainnya yang lebih jarang. Karena itu (dan sangat berbeda dengan penambangan data di atas), sebagian besar digunakan untuk lebih memahami beberapa proses menghasilkan data tertentu. Jadi, biasanya dimulai dengan model yang ditentukan secara formal, dan dari sini didapat prosedur untuk mengekstraksi model itu secara akurat dari contoh bising (yaitu, estimasi - dengan mengoptimalkan beberapa fungsi kerugian) dan untuk dapat membedakannya dari kemungkinan lain (yaitu, kesimpulan berdasarkan sifat yang diketahui dari distribusi sampel). Teknik statistik prototipikal adalah regresi.
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.
Apakah aman untuk mengatakan bahwa jaringan saraf adalah contoh alat pembelajaran mesin yang digunakan dalam data mining, dibandingkan dengan analisis cluster yang merupakan algoritma yang tidak dirancang untuk pembelajaran mesin yang digunakan untuk data mining?Banyak jawaban lain telah membahas poin-poin utama tetapi Anda meminta hierarki jika ada dan seperti yang saya lihat, meskipun mereka masing-masing disiplin dalam hak mereka sendiri, ada hierarki yang belum ada yang disebutkan karena masing-masing dibangun di atas yang sebelumnya.
Pendeknya
Sekarang ini dikatakan, akan ada beberapa masalah AI yang jatuh hanya ke AI dan juga untuk bidang lain tetapi sebagian besar masalah menarik saat ini (misalnya, mobil yang bisa menyetir sendiri) dapat dengan mudah dan tepat disebut semua ini. Semoga ini membersihkan hubungan di antara mereka yang Anda tanyakan.
sumber
Secara umum, model probabilistik (dan dengan demikian statistik) telah terbukti menjadi cara yang paling efektif untuk secara formal menyusun pengetahuan dan pemahaman dalam suatu mesin, sedemikian rupa sehingga ketiganya (AI, ML dan DM) saat ini sebagian besar merupakan subbidang dari statistik. Bukan disiplin pertama yang menjadi lengan bayangan statistik ... (Ekonomi, psikologi, bioinformatika, dll.)
sumber
Kita dapat mengatakan bahwa mereka semua terkait, tetapi mereka semua adalah hal yang berbeda. Meskipun Anda dapat memiliki kesamaan di antara mereka, seperti dalam statistik dan data mining Anda menggunakan metode pengelompokan.
Biarkan saya mencoba mendefinisikan secara singkat masing-masing:
Statistik adalah disiplin yang sangat tua terutama didasarkan pada metode matematika klasik, yang dapat digunakan untuk tujuan yang sama bahwa kadang-kadang data mining adalah mengklasifikasikan dan mengelompokkan hal-hal.
Penambangan data terdiri dari model bangunan untuk mendeteksi pola yang memungkinkan kita untuk mengklasifikasikan atau memprediksi situasi mengingat sejumlah fakta atau faktor.
Kecerdasan buatan (lihat Marvin Minsky *) adalah disiplin yang mencoba meniru cara otak bekerja dengan metode pemrograman, misalnya membangun program yang memainkan catur.
Pembelajaran mesin adalah tugas membangun pengetahuan dan menyimpannya dalam beberapa bentuk di komputer; bentuk itu bisa dari model matematika, algoritma, dll ... Apa pun yang dapat membantu mendeteksi pola.
sumber
Saya paling akrab dengan pembelajaran mesin - poros penambangan data - jadi saya akan berkonsentrasi pada hal itu:
Pembelajaran mesin cenderung tertarik pada kesimpulan dalam situasi non-standar, misalnya data non-iid, pembelajaran aktif, pembelajaran semi-diawasi, pembelajaran dengan data terstruktur (misalnya string atau grafik). ML juga cenderung tertarik pada batasan teoretis tentang apa yang dapat dipelajari, yang sering membentuk dasar untuk algoritma yang digunakan (misalnya mesin vektor dukungan). ML cenderung bersifat Bayesian.
Penambangan data tertarik untuk menemukan pola dalam data yang belum Anda ketahui. Saya tidak yakin itu sangat berbeda dari analisis data eksplorasi dalam statistik, sedangkan dalam pembelajaran mesin umumnya ada masalah yang lebih jelas untuk dipecahkan.
ML cenderung lebih tertarik pada dataset kecil di mana over-fitting adalah masalahnya dan data mining cenderung tertarik pada dataset skala besar di mana masalahnya berkaitan dengan jumlah data.
Statistik dan pembelajaran mesin menyediakan banyak alat dasar yang digunakan oleh penambang data.
sumber
Ini saya ambil. Mari kita mulai dengan dua kategori yang sangat luas:
Baik ML dan DM biasanya keduanya, AI dan statistik, karena mereka biasanya melibatkan metode dasar dari keduanya. Berikut ini beberapa perbedaannya:
Selain itu, penambangan data biasanya melibatkan lebih banyak manajemen data , yaitu bagaimana mengatur data dalam struktur indeks dan database yang efisien.
Sayangnya, mereka tidak mudah untuk dipisahkan. Misalnya, ada "pembelajaran tanpa pengawasan", yang seringkali lebih erat kaitannya dengan DM daripada ML, karena tidak dapat mengoptimalkan menuju tujuan. Di sisi lain, metode DM sulit untuk dievaluasi (bagaimana Anda menilai sesuatu yang tidak Anda ketahui?) Dan sering dievaluasi pada tugas yang sama seperti pembelajaran mesin, dengan meninggalkan beberapa informasi. Namun, ini biasanya akan membuat mereka tampak bekerja lebih buruk daripada metode pembelajaran mesin yang dapat mengoptimalkan menuju tujuan evaluasi yang sebenarnya.
Selain itu, mereka sering digunakan dalam kombinasi. Misalnya, metode penambangan data (katakanlah, pengelompokan, atau deteksi outlier yang tidak diawasi) digunakan untuk memproses data, kemudian metode pembelajaran mesin diterapkan pada data yang telah diproses untuk melatih pengklasifikasi yang lebih baik.
Pembelajaran mesin biasanya lebih mudah untuk dievaluasi: ada tujuan seperti skor atau prediksi kelas. Anda dapat menghitung presisi dan daya ingat. Dalam penggalian data, sebagian besar evaluasi dilakukan dengan meninggalkan beberapa informasi (seperti label kelas) dan kemudian menguji apakah metode Anda menemukan struktur yang sama. Ini naif dalam arti, karena Anda menganggap bahwa label kelas menyandikan struktur data sepenuhnya; Anda benar-benar menghukum algoritma penambangan data yang menemukan sesuatu yang baru dalam data Anda. Cara lain - secara tidak langsung - mengevaluasinya, adalah bagaimana struktur yang ditemukan meningkatkan kinerja algoritma ML yang sebenarnya (misalnya saat mempartisi data atau menghapus pencilan). Namun, evaluasi ini didasarkan pada mereproduksi hasil yang ada, yang sebenarnya bukan tujuan data mining ...
sumber
Saya akan menambahkan beberapa pengamatan pada apa yang dikatakan ...
AI adalah istilah yang sangat luas untuk segala sesuatu yang berkaitan dengan mesin yang melakukan kegiatan yang tampak seperti penalaran atau penampilan, mulai dari merencanakan tugas atau bekerja sama dengan entitas lain, hingga belajar mengoperasikan tungkai berjalan. Definisi empuk adalah bahwa AI adalah sesuatu yang berhubungan dengan komputer yang belum kita ketahui bagaimana melakukannya dengan baik. (Begitu kita tahu bagaimana melakukannya dengan baik, umumnya namanya akan sendiri dan tidak lagi "AI".)
Kesan saya, bertentangan dengan Wikipedia, bahwa Pengenalan Pola dan Pembelajaran Mesin adalah bidang yang sama, tetapi yang pertama dipraktikkan oleh orang-orang ilmu komputer sedangkan yang kedua dipraktikkan oleh ahli statistik dan insinyur. (Banyak bidang teknis ditemukan berulang kali oleh subkelompok yang berbeda, yang sering membawa istilah dan pola pikir mereka sendiri ke meja.)
Bagaimanapun, Data Mining, mengambil Machine Learning / Pengenalan Pola (teknik yang bekerja dengan data) dan membungkusnya dalam database, infrastruktur, dan teknik validasi data / pembersihan.
sumber
Sayangnya, perbedaan antara bidang-bidang ini sebagian besar di mana mereka diajarkan: statistik didasarkan pada dept matematika, ai, pembelajaran mesin di dept ilmu komputer, dan penambangan data lebih diterapkan (digunakan oleh dept bisnis atau pemasaran, dikembangkan oleh perusahaan perangkat lunak) .
Pertama AI (meskipun bisa berarti sistem cerdas) secara tradisional berarti pendekatan berbasis logika (misalnya sistem pakar) daripada estimasi statistik. Statistik, berbasis di dept matematika, telah memiliki pemahaman teoritis yang sangat baik, bersama dengan pengalaman terapan yang kuat dalam ilmu-ilmu eksperimental, di mana ada model ilmiah yang jelas, dan statistik diperlukan untuk berurusan dengan data eksperimen terbatas yang tersedia. Fokusnya sering pada memeras informasi maksimum dari kumpulan data yang sangat kecil. selanjutnya ada bias terhadap bukti matematika: Anda tidak akan dipublikasikan kecuali Anda dapat membuktikan hal-hal tentang pendekatan Anda. Ini cenderung berarti bahwa statistik telah ketinggalan dalam penggunaan komputer untuk mengotomatisasi analisis. Lagi, kurangnya pengetahuan pemrograman telah mencegah ahli statistik untuk bekerja pada masalah skala besar di mana masalah komputasi menjadi penting (pertimbangkan GPU dan sistem terdistribusi seperti hadoop). Saya percaya bahwa bidang-bidang seperti bioinformatika kini telah memindahkan statistik lebih banyak ke arah ini. Akhirnya saya akan mengatakan bahwa ahli statistik adalah kelompok yang lebih skeptis: mereka tidak mengklaim bahwa Anda menemukan pengetahuan dengan statistik - lebih tepatnya seorang ilmuwan muncul dengan hipotesis, dan pekerjaan ahli statistik adalah untuk memeriksa bahwa hipotesis didukung oleh data. Pembelajaran mesin diajarkan di departemen cs, yang sayangnya tidak mengajarkan matematika yang sesuai: kalkulus multivariabel, probabilitas, statistik, dan optimisasi bukanlah hal yang biasa ... seseorang memiliki konsep 'glamor' yang samar-samar seperti belajar dari contoh ...Elemen pembelajaran statistik halaman 30. Ini cenderung berarti bahwa ada sangat sedikit pemahaman teoretis dan ledakan algoritma karena peneliti selalu dapat menemukan beberapa dataset yang membuktikan algoritma mereka lebih baik. Jadi ada fase besar hype sebagai peneliti ML mengejar hal besar berikutnya: jaringan saraf, pembelajaran mendalam dll. Sayangnya ada lebih banyak uang di departemen CS (pikirkan google, Microsoft, bersama dengan 'pembelajaran' yang lebih berharga) sehingga ahli statistik yang lebih skeptis diabaikan. Akhirnya, ada bengkok empiris: pada dasarnya ada keyakinan yang mendasari bahwa jika Anda membuang data yang cukup pada algoritma itu akan 'mempelajari' prediksi yang benar. Sementara saya bias terhadap ML, ada wawasan mendasar dalam ML yang diabaikan ahli statistik: bahwa komputer dapat merevolusi penerapan statistik.
Ada dua cara - a) mengotomatiskan penerapan tes dan model standar. Misalnya menjalankan baterai model (regresi linier, hutan acak, dll. Mencoba berbagai kombinasi input, pengaturan parameter, dll). Ini belum benar-benar terjadi - walaupun saya curiga bahwa pesaing di kaggle mengembangkan teknik otomasi mereka sendiri. b) menerapkan model statistik standar untuk data yang sangat besar: pikirkan misalnya google translate, sistem merekomendasikan dll (tidak ada yang mengklaim bahwa misalnya orang menerjemahkan atau merekomendasikan seperti itu..tapi itu alat yang berguna). Model statistik yang mendasarinya sangat mudah tetapi ada masalah komputasi yang sangat besar dalam menerapkan metode ini hingga miliaran poin data.
Penambangan data adalah puncak dari filosofi ini ... mengembangkan cara otomatis untuk mengekstraksi pengetahuan dari data. Namun, ia memiliki pendekatan yang lebih praktis: pada dasarnya itu diterapkan pada data perilaku, di mana tidak ada teori ilmiah menyeluruh (pemasaran, deteksi penipuan, spam dll) dan tujuannya adalah untuk mengotomatiskan analisis volume data yang besar: tidak diragukan lagi Tim ahli statistik dapat menghasilkan analisis yang lebih baik dengan waktu yang cukup, tetapi lebih hemat biaya untuk menggunakan komputer. Lebih lanjut seperti yang dijelaskan oleh D. Hand, ini adalah analisis data sekunder - data yang dicatat tetap daripada data yang telah dikumpulkan secara eksplisit untuk menjawab pertanyaan ilmiah dalam desain eksperimental yang solid. Statistik penambangan data dan banyak lagi, D Hand
Jadi saya akan meringkas bahwa AI tradisional lebih didasarkan pada logika daripada statistik, pembelajaran mesin adalah statistik tanpa teori dan statistik adalah 'statistik tanpa komputer', dan data mining adalah pengembangan alat otomatis untuk analisis statistik dengan intervensi pengguna yang minimal.
sumber
Penambangan data adalah tentang menemukan pola tersembunyi atau pengetahuan yang tidak diketahui, yang dapat digunakan untuk pengambilan keputusan oleh orang-orang.
Pembelajaran mesin adalah tentang mempelajari model untuk mengklasifikasikan objek baru.
sumber
Menurut pendapat saya, Kecerdasan Buatan dapat dianggap sebagai "superset" bidang seperti Pembelajaran Mesin, Penambangan Data, Pengenalan Pola, dll.
Statistik, adalah bidang matematika yang mencakup semua model matematika, teknik, dan teorema yang digunakan dalam AI.
Machine Learning adalah bidang AI yang mencakup semua algoritme yang menerapkan Model Statistik yang disebutkan di atas dan memahami data, yaitu, analitik prediktif seperti pengelompokan dan klasifikasi.
Penambangan Data adalah ilmu yang menggunakan semua teknik di atas (terutama pembelajaran mesin) untuk mengekstraksi pola yang berguna dan penting dari data. Penambangan Data biasanya berkaitan dengan penggalian informasi bermanfaat dari kumpulan data besar, yaitu, Big Data.
sumber
Bagaimana dengan: mengajar mesin untuk belajar
Kenali pola yang berarti dalam data: penggalian data
Memprediksi hasil dari pola yang diketahui: ML
Temukan fitur baru untuk memetakan ulang data mentah: AI
Otak burung ini sangat membutuhkan definisi sederhana.
sumber
Seringkali penambangan data mencoba untuk "memprediksi" beberapa data masa depan, atau "menjelaskan" mengapa sesuatu terjadi.
Statistik lebih digunakan untuk memvalidasi hipotesis di mata saya. Tapi ini adalah diskusi subjektif.
Satu perbedaan yang jelas antara ahli statistik dan penambang data dapat ditemukan dalam jenis statistik ringkasan yang mereka lihat.
Statistik sering membatasi diri pada R² dan akurasi, sedangkan penambang data akan melihat AUC, kurva ROC, kurva angkat, dll, dan mungkin juga khawatir dengan menggunakan kurva akurasi terkait biaya.
Paket data mining (misalnya open source Weka), telah membangun teknik untuk pemilihan input, mendukung klasifikasi mesin vektor, dll. Sementara ini sebagian besar hanya tidak ada dalam paket statistik seperti JMP. Saya baru-baru ini ketika kursus "penambangan data di jmp" dari orang-orang jmp, dan meskipun itu adalah paket yang kuat secara visual, beberapa teknik penambangan data penting pra / post / mid hanya hilang. Seleksi input dilakukan secara manual, untuk mendapatkan wawasan dalam data, masih dalam data mining, itu hanya niat Anda untuk merilis algoritma, cerdas, pada data besar dan secara otomatis melihat apa yang keluar. Kursus ini jelas diajarkan oleh orang-orang statistik, yang menekankan perbedaan pola pikir antara keduanya.
sumber