Apa perbedaan antara Ilmu Komputasi dan Ilmu Data? [Tutup]

Latar belakang: PhD saya adalah 'Ilmu Komputasi'. Disertasi saya membahas analisis Data Difraksi Sinar-X dan analisis nukleus termal yang terganggu dalam analisis dinamik keseluruhan dari kerapatan elektron molekuler untuk fisika keadaan padat. Dibawa pulang? Itu sangat banyak didasarkan pada sains.

Menurut pendapat saya, Ilmu Komputasi adalah pengejaran ilmu pengetahuan, "... sebuah perusahaan sistematis yang membangun dan mengatur pengetahuan dalam bentuk penjelasan dan prediksi yang dapat diuji tentang alam semesta" ( wiki ), melalui cara komputasi.

Namun, sebagian besar posisi untuk 'Ilmu Data' tampak lebih seperti jenis pekerjaan 'analisis data'. Yaitu, pertanyaan SQL yang berat, menggunakan model R dan Python yang sudah dibuat sebelumnya (regresi linier, dll.) Untuk menarik kesimpulan dari data terstruktur dan tidak terstruktur.

Apakah Ilmu Komputasi merupakan superset dari Ilmu Data? Apakah bisa dipertukarkan? Apakah Ilmu Data adalah 'sains' yang sebenarnya? Apakah Ilmu Komputer adalah 'sains' yang sebenarnya?

data-analysis drjrm3
sumber

Saya pikir pertanyaan itu memiliki beberapa nilai, tetapi Anda harus menyelesaikannya sedikit. Draf laporan di CSE ini mungkin berguna. Mereka telah menyebutkan beberapa tentang hubungan antara keduanya. Anda mungkin berpikir tentang hubungan yang mirip dengan hubungan antara sains eksperimental dan teoritis, entah bagaimana.

nicoguaro

Jawaban:

Mereka tidak bisa saling dipertukarkan.

Ilmu komputasi cenderung lebih mengacu pada HPC, teknik simulasi (persamaan diferensial, dinamika molekuler, dll.), Dan biasanya disebut sebagai komputasi ilmiah.
Ilmu data cenderung mengacu pada analisis data intensif-komputasi, seperti "data besar", bioinformatika, pembelajaran mesin (optimisasi), analisis Bayesian menggunakan MCMC, dll. Saya pikir itu sama dengan apa yang dulu disebut sebagai statistik komputasi. Itu adalah infus ilmu komputer dengan statistik, tetapi banyak teknik yang dikembangkan menjatuhkan "pengujian statistik" yang ketat dari Fisher (pengelompokan, teknik validasi silang, visualisasi data) tetapi tetap mempertahankan bagian data.

Penjelasan paling jelas tentang hal itu datang kepada saya ketika saya mengajar lokakarya tentang Julia untuk Ilmu Data dan Komputasi Ilmiah. Para ilmuwan data ingin mempelajari Julia untuk melakukan analisis "data besar" yang cepat, yaitu regresi dan GLM lain pada data besar. Para ilmuwan komputasi (ilmuwan komputer?) Ingin tahu cara mudah menulis kode untuk memecahkan sistem linear besar pada HPC dan GPU.

Perhatikan itu adalah dua cara untuk mengatakan perhitungan yang persis sama, tetapi dengan makna yang sangat berbeda. Jadi dalam beberapa hal serupa, tetapi masih berbeda (dan ada cross-over antara disiplin ilmu, seperti menggunakan pembelajaran mesin untuk mempelajari parameter untuk PDE dari data).

Chris Rackauckas
sumber