Ilmu Data vs Riset Operasi

11

Pertanyaan umum, seperti judulnya, adalah:

  • Apa perbedaan antara DS dan OR / optimisasi.

Pada level konseptual, saya memahami bahwa DS mencoba mengekstraksi pengetahuan dari data yang tersedia dan kebanyakan menggunakan teknik Statistik, Pembelajaran Mesin. Di sisi lain, OR menggunakan data untuk membuat keputusan berdasarkan data, misalnya dengan mengoptimalkan beberapa fungsi objektif (kriteria) atas data (input).

Saya bertanya-tanya, bagaimana kedua paradigma ini dibandingkan.

  • Apakah satu bagian dari yang lain?
  • Apakah mereka mempertimbangkan bidang yang saling melengkapi?
  • Apakah ada contoh bahwa satu bidang melengkapi yang lain atau digunakan dalam konjugasi?

Secara khusus, saya tertarik pada yang berikut:

Apakah ada contoh di mana teknik OR digunakan untuk memecahkan pertanyaan / masalah Ilmu Data?

PsySp
sumber
3
Saya tidak yakin ini benar-benar pertanyaan tentang ilmu komputer tetapi saya kira itu cukup dekat. Saya mengedit bagian tentang apa yang dipikirkan orang di satu sisi tentang yang lain, karena itu tampaknya sepenuhnya merupakan masalah pendapat.
David Richerby
@ DavidRicherby terima kasih. Saya setuju dengan Anda bahwa itu bisa menjadi masalah pendapat. Secara tradisional, kedua disiplin ilmu telah diajarkan, dan muncul, dari komunitas CS, jadi, saya kira, ini adalah tempat yang tepat untuk bertanya.
PsySp
@DW terima kasih. Saya telah membaca artikel dan sejujurnya saya gagal melihat diskusi tentang tumpang tindih dan / atau perbedaan antara dua bidang yang disebutkan. Secara khusus, bagaimana yang satu melengkapi yang lain.
PsySp
1
Ilmu Data terutama tentang melakukan pekerjaan untuk menemukan informasi melalui data. Riset Operasi terutama tentang melakukan pekerjaan untuk meningkatkan pengambilan keputusan. Anda sering dapat melihat ATAU menggunakan metode untuk menemukan kebijakan yang optimal untuk digunakan dalam pengambilan keputusan. Beberapa metode yang digunakan dalam OR dapat diklasifikasikan sebagai metode Penguatan Pembelajaran dalam komunitas CS, meskipun tidak semua masalah OR adalah dari jenis ini.
spektr

Jawaban:

9

Sementara Riset Operasi dan Ilmu Data keduanya mencakup sejumlah besar topik dan area, saya akan mencoba memberikan perspektif saya tentang apa yang saya lihat sebagai bagian yang paling representatif dan mainstream dari masing-masing.

Seperti yang telah ditunjukkan orang lain, sebagian besar Riset Operasi terutama berkaitan dengan pengambilan keputusan . Sementara ada banyak cara berbeda untuk menentukan bagaimana membuat keputusan, bagian OR yang paling utama (menurut saya) difokuskan pada pemodelan masalah keputusan dalam kerangka kerja pemrograman matematika. Dalam kerangka kerja semacam ini, Anda biasanya memiliki seperangkat variabel keputusan, kendala atas variabel-variabel ini, dan fungsi obyektif yang bergantung pada variabel keputusan Anda yang ingin Anda perkecil atau maksimalkan. Ketika variabel keputusan dapat mengambil nilai dalam , kendala adalah ketidaksetaraan linear atas variabel keputusan Anda, dan fungsi objektif adalah fungsi linear dari variabel keputusan, maka Anda memiliki program linierR- pekerja keras utama OR selama enam puluh tahun terakhir. Jika Anda memiliki jenis fungsi atau kendala obyektif lain, Anda berada dalam ranah pemrograman integer , pemrograman kuadratik , pemrograman semi-pasti , dll ...

Ilmu Data, di sisi lain, sebagian besar berkaitan dengan membuat kesimpulan. Di sini, Anda biasanya memulai dengan tumpukan besar data dan Anda ingin menyimpulkan sesuatu tentang data yang belum Anda lihat di tumpukan besar Anda. Jenis-jenis hal yang Anda lihat di sini adalah: 1) tumpukan besar data mewakili hasil dua opsi berbeda di masa lalu dan Anda ingin tahu opsi mana yang akan menghasilkan hasil terbaik, 2) tumpukan besar data mewakili waktu seri dan Anda ingin tahu bagaimana deret waktu akan meluas ke masa depan, 3) tumpukan besar data mewakili serangkaian pengamatan berlabel dan Anda ingin menyimpulkan label untuk pengamatan baru dan taklabel. Dua contoh pertama jatuh tepat ke bidang statistik klasik (pengujian hipotesis dan peramalan seri waktu, masing-masing) sedangkan contoh ketiga saya pikir lebih terkait erat dengan topik pembelajaran mesin modern (klasifikasi).

Jadi, menurut pendapat saya, Riset Operasi dan Ilmu Data sebagian besar disiplin ilmu ortogonal, meskipun ada beberapa tumpang tindih. Secara khusus, saya pikir peramalan seri waktu muncul dalam jumlah non-sepele dalam OR; itu salah satu bagian OR yang lebih signifikan, berbasis pemrograman non-matematika. Riset Operasi adalah tempat Anda berpaling jika Anda memiliki hubungan yang diketahui antara input dan output; Ilmu Data adalah tempat Anda berpaling jika Anda mencoba menentukan hubungan itu (untuk beberapa definisi input dan output).

mhum
sumber
Terima kasih atas jawaban yang jelas. Saya bertanya-tanya apakah, misalnya, seseorang dapat menggunakan teknik ATAU untuk menyelesaikan masalah DS. Saya akan tertarik pada contoh seperti itu tetapi, dari jawaban Anda, saya ragu ada.
PsySp
@Psysp Eh, mungkin? Saya tidak bisa memikirkan apa pun dari atas kepala saya, tetapi itu jauh dari definitif.
mhum
1
Saya tidak berpikir pembagian antara OR dan DS adalah ketat seperti yang Anda yakini, tetapi ini mungkin karena saya menganggap topik sebagai pembelajaran mesin dan datamining sebagai bagian dari DS daripada menganggap DS sebagai sinonim dari Statistik. (Sayangnya, seperti DS adalah kata kunci, itu telah tidak ada diterima secara luas definisi, sejauh yang saya tahu) Namun, tugas descision dan inferensi kebutuhan tidak saling eksklusif. Pembelajaran mesin adalah bidang di mana keduanya digabungkan: kadang-kadang keputusan yang cerdas harus dibuat untuk membuat kesimpulan yang layak, di lain waktu kesimpulan pintar digunakan untuk keputusan yang baik.
Kadal diskrit
@ Discretelizard Tentu, saya setuju sampai batas tertentu. Saya menyajikan pembagian yang agak mencolok (mungkin hampir karikatur?) Dan berkonsentrasi pada bagian inti dari setiap bidang untuk menyoroti perbedaan dalam jenis masalah masing-masing bidang yang biasanya disetel untuknya. Tepi kedua bidang bisa sangat kabur (terutama di DS yang jauh lebih baru) dan mungkin ada lebih banyak tumpang tindih di sana. Juga, saya setuju bahwa banyak arus utama DS termasuk hal-hal ML tetapi saya tidak yakin persis bagaimana DS dibagi dari ML.
mhum
4

Ini bukan jawaban yang lengkap, karena mhum's cukup bagus dalam membedakan tujuan OR vs DS yang berbeda.

Sebaliknya, saya ingin membahas komentar Anda ini:

Saya bertanya-tanya apakah, misalnya, seseorang dapat menggunakan teknik ATAU untuk menyelesaikan masalah DS.

Jawabannya iya. Contoh paling jelas yang muncul dalam pikiran adalah Support Vector Machines (SVMs) .

Untuk "menyesuaikan" model SVM dengan beberapa data (yang harus dilakukan sebelum Anda dapat menggunakannya untuk menyimpulkan prediksi), masalah pengoptimalan berikut ini harus dipecahkan:

Maksimalkan dual,

g(Sebuah)=saya=1mαsaya-12saya=1mj=1mαsayaαjysayayjxsayaTxj,

tunduk pada kendala

0αsayaC,saya=1nysayaαsaya=0

Ini adalah masalah optimisasi terbatas, seperti banyak di bidang OR, dan diselesaikan dengan menggunakan metode pemrograman kuadratik atau metode titik interior. Ini umumnya terkait dengan bidang OR daripada DS tetapi ini adalah contoh penerapannya yang lebih luas.

Secara lebih umum, optimisasi adalah kunci dari banyak model statistik dan pembelajaran mesin yang digunakan di bidang DS, karena proses pelatihan model-model ini biasanya dapat dirumuskan sebagai masalah minimalisasi yang melibatkan fungsi kehilangan / penyesalan - sejak berabad-abad yang sederhana. model regresi linier ke jaringan saraf dalam belajar terbaru.

Referensi yang baik tentang SVM adalah Uskup .

AG
sumber
2

Sebagai ahli strategi, saya memiliki kesempatan untuk bekerja dengan kedua sisi disiplin. Dalam mencoba menjelaskan apa OR dan DS untuk eksekutif MBA kualitatif, saya (terlalu) pengantar satu baris sederhana untuk masing-masing

ATAU: para ekonom yang tahu cara membuat kode
DS: ahli statistik yang tahu cara membuat kode DS.

Dalam istilah praktis, bagaimana kedua kelompok biasanya bersatu: sisi OR mengembangkan model keputusan, dan sisi DS menentukan implementasi data yang sesuai untuk memberi makan model.

Masing-masing pada mereka sendiri, akan bergantung pada tradisi teoritis dari disiplin ilmu mereka - bersama-sama, mereka melakukan eksperimen untuk menyusun data dan menyempurnakan model untuk mendapatkan wawasan sejati yang diperlukan untuk keputusan yang optimal. Ketika masing-masing mengenal yang lain, pemikiran dan bahasa mereka biasanya akan bertemu.

pengguna88056
sumber
1
Saya memahami deskripsi praktis DS sebagai 'ahli statistik yang membuat kode', tetapi deskripsi untuk OR tampak agak aneh bagi saya. ATAU termasuk logistik dan masalah perutean terkait. Bagiku itu tidak terlihat seperti tempat yang alami bagi seorang ekonom. Mungkin Anda bisa menguraikan mengapa OR dilakukan oleh para ekonom dalam praktik?
Kadal diskrit
1
@ Discretelizard Saya tidak ragu bahwa ekonom melakukan ATAU, tetapi ada, seperti yang Anda katakan, heck of banyak ATAU yang tidak ada hubungannya dengan ekonomi dan dilakukan oleh ilmuwan komputer, ahli matematika dan lain-lain.
David Richerby
0

Ilmu data adalah bidang luas yang berhubungan dengan data secara umum. Jika ini terdengar samar, itu normal karena memang benar. Ini telah menjadi kata buzz selama beberapa tahun sekarang. Pada dasarnya, ia mencoba menemukan cara untuk mengeksploitasi data: apa yang bisa saya lakukan dengan data saya (wawasan apa yang bisa saya dapatkan dari itu?).

Riset Operasi adalah ilmu optimasi matematika: Anda memodelkan masalah menjadi "persamaan", menyelesaikan model matematika ini dan menerjemahkan solusi kembali ke pengaturan masalah awal Anda. Ini adalah alat untuk membantu membuat keputusan: apa yang harus / bisa saya lakukan untuk mendapatkan ini atau itu.

Banyak masalah bisnis dapat dilihat sebagai masalah optimasi. Mengingat bahwa saya mencoba untuk memaksimalkan pendapatan saya, mengingat kendala sumber daya, bagaimana tepatnya saya akan menjalankan bisnis saya, dari nilai apa yang harus saya tetapkan untuk variabel keputusan saya. Masalah seperti penjadwalan, perencanaan fasilitas, manajemen rantai pasokan ... dll. Semua teknik pengungkitan leverage.

Optimalisasi portofolio juga merupakan contoh klasik di mana optimasi digunakan. Misalkan saya dapat berinvestasi dalam beberapa aset yang berbeda dalam portofolio saya, masing-masing dengan pengembalian non-deterministik, bagaimana saya harus menyeimbangkan portofolio saya sehingga saya meminimalkan risiko portofolio keseluruhan saya sambil mempertahankan tingkat pengembalian moneter. Dalam pengaturan ini, fungsi objektif sering menjadi risiko / varians dari portofolio, dan kendala adalah tingkat pengembalian investasi yang diperlukan, serta jumlah uang yang Anda miliki.

Rameez
sumber
3
Anda hanya daftar ringkasan singkat dari kedua bidang. Jawaban ini tidak membahas perbedaan dan / atau persamaan antara DS dan OR, untuk pertanyaan yang diajukan secara spesifik. Anda dapat meningkatkan jawaban Anda dengan memfokuskan pada bagian itu
Kadal diskrit
-1

Jika Anda menghitung ML dan AI yang didorong oleh ML sebagai bagian dari Ilmu Data (yang dilakukan sebagian orang dan sebagian tidak menurut pengalaman saya, misalnya program profesional Microsoft di AI berisi aspek kunci dari Ilmu Data + pembelajaran Mesin (dengan DL dan RL) ) sementara Sekolah Tinggi Ekonomi menyajikan bagian maju yang sama dari cuuriculum Microsoft sebagai Advanced Machine Learning) maka ada banyak kesamaan dalam matematika yang digunakan di kedua bidang. Misalnya: Pemrograman Nonlinear (Pengganda Lagrange, kondisi KKT ...) -> digunakan untuk derivasi Mesin Vektor Dukungan ... Ekonometrik yang sebagian besar didasarkan pada Regresi ---> Regresi adalah bagian kunci dari kedua Scinece Data pada umumnya dan lebih spesifik Pembelajaran dengan Pengawasan ... Statistik (biasanya ditemukan dalam Kurikulum OR) ---> kunci untuk Ilmu Data dan Pembelajaran Mesin juga ... Proses Stochastic ---> sangat penting dalam Reinforcement Learning ... Dynamic Programming ---> kembali ditemukan di Reinforcement Learning ... Jadi, saya akan mengatakan ada beberapa kesamaan dengan Ilmu Data secara umum dan cukup banyak kesamaan dengan ML. Tentu saja, tujuan dari disiplin ilmu ini berbeda tetapi ada banyak kesamaan dalam matematika yang digunakan dalam disiplin ilmu ini.

Goran Mabic
sumber
Bagaimana cara menjawab pertanyaan?
Evil