Pertanyaan umum, seperti judulnya, adalah:
- Apa perbedaan antara DS dan OR / optimisasi.
Pada level konseptual, saya memahami bahwa DS mencoba mengekstraksi pengetahuan dari data yang tersedia dan kebanyakan menggunakan teknik Statistik, Pembelajaran Mesin. Di sisi lain, OR menggunakan data untuk membuat keputusan berdasarkan data, misalnya dengan mengoptimalkan beberapa fungsi objektif (kriteria) atas data (input).
Saya bertanya-tanya, bagaimana kedua paradigma ini dibandingkan.
- Apakah satu bagian dari yang lain?
- Apakah mereka mempertimbangkan bidang yang saling melengkapi?
- Apakah ada contoh bahwa satu bidang melengkapi yang lain atau digunakan dalam konjugasi?
Secara khusus, saya tertarik pada yang berikut:
Apakah ada contoh di mana teknik OR digunakan untuk memecahkan pertanyaan / masalah Ilmu Data?
optimization
data-mining
PsySp
sumber
sumber
Jawaban:
Sementara Riset Operasi dan Ilmu Data keduanya mencakup sejumlah besar topik dan area, saya akan mencoba memberikan perspektif saya tentang apa yang saya lihat sebagai bagian yang paling representatif dan mainstream dari masing-masing.
Seperti yang telah ditunjukkan orang lain, sebagian besar Riset Operasi terutama berkaitan dengan pengambilan keputusan . Sementara ada banyak cara berbeda untuk menentukan bagaimana membuat keputusan, bagian OR yang paling utama (menurut saya) difokuskan pada pemodelan masalah keputusan dalam kerangka kerja pemrograman matematika. Dalam kerangka kerja semacam ini, Anda biasanya memiliki seperangkat variabel keputusan, kendala atas variabel-variabel ini, dan fungsi obyektif yang bergantung pada variabel keputusan Anda yang ingin Anda perkecil atau maksimalkan. Ketika variabel keputusan dapat mengambil nilai dalam , kendala adalah ketidaksetaraan linear atas variabel keputusan Anda, dan fungsi objektif adalah fungsi linear dari variabel keputusan, maka Anda memiliki program linierR - pekerja keras utama OR selama enam puluh tahun terakhir. Jika Anda memiliki jenis fungsi atau kendala obyektif lain, Anda berada dalam ranah pemrograman integer , pemrograman kuadratik , pemrograman semi-pasti , dll ...
Ilmu Data, di sisi lain, sebagian besar berkaitan dengan membuat kesimpulan. Di sini, Anda biasanya memulai dengan tumpukan besar data dan Anda ingin menyimpulkan sesuatu tentang data yang belum Anda lihat di tumpukan besar Anda. Jenis-jenis hal yang Anda lihat di sini adalah: 1) tumpukan besar data mewakili hasil dua opsi berbeda di masa lalu dan Anda ingin tahu opsi mana yang akan menghasilkan hasil terbaik, 2) tumpukan besar data mewakili waktu seri dan Anda ingin tahu bagaimana deret waktu akan meluas ke masa depan, 3) tumpukan besar data mewakili serangkaian pengamatan berlabel dan Anda ingin menyimpulkan label untuk pengamatan baru dan taklabel. Dua contoh pertama jatuh tepat ke bidang statistik klasik (pengujian hipotesis dan peramalan seri waktu, masing-masing) sedangkan contoh ketiga saya pikir lebih terkait erat dengan topik pembelajaran mesin modern (klasifikasi).
Jadi, menurut pendapat saya, Riset Operasi dan Ilmu Data sebagian besar disiplin ilmu ortogonal, meskipun ada beberapa tumpang tindih. Secara khusus, saya pikir peramalan seri waktu muncul dalam jumlah non-sepele dalam OR; itu salah satu bagian OR yang lebih signifikan, berbasis pemrograman non-matematika. Riset Operasi adalah tempat Anda berpaling jika Anda memiliki hubungan yang diketahui antara input dan output; Ilmu Data adalah tempat Anda berpaling jika Anda mencoba menentukan hubungan itu (untuk beberapa definisi input dan output).
sumber
Ini bukan jawaban yang lengkap, karena mhum's cukup bagus dalam membedakan tujuan OR vs DS yang berbeda.
Sebaliknya, saya ingin membahas komentar Anda ini:
Jawabannya iya. Contoh paling jelas yang muncul dalam pikiran adalah Support Vector Machines (SVMs) .
Untuk "menyesuaikan" model SVM dengan beberapa data (yang harus dilakukan sebelum Anda dapat menggunakannya untuk menyimpulkan prediksi), masalah pengoptimalan berikut ini harus dipecahkan:
Ini adalah masalah optimisasi terbatas, seperti banyak di bidang OR, dan diselesaikan dengan menggunakan metode pemrograman kuadratik atau metode titik interior. Ini umumnya terkait dengan bidang OR daripada DS tetapi ini adalah contoh penerapannya yang lebih luas.
Secara lebih umum, optimisasi adalah kunci dari banyak model statistik dan pembelajaran mesin yang digunakan di bidang DS, karena proses pelatihan model-model ini biasanya dapat dirumuskan sebagai masalah minimalisasi yang melibatkan fungsi kehilangan / penyesalan - sejak berabad-abad yang sederhana. model regresi linier ke jaringan saraf dalam belajar terbaru.
Referensi yang baik tentang SVM adalah Uskup .
sumber
Sebagai ahli strategi, saya memiliki kesempatan untuk bekerja dengan kedua sisi disiplin. Dalam mencoba menjelaskan apa OR dan DS untuk eksekutif MBA kualitatif, saya (terlalu) pengantar satu baris sederhana untuk masing-masing
ATAU: para ekonom yang tahu cara membuat kode
DS: ahli statistik yang tahu cara membuat kode DS.
Dalam istilah praktis, bagaimana kedua kelompok biasanya bersatu: sisi OR mengembangkan model keputusan, dan sisi DS menentukan implementasi data yang sesuai untuk memberi makan model.
Masing-masing pada mereka sendiri, akan bergantung pada tradisi teoritis dari disiplin ilmu mereka - bersama-sama, mereka melakukan eksperimen untuk menyusun data dan menyempurnakan model untuk mendapatkan wawasan sejati yang diperlukan untuk keputusan yang optimal. Ketika masing-masing mengenal yang lain, pemikiran dan bahasa mereka biasanya akan bertemu.
sumber
Ilmu data adalah bidang luas yang berhubungan dengan data secara umum. Jika ini terdengar samar, itu normal karena memang benar. Ini telah menjadi kata buzz selama beberapa tahun sekarang. Pada dasarnya, ia mencoba menemukan cara untuk mengeksploitasi data: apa yang bisa saya lakukan dengan data saya (wawasan apa yang bisa saya dapatkan dari itu?).
Riset Operasi adalah ilmu optimasi matematika: Anda memodelkan masalah menjadi "persamaan", menyelesaikan model matematika ini dan menerjemahkan solusi kembali ke pengaturan masalah awal Anda. Ini adalah alat untuk membantu membuat keputusan: apa yang harus / bisa saya lakukan untuk mendapatkan ini atau itu.
Banyak masalah bisnis dapat dilihat sebagai masalah optimasi. Mengingat bahwa saya mencoba untuk memaksimalkan pendapatan saya, mengingat kendala sumber daya, bagaimana tepatnya saya akan menjalankan bisnis saya, dari nilai apa yang harus saya tetapkan untuk variabel keputusan saya. Masalah seperti penjadwalan, perencanaan fasilitas, manajemen rantai pasokan ... dll. Semua teknik pengungkitan leverage.
Optimalisasi portofolio juga merupakan contoh klasik di mana optimasi digunakan. Misalkan saya dapat berinvestasi dalam beberapa aset yang berbeda dalam portofolio saya, masing-masing dengan pengembalian non-deterministik, bagaimana saya harus menyeimbangkan portofolio saya sehingga saya meminimalkan risiko portofolio keseluruhan saya sambil mempertahankan tingkat pengembalian moneter. Dalam pengaturan ini, fungsi objektif sering menjadi risiko / varians dari portofolio, dan kendala adalah tingkat pengembalian investasi yang diperlukan, serta jumlah uang yang Anda miliki.
sumber
Jika Anda menghitung ML dan AI yang didorong oleh ML sebagai bagian dari Ilmu Data (yang dilakukan sebagian orang dan sebagian tidak menurut pengalaman saya, misalnya program profesional Microsoft di AI berisi aspek kunci dari Ilmu Data + pembelajaran Mesin (dengan DL dan RL) ) sementara Sekolah Tinggi Ekonomi menyajikan bagian maju yang sama dari cuuriculum Microsoft sebagai Advanced Machine Learning) maka ada banyak kesamaan dalam matematika yang digunakan di kedua bidang. Misalnya: Pemrograman Nonlinear (Pengganda Lagrange, kondisi KKT ...) -> digunakan untuk derivasi Mesin Vektor Dukungan ... Ekonometrik yang sebagian besar didasarkan pada Regresi ---> Regresi adalah bagian kunci dari kedua Scinece Data pada umumnya dan lebih spesifik Pembelajaran dengan Pengawasan ... Statistik (biasanya ditemukan dalam Kurikulum OR) ---> kunci untuk Ilmu Data dan Pembelajaran Mesin juga ... Proses Stochastic ---> sangat penting dalam Reinforcement Learning ... Dynamic Programming ---> kembali ditemukan di Reinforcement Learning ... Jadi, saya akan mengatakan ada beberapa kesamaan dengan Ilmu Data secara umum dan cukup banyak kesamaan dengan ML. Tentu saja, tujuan dari disiplin ilmu ini berbeda tetapi ada banyak kesamaan dalam matematika yang digunakan dalam disiplin ilmu ini.
sumber