Saat ini saya sedang mengerjakan proyek yang pada dasarnya saya butuhkan, seperti yang kita semua lakukan, untuk memahami bagaimana output terkait dengan input . Kekhasan di sini adalah bahwa data diberikan kepada saya satu per satu, jadi saya ingin memperbarui analisis saya setiap kali saya menerima yang baru . Saya percaya ini disebut pemrosesan "on-line", sebagai lawan dari pemrosesan "batch", di mana Anda memiliki semua data yang diperlukan dan melakukan perhitungan Anda menggunakan semua data pada saat yang sama.x ( y , x ) ( y , x )
Jadi saya mencari-cari ide, dan akhirnya saya menyimpulkan bahwa dunia terbagi menjadi tiga:
Bagian pertama adalah tanah statistik dan ekonometrika. Orang di sana melakukan OLS, GLS, variabel instrumen, ARIMA, tes, perbedaan perbedaan, PCA dan yang lainnya. Tanah ini sebagian besar didominasi oleh linearitas dan hanya memproses "batch".
Bagian kedua adalah pulau pembelajaran mesin dan kata-kata lain seperti kecerdasan buatan, pembelajaran yang diawasi dan tidak diawasi, jaringan saraf dan SVM. Pemrosesan "batch" dan "on-line" dilakukan di sini.
Bagian ketiga adalah seluruh benua yang baru saja saya temukan, sebagian besar dihuni oleh insinyur listrik, jadi sepertinya. Di sana, orang sering menambahkan kata "filter" ke alat mereka, dan mereka menemukan barang-barang hebat seperti algoritma Widrow-Hoff, kuadrat terkecil rekursif , filter Wiener , filter Kalman , dan mungkin hal-hal lain yang belum saya temukan. Tampaknya mereka melakukan sebagian besar pemrosesan "on-line" karena lebih sesuai dengan kebutuhan mereka.
Jadi pertanyaan saya adalah, apakah Anda memiliki visi global tentang semua ini? Saya mendapat kesan bahwa ketiga bagian dunia ini tidak terlalu banyak bicara satu sama lain. Apakah aku salah? Apakah ada Teori Kesatuan Memahami yang Besar Bagaimana Berkaitan dengan ? Apakah Anda tahu sumber daya di mana dasar teori itu mungkin diletakkan?X
Saya tidak yakin apakah pertanyaan ini benar-benar masuk akal, tetapi saya agak bingung antara semua teori itu. Saya membayangkan jawaban untuk pertanyaan "haruskah saya menggunakan ini atau itu?" akan "itu tergantung pada apa yang ingin Anda lakukan (dan pada data Anda)". Namun saya merasa ketiga dunia tersebut mencoba menjawab pertanyaan yang sama ( ?) Dan karenanya mungkin untuk memiliki pandangan yang lebih tinggi tentang semua ini, dan sangat memahami apa yang membuat masing-masing teknik menjadi istimewa.
sumber
Jawaban:
Dalam hal batch versus on-line, pengalaman saya mengatakan bahwa kadang-kadang Anda menggabungkan keduanya. Yang saya maksudkan adalah Anda membiarkan pekerjaan berat, yaitu menghitung hal-hal intensif yang berkaitan dengan formulasi model dilakukan secara off-line dan kemudian menggunakan prosedur cepat / adaptif untuk menggunakan model ini. Kami telah menemukan bahwa "data baru" dapat digunakan dalam tiga cara; 1. untuk hanya memperkirakan; 2. untuk merevisi parameter dari model yang diketahui dan 3. untuk merevisi parameter dan mungkin merevisi model. Tiga pendekatan ini telah digunakan untuk "analisis langsung" dan tentu saja waktu untuk menyelesaikan salah satu dari tiga langkah ini tergantung pada perangkat lunak yang digunakan dan perangkat keras yang tersedia.
Sekarang ke poin Anda yang lain tentang cara memodelkan y vs x. Saya lebih suka menggunakan versi regresi yang diperluas (disebut Fungsi Transfer atau Model ARMAX) sebagai dasar untuk menarik keluar dampak sejarah y dan nilai saat ini dan pas x. Sangat penting bahwa seseorang memvalidasi persyaratan Gaussian dan untuk menggabungkan sebagai proxy yang diperlukan untuk kedua struktur deterministik dihilangkan (melalui Deteksi Outlier) dan struktur stokastik dihilangkan melalui komponen ARMA. Selain itu kita perlu memastikan bahwa kita tidak menggunakan terlalu banyak data (tes untuk parameter konstan) dan bahwa setiap varian kesalahan tidak konstan yang dihasilkan dari varians kesalahan deterministik / stokastik dan / atau keterkaitan antara nilai y yang diharapkan dan varians dari residu.
Sekarang secara historis (atau secara histeris jika Anda mau) berbagai silo pemikiran telah berusaha merumuskan pendekatan. Banyak model ad-hoc yang digunakan oleh nenek moyang kita tebu ditampilkan sebagai himpunan bagian dari Fungsi Transfer tetapi ada set data yang dapat dibayangkan yang akan menantang asumsi Fungsi Transfer. Meskipun kumpulan data ini mungkin ada, tidak boleh diasumsikan bahwa mereka akan secara langsung mempengaruhi Anda kecuali analisis menghasilkan kesimpulan itu.
Teks seperti Wei (Addison-Wessley) atau Box-Jenkins harus memberikan peta jalan yang masuk akal untuk mendukung commnents saya dan untuk mengarahkan Anda ke beberapa "jawaban" lainnya
Ngomong-ngomong, ini adalah Pertanyaan Hebat!
Selain itu jika Anda memiliki data apa pun yang ingin Anda gunakan, saya dapat menunjukkan berbagai opsi yang diuraikan di sini. Silakan kirim data Anda ke web agar semua orang dapat melihat dan menggunakannya dalam upaya mereka untuk menghubungkan "y to x".
sumber
Breiman mengatasi masalah ini dalam " Pemodelan Statistik: Dua Budaya ". Respons pertama terhadap pertanyaan yang sangat bagus.
sumber
Saya menduga jawaban untuk pertanyaan ini adalah sesuatu di sepanjang baris "tidak ada makan siang gratis." Mungkin alasan ahli statistik, ilmuwan komputer, dan insinyur kelistrikan telah mengembangkan algoritma yang berbeda adalah karena mereka tertarik untuk menyelesaikan berbagai jenis masalah.
sumber
Saya akan mengatakan bahwa ketiga kelompok yang Anda sebutkan ini memang hanya dua kelompok:
Semua cabang yang terkait dengan penyaringan sinyal didasarkan pada dua aspek: ekstraksi fitur (wavelet, Gabor dan Fourier) yang termasuk dalam pengenalan pola dan Transformasi Fourier Diskrit yang termasuk dalam matematika keras. Faktanya, penyaringan digital lebih dekat dengan sisi teknik karena mencoba menyelesaikan masalah pengenalan pola ini dengan menggunakan algoritma biaya komputasi yang sederhana dan rendah. Tetapi pada dasarnya, ini adalah pembelajaran mesin.
Selain itu, Pemfilteran, Wavelet, Gabor, dan Fourier banyak digunakan dalam pemrosesan gambar sebagai inti dari penglihatan buatan.
Perbedaan ada antara statistik dan pembelajaran mesin.
sumber