Ilmu Data - halaman 21

13

Apa perbedaan antara upsampling dan upampling bi-linear dalam CNN?

Saya mencoba untuk memahami makalah ini dan tidak yakin apa upampling bi-linear. Adakah yang bisa menjelaskan hal ini pada level

13

Mengapa Algoritma Genetika tidak digunakan untuk mengoptimalkan jaringan saraf?

Dari pemahaman saya, Algoritma Genetika adalah alat yang ampuh untuk optimasi multi-tujuan. Selain itu, pelatihan Neural Networks (terutama yang dalam) sulit dan memiliki banyak masalah (fungsi biaya non-cembung - minimum lokal, menghilang dan meledak gradien dll). Juga saya secara konseptual...

neural-network optimization genetic-algorithms

13

Apakah Gradient Descent penting bagi setiap pengoptimal?

Saya ingin tahu apakah keturunan Gradient adalah algoritma utama yang digunakan dalam pengoptimal seperti Adam, Adagrad, RMSProp dan beberapa pengoptimal lainnya.

machine-learning neural-network deep-learning optimization gradient-descent

12

Bagaimana kueri ke dalam basis data besar kembali dengan latensi yang dapat diabaikan?

Misalnya, saat mencari sesuatu di Google, hasilnya kembali hampir secara instan. Saya memahami bahwa Google mengurutkan dan mengindeks halaman dengan algoritme, dll., Tetapi saya membayangkan tidak mungkin untuk membuat setiap kueri yang mungkin diindeks (dan hasilnya dipersonalisasi, yang...

bigdata google search

12

Alat opensource untuk membantu dalam menambang arus skor papan pemimpin

Pertimbangkan aliran berisi tupel yang (user, new_score) mewakili skor pengguna dalam game online. Aliran bisa memiliki 100-1.000 elemen baru per detik. Permainan ini memiliki 200 ribu hingga 300 ribu pemain unik. Saya ingin memiliki beberapa pertanyaan berdiri seperti: Pemain mana yang...

tools data-stream-mining

12

Instans vs. core saat menggunakan EC2

Bekerja pada apa yang sering disebut proyek "data menengah", saya dapat memparalelkan kode saya (kebanyakan untuk pemodelan dan prediksi dalam Python) pada sistem tunggal di mana saja dari 4 hingga 32 core. Sekarang saya sedang mencari peningkatan skala pada EC2 (mungkin dengan StarCluster /...

parallel clusters aws

12

Pengorbanan antara Storm dan Hadoop (MapReduce)

Dapatkah seseorang dengan ramah memberi tahu saya tentang pertukaran yang terlibat ketika memilih antara Storm dan MapReduce di Hadoop Cluster untuk pemrosesan data? Tentu saja, selain dari yang sudah jelas, bahwa Hadoop (pemrosesan melalui MapReduce dalam Hadoop Cluster) adalah sistem pemrosesan...

bigdata efficiency apache-hadoop distributed

12

Apa saja aplikasi pembelajaran mesin yang mudah dipelajari? [Tutup]

Ditutup . Pertanyaan ini didasarkan pada pendapat . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga dapat dijawab dengan fakta dan kutipan dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Menjadi...

machine-learning

12

Apakah Amazon RedShift menggantikan Hadoop untuk data ~ 1XTB?

Ada banyak hype di sekitar Hadoop dan ekosistemnya. Namun, dalam praktiknya, di mana banyak set data berada dalam kisaran terabyte, apakah tidak lebih masuk akal untuk menggunakan Amazon RedShift untuk menanyakan set data besar, daripada menghabiskan waktu dan upaya membangun cluster Hadoop? Juga,...

apache-hadoop map-reduce aws

12

Apa perbedaan antara metode kompresi global dan universal?

Saya mengerti bahwa metode kompresi dapat dibagi menjadi dua set utama: global lokal Set pertama berfungsi terlepas dari data yang sedang diproses, yaitu, mereka tidak bergantung pada karakteristik data apa pun, dan dengan demikian tidak perlu melakukan preprocessing pada bagian mana pun dari...

classification algorithms encoding

12

Algoritma Pencocokan Preferensi

Ada proyek sampingan yang sedang saya kerjakan di mana saya perlu menyusun solusi untuk masalah berikut. Saya memiliki dua kelompok orang (klien). Grup Abermaksud untuk membeli dan grup Bbermaksud untuk menjual produk yang ditentukan X. Produk ini memiliki serangkaian atribut x_i, dan tujuan saya...

bigdata text-mining recommender-system

12

Mengukur kinerja berbagai pengklasifikasi dengan ukuran sampel yang berbeda

Saat ini saya menggunakan beberapa pengklasifikasi yang berbeda pada berbagai entitas yang diekstraksi dari teks, dan menggunakan presisi / mengingat sebagai ringkasan seberapa baik kinerja masing-masing pengklasifikasi yang terpisah di seluruh dataset yang diberikan. Saya bertanya-tanya apakah...

classification performance

12

Apakah FPGrowth masih dianggap "canggih" dalam penambangan pola yang sering?

Sejauh yang saya tahu pengembangan algoritma untuk memecahkan masalah Frequent Pattern Mining (FPM), jalan perbaikan memiliki beberapa pos pemeriksaan utama. Pertama, algoritma Apriori diusulkan pada tahun 1993, oleh Agrawal et al. , bersamaan dengan formalisasi masalah. Algoritma ini dapat...

bigdata data-mining efficiency state-of-the-art

12

Model basis data yang efisien untuk menyimpan data yang diindeks oleh n-gram

Saya sedang mengerjakan sebuah aplikasi yang membutuhkan pembuatan database n-gram yang sangat besar yang ada dalam corpus teks besar. Saya membutuhkan tiga jenis operasi yang efisien: Pencarian dan penyisipan diindeks oleh n-gram itu sendiri, dan permintaan untuk semua n-gram yang berisi...

nlp databases

12

Memprediksi kondisi medis selanjutnya dari kondisi masa lalu dalam data klaim

Saat ini saya bekerja dengan sejumlah besar data klaim asuransi kesehatan yang mencakup beberapa klaim laboratorium dan farmasi. Namun, informasi paling konsisten dalam kumpulan data terdiri dari diagnosis (ICD-9CM) dan kode prosedur (CPT, HCSPCS, ICD-9CM). Tujuan saya adalah: Identifikasi...

machine-learning r

12

Data sentimen untuk Emoji

Untuk bereksperimen, kami ingin menggunakan Emoji yang tertanam di banyak Tweet sebagai data dasar / pelatihan untuk analisis senitmen kuantitatif sederhana. Tweet biasanya terlalu tidak terstruktur untuk NLP untuk bekerja dengan baik. Bagaimanapun, ada 722 Emoji di Unicode 6.0, dan mungkin 250...

machine-learning classification parsing

12

Klasifikasi teks tidak terstruktur

Saya akan mengklasifikasikan dokumen teks tidak terstruktur, yaitu situs web dengan struktur yang tidak diketahui. Jumlah kelas yang saya klasifikasikan terbatas (pada titik ini, saya yakin tidak ada lebih dari tiga). Adakah yang menyarankan agar saya bisa mulai? Apakah pendekatan "kantong kata"...

machine-learning classification text-mining beginner

12

Hashing Trick - apa yang sebenarnya terjadi

Ketika algoritme ML, misalnya Vowpal Wabbit atau beberapa mesin faktorisasi memenangkan persaingan tingkat klik ( Kaggle ), menyebutkan bahwa fitur 'hash', apa artinya sebenarnya bagi model? Katakanlah ada variabel yang mewakili ID dari internet add, yang mengambil nilai seperti '236BG231'....

machine-learning predictive-modeling kaggle

12

Memodelkan Rentang Waktu yang Tidak Rata

Saya memiliki variabel kontinu, disampel selama periode satu tahun dengan interval tidak teratur. Beberapa hari memiliki lebih dari satu pengamatan per jam, sedangkan periode lainnya tidak memiliki apa-apa selama berhari-hari. Ini membuatnya sangat sulit untuk mendeteksi pola dalam deret waktu,...

neural-network time-series regression

12

Bantuan tentang NER di NLTK

Saya telah bekerja di NLTK untuk sementara menggunakan Python. Masalah yang saya hadapi adalah tidak ada bantuan yang tersedia untuk melatih NER di NLTK dengan data khusus saya. Mereka telah menggunakan MaxEnt dan melatihnya pada ACE corpus. Saya telah mencari di web banyak tetapi saya tidak dapat...

machine-learning python nlp