Ilmu Data

12
Instans vs. core saat menggunakan EC2

Bekerja pada apa yang sering disebut proyek "data menengah", saya dapat memparalelkan kode saya (kebanyakan untuk pemodelan dan prediksi dalam Python) pada sistem tunggal di mana saja dari 4 hingga 32 core. Sekarang saya sedang mencari peningkatan skala pada EC2 (mungkin dengan StarCluster /...

12
Algoritma Pencocokan Preferensi

Ada proyek sampingan yang sedang saya kerjakan di mana saya perlu menyusun solusi untuk masalah berikut. Saya memiliki dua kelompok orang (klien). Grup Abermaksud untuk membeli dan grup Bbermaksud untuk menjual produk yang ditentukan X. Produk ini memiliki serangkaian atribut x_i, dan tujuan saya...

12
Data sentimen untuk Emoji

Untuk bereksperimen, kami ingin menggunakan Emoji yang tertanam di banyak Tweet sebagai data dasar / pelatihan untuk analisis senitmen kuantitatif sederhana. Tweet biasanya terlalu tidak terstruktur untuk NLP untuk bekerja dengan baik. Bagaimanapun, ada 722 Emoji di Unicode 6.0, dan mungkin 250...

12
Memodelkan Rentang Waktu yang Tidak Rata

Saya memiliki variabel kontinu, disampel selama periode satu tahun dengan interval tidak teratur. Beberapa hari memiliki lebih dari satu pengamatan per jam, sedangkan periode lainnya tidak memiliki apa-apa selama berhari-hari. Ini membuatnya sangat sulit untuk mendeteksi pola dalam deret waktu,...

12
Bantuan tentang NER di NLTK

Saya telah bekerja di NLTK untuk sementara menggunakan Python. Masalah yang saya hadapi adalah tidak ada bantuan yang tersedia untuk melatih NER di NLTK dengan data khusus saya. Mereka telah menggunakan MaxEnt dan melatihnya pada ACE corpus. Saya telah mencari di web banyak tetapi saya tidak dapat...