Ilmu Data

18
Bagaimana cara meningkatkan pengembangan algoritma?

Dalam mengerjakan analisis data eksplorasi, dan mengembangkan algoritma, saya menemukan bahwa sebagian besar waktu saya dihabiskan dalam siklus visualisasi, menulis beberapa kode, berjalan pada dataset kecil, ulangi. Data yang saya miliki cenderung pada jenis visi komputer / jenis sensor fusi, dan...

18
Apakah dimensi t-sne bermakna?

Apakah ada arti untuk dimensi embedding t-sne? Seperti halnya PCA, kami memiliki perasaan ini untuk memaksimalkan varians linear, tetapi untuk t-sne apakah ada intuisi selain hanya ruang yang kami tetapkan untuk pemetaan dan minimalisasi

18
Dataset untuk Pengakuan Entitas Bernama pada Teks Informal

Saat ini saya sedang mencari dataset berlabel untuk melatih model untuk mengekstrak entitas bernama dari teks informal (sesuatu yang mirip dengan tweets). Karena kapitalisasi dan tata bahasa sering kurang dalam dokumen dalam set data saya, saya mencari di luar data domain yang sedikit lebih...

18
Ekstraksi fitur gambar dalam Python

Di kelas saya, saya harus membuat aplikasi menggunakan dua pengklasifikasi untuk memutuskan apakah suatu objek dalam gambar adalah contoh filum porifera (seasponge) atau objek lain. Namun, saya benar-benar tersesat ketika datang ke fitur teknik ekstraksi dalam python. Penasihat saya meyakinkan...

18
NLP - mengapa "bukan" kata yang berhenti?

Saya mencoba untuk menghapus kata-kata berhenti sebelum melakukan pemodelan topik. Saya perhatikan bahwa beberapa kata negasi (tidak, tidak, tidak, tidak ada, dll.) Biasanya dianggap sebagai kata-kata berhenti. Misalnya, NLTK, spacy dan sklearn menyertakan "tidak" pada daftar kata stop mereka....