Ketika saya mengatakan "dokumen", saya memikirkan halaman web seperti artikel Wikipedia dan cerita berita. Saya lebih suka jawaban yang memberikan metrik jarak vanila atau metrik jarak semantik canggih, dengan preferensi yang lebih kuat untuk yang
Ketika saya mengatakan "dokumen", saya memikirkan halaman web seperti artikel Wikipedia dan cerita berita. Saya lebih suka jawaban yang memberikan metrik jarak vanila atau metrik jarak semantik canggih, dengan preferensi yang lebih kuat untuk yang
Kesamaan Jaccard dan kesamaan cosinus adalah dua pengukuran yang sangat umum sambil membandingkan kesamaan item. Namun, saya tidak begitu jelas dalam situasi apa yang mana yang lebih disukai daripada yang lain. Dapatkah seseorang membantu memperjelas perbedaan dari dua pengukuran ini (perbedaan...
Saya memiliki dua kalimat, S1 dan S2, keduanya memiliki jumlah kata (biasanya) di bawah 15. Apa algoritma (pembelajaran mesin) yang praktis dan paling berguna, yang mungkin mudah diimplementasikan (jaringan saraf ok, kecuali arsitekturnya serumit Google Inception, dll.). Saya mencari algoritma...
Asumsikan bahwa kita memiliki satu set elemen E dan kesamaan ( tidak jarak ) fungsi sim (ei, ej) antara dua elemen ei, ej ∈ E . Bagaimana kita (secara efisien) mengelompokkan elemen-elemen E , menggunakan sim ? k -berarti, misalnya, membutuhkan k yang diberikan , Canopy Clustering membutuhkan dua...
Saya membuat corr()df dari df asli. The corr()df keluar 70 X 70 dan tidak mungkin untuk memvisualisasikan heatmap tersebut ... sns.heatmap(df). Jika saya mencoba untuk menampilkan corr = df.corr(), tabel tidak cocok dengan layar dan saya bisa melihat semua korelasinya. Apakah ini cara untuk...
Saya mencari untuk memecahkan masalah berikut: Saya memiliki satu set kalimat sebagai dataset saya, dan saya ingin dapat mengetikkan kalimat baru, dan menemukan kalimat yang paling mirip dengan yang ada di dataset. Contohnya akan terlihat seperti: Kalimat baru: " I opened a new mailbox" Prediksi...
Misalkan saya memiliki lima set yang ingin saya klaster. Saya mengerti bahwa teknik SimHashing dijelaskan di sini: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ dapat menghasilkan tiga cluster ( {A}, {B,C,D}dan {E}), misalnya, jika hasilnya adalah: A -> h01 B...
Saya telah mengerjakan proyek kecil pribadi yang membutuhkan keterampilan kerja pengguna dan menyarankan karier yang paling ideal bagi mereka berdasarkan keterampilan itu. Saya menggunakan database daftar pekerjaan untuk mencapai ini. Saat ini, kodenya berfungsi sebagai berikut: 1) Memproses teks...
Saya memiliki ribuan daftar string, dan setiap daftar memiliki sekitar 10 string. Sebagian besar string dalam daftar yang diberikan sangat mirip, meskipun beberapa string (jarang) sama sekali tidak terkait dengan yang lain dan beberapa string berisi kata-kata yang tidak relevan. Mereka dapat...
Memiliki kumpulan lebih dari jutaan dokumen Untuk dokumen yang diberikan ingin mencari dokumen serupa menggunakan cosinus seperti dalam model ruang vektor d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Semua tf telah dinormalisasi menggunakan frekuensi augmented,...
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 tahun yang lalu . Saya sedang
Saya memiliki dua tensor a:[batch_size, dim] b:[batch_size, dim]. Saya ingin melakukan produk dalam untuk setiap pasangan dalam batch, menghasilkan c:[batch_size, 1], di mana c[i,0]=a[i,:].T*b[i,:].
Saya memiliki banyak dokumen, yang memuat banyak pasangan nilai kunci di dalamnya. Kunci mungkin tidak unik sehingga mungkin ada beberapa kunci dari jenis yang sama dengan nilai yang berbeda. Saya ingin membandingkan kesamaan kunci antara 2 dokumen. Lebih khusus kesamaan string dari nilai-nilai...
pengantar Katakanlah saya memiliki kumpulan data pengamatan yang berbeda dari orang yang berbeda dan saya ingin mengelompokkan orang untuk mengetahui orang yang paling dekat dengan yang lain. Saya juga ingin memiliki ukuran untuk mengetahui seberapa dekat mereka satu sama lain dan mengetahui...
Saya mencoba menganalisis beberapa data yang saya miliki tetapi ada banyak ketidakkonsistenan dalam data saya. Saya memiliki tabel SQL yang saya coba analisis. Tabel tersebut adalah tabel universitas dengan struktur sebagai berikut: name:string, city:string, state:string, country:string Nama...