Pertanyaan yang diberi tag information-retrieval

32
Klasifikasi statistik teks

Saya seorang programmer tanpa latar belakang statistik, dan saat ini saya sedang mencari metode klasifikasi yang berbeda untuk sejumlah besar dokumen yang berbeda yang ingin saya klasifikasikan ke dalam kategori yang telah ditentukan. Saya telah membaca tentang kNN, SVM dan NN. Namun, saya...

21
Mengukur Kesamaan Dokumen

Untuk mengelompokkan dokumen (teks) Anda perlu cara mengukur kesamaan antara pasangan dokumen. Dua alternatif adalah: Bandingkan dokumen sebagai vektor istilah menggunakan Cosine Similarity - dan TF / IDF sebagai bobot untuk persyaratan. Bandingkan setiap distribusi probabilitas dokumen...

21
Bagaimana cara memproyeksikan vektor baru ke ruang PCA?

Setelah melakukan analisis komponen utama (PCA), saya ingin memproyeksikan vektor baru ke ruang PCA (yaitu menemukan koordinatnya dalam sistem koordinat PCA). Saya telah menghitung PCA dalam bahasa R menggunakan prcomp. Sekarang saya harus bisa mengalikan vektor saya dengan matriks rotasi PCA....

9
Bagaimana cara membandingkan acara yang diamati dengan yang diharapkan?

Misalkan saya punya satu sampel frekuensi dari 4 peristiwa yang mungkin: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 dan saya memiliki probabilitas yang diharapkan dari peristiwa saya terjadi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dengan jumlah frekuensi yang diamati dari empat acara saya (18) saya dapat...