Apakah ada perangkat lunak yang melakukan analisis tekstual di blog? [Tutup]

8

Perusahaan saya ingin membuat visualisasi PivotViewer dari posting blog Wordpress 2 klien selama 11 tahun terakhir. Untuk melakukannya, kita perlu mengedit tag yang agak serampangan, tidak lengkap, dan umumnya buruk untuk digunakan sebagai kategori yang dapat diurutkan. Saya mencari alat yang akan menganalisis entri blog mereka dan melakukan penghitungan kata, untuk memberi kita gambaran tentang apa yang sedang kita hadapi.

Idealnya, ia memiliki semua fitur ini:

  1. Daftar hitam kata (abaikan)
  2. Berakar dari kata
  3. Penggabungan sinonim khusus
  4. Menghitung semua kegunaan
  5. Menghitung jumlah posting yang muncul kata.

Saya akan berpikir bahwa jenis analisis tekstual ini akan sangat umum, tetapi saya belum dapat menemukan perangkat lunak yang melakukan hal semacam ini di seluruh blog. Apakah ada perangkat lunak yang tersedia untuk melakukan ini?

Brian Bauman
sumber
3
Menarik. Ketika ragu, Python mendukung Anda.
James T Snell
Ya ... Aku benar-benar berharap aku tidak perlu menggulung sendiri yang ini.
Brian Bauman
ada sesuatu yang melakukan ini ... Saya ingat seorang teman menganalisis wikipedia ... Saya akan memeriksanya besok
Keltari

Jawaban:

3

Perangkat lunak yang Anda cari dapat memiliki banyak judul, seperti "Analisis konten" , "cloud tag" atau "Tag Meta" dan banyak lagi seperti "analisis teks" dan "penambangan teks".

Ada sangat banyak alat perangkat lunak untuk keperluan ini, baik gratis maupun komersial.

Saya tidak memiliki pengalaman pribadi dengan alat-alat seperti itu, tetapi tempat yang baik untuk memulai adalah Alat Analisis Teks yang berisi daftar lusinan alat tersebut, baik gratis maupun komersial.

Daftar lain yang serupa adalah Analisis Teks, Penambangan Teks, dan Perangkat Lunak Pengambilan Informasi .

harrymc
sumber
Saya menyaring jalan saya melalui daftar pertama, tetapi tidak ada opsi gratis yang mencakup lebih dari analisis linguistik. Belum melihat daftar kedua - saya mungkin akhirnya menggulir daftar saya sendiri.
Brian Bauman
2

Lihatlah Rapidminer atau Weka

Melihat sebagai blog klien, Anda mungkin memiliki akses basis data. Unduh semua artikel sebagai plaintext dan gunakan salah satu program di atas untuk menangani pertanyaan pemrosesan bahasa alami (1,2,3, dan 5).

Jumlah penggunaan sulit untuk benar-benar otomatis karena harus dilakukan dengan secara otomatis menentukan arti kata menggunakan konteks.

suweller
sumber
Menghitung semua penggunaan, bukan pengguna. Terima kasih atas sarannya.
Brian Bauman
Saya salah membaca, mybad. Tetap Anda harus checkout Rapidminer atau Weka untuk pemrosesan bahasa alami. Yaitu, kecuali dataset sangat besar, karena keduanya mencoba memasangnya dalam memori
suweller
2

salah satu perangkat lunak analisis konten yang paling adalah WordStat yang dirancang oleh Provalis Research

WordStat adalah modul analisis teks untuk QDA Miner atau SimStat. WordStat menggabungkan metode analisis konten dengan menggunakan pendekatan kamus dan banyak eksplorasi algoritma atau berbagai metode penambangan teks. WordStat dapat menerapkan kamus kategorisasi yang ada ke korpus teks baru. Ini juga dapat digunakan dalam pengembangan dan validasi kamus kategorisasi baru. Ketika digunakan bersama dengan pengkodean manual, modul ini dapat memberikan bantuan untuk penerapan aturan pengkodean yang lebih sistematis, membantu mengungkap perbedaan dalam penggunaan kata antara subkelompok individu dan membantu dalam revisi pengkodean yang ada menggunakan tabel KWIC (Keyword Dalam Konteks). WordStat dirancang khusus untuk mempelajari informasi tekstual seperti respons terhadap pertanyaan terbuka, wawancara, judul, artikel jurnal, pidato publik, komunikasi elektronik, dll.

http://provalisresearch.com/products/content-analysis-software/

Laurence
sumber
1

Anda mungkin ingin mencoba Wolfram's Mathematica . Anda harus melakukan beberapa pemrograman, tetapi semua alat yang Anda butuhkan ada di sana:

gdelfino
sumber
0

Beberapa dari pertanyaan ini dapat dijawab dengan cepat dan kotor menggunakan Pencarian Google di blog Anda (termudah jika memiliki domain sendiri).

Jürgen Strobel
sumber
0

Zemanta melakukan analisis dan dapat menyarankan tag dan tautan. Ini juga merupakan plugin wordpress.

Satu-satunya masalah: seperti saat ini berdiri membutuhkan pembukaan manual dan memilih dan menyimpan setiap posting.

Ada banyak plugin auto-tag untuk wordpress. Anda harus mencari pencari plugin dan mencoba beberapa.

music2myear
sumber