Saya mengumpulkan data tekstual seputar siaran pers, posting blog, ulasan, dll dari produk dan kinerja perusahaan tertentu.
Secara khusus, saya ingin melihat apakah ada korelasi antara jenis dan / atau sumber konten "tekstual" tertentu dengan penilaian pasar dari simbol saham perusahaan.
Korelasi nyata semacam itu dapat ditemukan oleh pikiran manusia dengan cukup cepat - tetapi itu tidak dapat diskalakan. Bagaimana saya bisa mengotomatisasi analisis sumber yang berbeda seperti itu?
finance
correlation
text-mining
warren
sumber
sumber
Jawaban:
Murid-murid saya melakukan ini sebagai proyek kelas mereka. Beberapa tim mencapai akurasi 70%, dengan sampel yang cukup kecil, yang tidak buruk.
Katakanlah Anda memiliki beberapa data seperti ini:
Anda ingin memprediksi pengembalian berdasarkan teks.
Ini disebut Text Mining.
Apa yang Anda lakukan pada akhirnya adalah membuat matriks besar seperti ini:
Itu memiliki satu kolom untuk setiap kata unik, dan satu baris untuk setiap pengembalian, dan skor tertimbang untuk setiap kata. Skor tersebut sering berupa skor TFIDF, atau frekuensi relatif dari kata dalam dokumen.
Kemudian Anda menjalankan regresi dan melihat apakah Anda dapat memprediksi kata mana yang memprediksi pengembalian. Anda mungkin harus menggunakan PCA terlebih dahulu.
Buku: Fundamentals of Predictive Text Mining, Weiss
Perangkat lunak: RapidMiner dengan Plugin Teks atau R
Anda juga harus melakukan pencarian di Google Cendekia dan membaca seluk beluk.
Anda dapat melihat seri video penambangan teks saya di sini
sumber
Seperti di atas, Anda memerlukan serangkaian artikel dan tanggapan, dan kemudian Anda melatih mis. Jaringan Saraf untuk mereka. RapidMiner akan membiarkan Anda melakukan ini tetapi ada banyak alat lain di luar sana yang akan membiarkan Anda melakukan regresi ukuran ini. Idealnya variabel respons Anda akan konsisten (yaitu% berubah setelah 1 jam tepat, atau% berubah setelah 1 hari persis dll).
Anda mungkin juga ingin menerapkan semacam penyaringan atau klasifikasi ke variabel pelatihan Anda yaitu kata-kata dalam artikel. Ini bisa sesederhana menyaring beberapa kata (misalnya preposisi, kata ganti) atau lebih kompleks seperti menggunakan sintaks untuk memilih kata-kata mana yang harus dimasukkan ke dalam regresi. Perhatikan bahwa penyaringan apa pun yang Anda lakukan berisiko menimbulkan bias pada hasilnya.
Beberapa orang di University of Arizona sudah membuat sistem yang melakukan ini - makalah mereka ada di sini dan Anda mungkin menganggapnya menarik. http://www.computer.org/portal/web/csdl/doi/10.1109/MC.2010.2 (Anda akan memerlukan berlangganan untuk mengakses jika Anda tidak mis misalnya di universitas). Referensi juga dapat membantu mengarahkan Anda ke arah yang benar.
sumber