Mengotomatisasi korelasi statistik antara "teks" dan "data"

8

Saya mengumpulkan data tekstual seputar siaran pers, posting blog, ulasan, dll dari produk dan kinerja perusahaan tertentu.

Secara khusus, saya ingin melihat apakah ada korelasi antara jenis dan / atau sumber konten "tekstual" tertentu dengan penilaian pasar dari simbol saham perusahaan.

Korelasi nyata semacam itu dapat ditemukan oleh pikiran manusia dengan cukup cepat - tetapi itu tidak dapat diskalakan. Bagaimana saya bisa mengotomatisasi analisis sumber yang berbeda seperti itu?

warren
sumber
Apa yang Anda maksud dengan jenis konten "tekstual"?
Ami
Bisakah Anda menunjukkan beberapa data sampel?
@Srikant Vadali - data sampel dapat berupa siaran pers, berita, dll. Data tekstual akan berbentuk bebas, kemungkinan diperoleh dari rss feed atau serupa. Data pasar untuk perusahaan tertentu adalah apa yang ingin saya analisis / korelasikan. Jadi mungkin Blogger Bill menulis cerita tentang rilis fitur VMware yang akan datang, dan VMW melonjak 10%. (Terlalu disederhanakan, saya tahu)
warren

Jawaban:

5

Murid-murid saya melakukan ini sebagai proyek kelas mereka. Beberapa tim mencapai akurasi 70%, dengan sampel yang cukup kecil, yang tidak buruk.

Katakanlah Anda memiliki beberapa data seperti ini:

Return Symbol News Text
-4%  DELL   Centegra and Dell Services recognized with Outsourcing Center's...
7%   MSFT   Rising Service Revenues Benefit VMWare
1%   CSCO   Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4%   GOOG   Summary Box: Google eyes more government deals
7%   AAPL   Sohu says 2nd-quarter net income rises 10 percent on higher...

Anda ingin memprediksi pengembalian berdasarkan teks.

Ini disebut Text Mining.

Apa yang Anda lakukan pada akhirnya adalah membuat matriks besar seperti ini:

Return Centegra Rising Services Recognized...
-4%    0.23     0      0.11     0.34
7%     0        0.1    0.23     0
...

Itu memiliki satu kolom untuk setiap kata unik, dan satu baris untuk setiap pengembalian, dan skor tertimbang untuk setiap kata. Skor tersebut sering berupa skor TFIDF, atau frekuensi relatif dari kata dalam dokumen.

Kemudian Anda menjalankan regresi dan melihat apakah Anda dapat memprediksi kata mana yang memprediksi pengembalian. Anda mungkin harus menggunakan PCA terlebih dahulu.

Buku: Fundamentals of Predictive Text Mining, Weiss

Perangkat lunak: RapidMiner dengan Plugin Teks atau R

Anda juga harus melakukan pencarian di Google Cendekia dan membaca seluk beluk.

Anda dapat melihat seri video penambangan teks saya di sini

Neil McGuigan
sumber
yang terlihat seperti awal yang sangat menjanjikan :)
warren
1

Seperti di atas, Anda memerlukan serangkaian artikel dan tanggapan, dan kemudian Anda melatih mis. Jaringan Saraf untuk mereka. RapidMiner akan membiarkan Anda melakukan ini tetapi ada banyak alat lain di luar sana yang akan membiarkan Anda melakukan regresi ukuran ini. Idealnya variabel respons Anda akan konsisten (yaitu% berubah setelah 1 jam tepat, atau% berubah setelah 1 hari persis dll).

Anda mungkin juga ingin menerapkan semacam penyaringan atau klasifikasi ke variabel pelatihan Anda yaitu kata-kata dalam artikel. Ini bisa sesederhana menyaring beberapa kata (misalnya preposisi, kata ganti) atau lebih kompleks seperti menggunakan sintaks untuk memilih kata-kata mana yang harus dimasukkan ke dalam regresi. Perhatikan bahwa penyaringan apa pun yang Anda lakukan berisiko menimbulkan bias pada hasilnya.

Beberapa orang di University of Arizona sudah membuat sistem yang melakukan ini - makalah mereka ada di sini dan Anda mungkin menganggapnya menarik. http://www.computer.org/portal/web/csdl/doi/10.1109/MC.2010.2 (Anda akan memerlukan berlangganan untuk mengakses jika Anda tidak mis misalnya di universitas). Referensi juga dapat membantu mengarahkan Anda ke arah yang benar.

imoatama
sumber