Saya tidak yakin apakah pertanyaan ini sepenuhnya sesuai di sini, jika tidak, harap hapus.
Saya seorang mahasiswa pascasarjana di bidang ekonomi. Untuk proyek yang menyelidiki masalah dalam asuransi sosial, saya memiliki akses ke sejumlah besar laporan kasus administratif (> 200k) yang berkaitan dengan evaluasi kelayakan. Laporan-laporan ini dapat dihubungkan dengan informasi administrasi individual. Saya ingin mengekstrak informasi dari laporan ini yang dapat digunakan dalam analisis kuantitatif, dan idealnya lebih dari pencarian kata kunci / regex sederhana menggunakan grep
/ awk
dll.
Seberapa bermanfaat Pemrosesan Bahasa Alami untuk ini? Apa pendekatan penambangan teks lain yang bermanfaat? Dari apa yang saya pahami ini adalah bidang yang luas, dan kemungkinan besar beberapa laporan harus diubah untuk digunakan sebagai corpus. Apakah perlu menginvestasikan waktu untuk berkenalan dengan literatur dan metode? Apakah ini bisa membantu dan pernah melakukan hal serupa sebelumnya? Apakah ini sepadan dengan imbalannya, yaitu dapatkah saya mengekstrak informasi yang berpotensi bermanfaat menggunakan NLP untuk studi empiris di bidang ekonomi?
Mungkin ada dana untuk mempekerjakan seseorang untuk membaca dan menyiapkan beberapa laporan. Ini adalah proyek yang lebih besar dan ada kemungkinan untuk mengajukan lebih banyak dana. Saya dapat memberikan rincian lebih lanjut tentang topik tersebut jika benar-benar diperlukan. Salah satu potensi komplikasi adalah bahasanya adalah Jerman, bukan Inggris.
Mengenai kualifikasi, saya sebagian besar dilatih dalam ekonometrika, dan memiliki beberapa pengetahuan tentang statistik komputasi pada tingkat Hastie et al. Book. Saya tahu Python, R, Stata, dan mungkin bisa akrab dengan Matlab dengan cepat. Mengingat perpustakaan, saya menganggap Python adalah alat pilihan untuk ini. Tidak ada pelatihan sama sekali dalam metode kualitatif jika ini relevan, tetapi saya tahu beberapa orang yang bisa saya jangkau.
Saya senang atas masukan apa pun tentang ini, yaitu apakah ini berpotensi bermanfaat, jika demikian, di mana harus mulai membaca dan alat mana yang harus difokuskan secara khusus.
Jawaban:
Saya pikir itu akan menguntungkan Anda untuk menentukan informasi apa yang ingin Anda ekstrak dari data. Pencarian kata kunci / regex sederhana sebenarnya sangat bermanfaat bagi Anda. Saya bekerja di asuransi dan kami sering menggunakan jenis penambangan teks ini - ini bisa dibilang naif dan jelas tidak sempurna, tetapi ini merupakan awal yang relatif baik (atau mendekati perkiraan) dengan apa yang secara umum kami minati.
Tetapi untuk poin utama saya, untuk mengetahui apakah metode yang Anda pilih sesuai, saya akan merekomendasikan mendefinisikan apa yang ingin Anda ekstrak dari data; itu bagian tersulit, menurut saya.
Mungkin menarik untuk menemukan kata-kata unik dalam semua string dan melakukan frekuensi 1000 kata teratas atau lebih. Ini mungkin mahal secara komputasi (tergantung pada RAM / prosesor Anda) tetapi mungkin menarik untuk dilihat. Jika saya menjelajahi data tanpa banyak pengetahuan tentang hal itu, ini adalah tempat saya memulai (orang lain mungkin menawarkan pandangan berbeda).
Semoga itu bisa membantu.
sumber