Menggunakan alat penambangan teks / bahasa alami untuk ekonometrika

9

Saya tidak yakin apakah pertanyaan ini sepenuhnya sesuai di sini, jika tidak, harap hapus.

Saya seorang mahasiswa pascasarjana di bidang ekonomi. Untuk proyek yang menyelidiki masalah dalam asuransi sosial, saya memiliki akses ke sejumlah besar laporan kasus administratif (> 200k) yang berkaitan dengan evaluasi kelayakan. Laporan-laporan ini dapat dihubungkan dengan informasi administrasi individual. Saya ingin mengekstrak informasi dari laporan ini yang dapat digunakan dalam analisis kuantitatif, dan idealnya lebih dari pencarian kata kunci / regex sederhana menggunakan grep/ awkdll.

Seberapa bermanfaat Pemrosesan Bahasa Alami untuk ini? Apa pendekatan penambangan teks lain yang bermanfaat? Dari apa yang saya pahami ini adalah bidang yang luas, dan kemungkinan besar beberapa laporan harus diubah untuk digunakan sebagai corpus. Apakah perlu menginvestasikan waktu untuk berkenalan dengan literatur dan metode? Apakah ini bisa membantu dan pernah melakukan hal serupa sebelumnya? Apakah ini sepadan dengan imbalannya, yaitu dapatkah saya mengekstrak informasi yang berpotensi bermanfaat menggunakan NLP untuk studi empiris di bidang ekonomi?

Mungkin ada dana untuk mempekerjakan seseorang untuk membaca dan menyiapkan beberapa laporan. Ini adalah proyek yang lebih besar dan ada kemungkinan untuk mengajukan lebih banyak dana. Saya dapat memberikan rincian lebih lanjut tentang topik tersebut jika benar-benar diperlukan. Salah satu potensi komplikasi adalah bahasanya adalah Jerman, bukan Inggris.

Mengenai kualifikasi, saya sebagian besar dilatih dalam ekonometrika, dan memiliki beberapa pengetahuan tentang statistik komputasi pada tingkat Hastie et al. Book. Saya tahu Python, R, Stata, dan mungkin bisa akrab dengan Matlab dengan cepat. Mengingat perpustakaan, saya menganggap Python adalah alat pilihan untuk ini. Tidak ada pelatihan sama sekali dalam metode kualitatif jika ini relevan, tetapi saya tahu beberapa orang yang bisa saya jangkau.

Saya senang atas masukan apa pun tentang ini, yaitu apakah ini berpotensi bermanfaat, jika demikian, di mana harus mulai membaca dan alat mana yang harus difokuskan secara khusus.

ilprincipe
sumber
LASSO, Least Angle Regression dan analisis Logistik adalah beberapa alat yang berpotensi relevan. Anda mungkin ingin memeriksa bagaimana saya mendekati masalah yang sama untuk Ph.D. tesis di sini dan posting blog saya tentang alat NLP di bidang ekonomi di sini . Jika Anda berhasil dengan hal ini, akan sangat bagus untuk mendengar tentang kemajuan Anda atau tantangan apa pun yang mungkin Anda hadapi.
gradstudent

Jawaban:

2

Saya pikir itu akan menguntungkan Anda untuk menentukan informasi apa yang ingin Anda ekstrak dari data. Pencarian kata kunci / regex sederhana sebenarnya sangat bermanfaat bagi Anda. Saya bekerja di asuransi dan kami sering menggunakan jenis penambangan teks ini - ini bisa dibilang naif dan jelas tidak sempurna, tetapi ini merupakan awal yang relatif baik (atau mendekati perkiraan) dengan apa yang secara umum kami minati.

Tetapi untuk poin utama saya, untuk mengetahui apakah metode yang Anda pilih sesuai, saya akan merekomendasikan mendefinisikan apa yang ingin Anda ekstrak dari data; itu bagian tersulit, menurut saya.

Mungkin menarik untuk menemukan kata-kata unik dalam semua string dan melakukan frekuensi 1000 kata teratas atau lebih. Ini mungkin mahal secara komputasi (tergantung pada RAM / prosesor Anda) tetapi mungkin menarik untuk dilihat. Jika saya menjelajahi data tanpa banyak pengetahuan tentang hal itu, ini adalah tempat saya memulai (orang lain mungkin menawarkan pandangan berbeda).

Semoga itu bisa membantu.

Francisco Arceo
sumber
terima kasih, saya pasti berpikir untuk memulai dengan sesuatu seperti ini. Saya tahu pertanyaan saya tidak jelas, tetapi saya secara umum lebih tertarik pada informasi seperti apa yang dapat saya ekstrak dengan metode lain. Saya akui saya tidak yakin apakah mungkin untuk menjawab ini tanpa mengetahui konteks spesifiknya.
ilprincipe
1
Saya pikir itu selalu menjadi tantangan dengan data terkait pekerjaan / profesi. Saya mungkin akan merekomendasikan melihat beberapa data Anda, jika ada variabel dengan deskripsi tentang data atau acara asuransi, baca beberapa lusin - merasakan data. Ingat, semua yang pernah kami coba lakukan adalah memodelkan proses yang mendasari data dan untuk benar-benar melakukan pekerjaan yang hebat, Anda harus mengetahui data tersebut.
Francisco Arceo