Saya ingin membangun indeks kejahatan dan indeks ketidakstabilan politik yang didasarkan pada berita

Saya memiliki proyek sampingan ini di mana saya merangkak situs web berita lokal di negara saya dan ingin membangun indeks kejahatan dan indeks ketidakstabilan politik. Saya sudah membahas bagian pengambilan informasi dari proyek. Rencana saya adalah melakukan:

Ekstraksi topik tanpa pengawasan.
Mendeteksi duplikat dekat.
Klasifikasi dan tingkat insiden yang diawasi (kejahatan / politik - tinggi / sedang / rendah).

Saya akan menggunakan python dan sklearn dan sudah meneliti algoritma yang dapat saya gunakan untuk tugas-tugas itu. Saya pikir 2. dapat memberi saya faktor relevansi sebuah cerita: semakin banyak surat kabar menerbitkan tentang sebuah cerita atau topik, semakin relevan untuk hari itu.

Langkah saya berikutnya adalah membangun indeks bulanan, mingguan, dan harian (nasional dan per kota) berdasarkan fitur yang saya miliki, dan saya sedikit tersesat di sini karena "sensitivitas ketidakstabilan" mungkin meningkat seiring berjalannya waktu. Maksudku, indeks dari insiden ketidakstabilan utama tahun lalu bisa lebih kecil dari indeks untuk tahun ini. Juga jika menggunakan skala tetap 0-100 atau tidak.

Kemudian saya ingin dapat memprediksi insiden berdasarkan ini, misalnya apakah suksesi peristiwa dalam minggu terakhir mengarah ke insiden besar. Tetapi untuk sekarang saya akan senang mendapatkan klasifikasi bekerja dan membangun model indeks.

Saya akan menghargai setiap pointer ke kertas, bacaan atau pemikiran yang relevan. Terima kasih.

PD: Maaf kalau pertanyaannya bukan di sini.

UPDATE : Saya belum "membuatnya", tetapi baru-baru ini ada berita tentang sekelompok ilmuwan yang bekerja dalam sistem untuk memprediksi peristiwa menggunakan arsip berita dan merilis makalah yang relevan Menambang Web untuk Memprediksi Acara Mendatang (PDF) ).

machine-learning classification text-mining Rolando Max
sumber

Untuk bagian teknis (alat-alat) saya akan merekomendasikan dua buku sebagai titik pandang yang baik baik dari O'Reiley: Kecerdasan Kolektif (dengan kode Python), Pembelajaran Mesin (dengan kode R) ... ... kami menangkap topik-topik terkait dengan Anda. Langkah selanjutnya mungkin situs web Manning ... Untuk bagian metodologis, saya akan merekomendasikan grup Web Semantik di LinkedIn.

Radu Marius Florin

Sangat menyukai pertanyaan ini. Buat kami terus diperbarui !!

entropi

Jawaban:

Pertimbangkan variasi skor GINI.

Itu dinormalisasi, dan outputnya berkisar dari 0 hingga 1.

EDIT:

Mengapa GINI "keren" atau setidaknya berpotensi sesuai:

Ini adalah ukuran ketidaksetaraan atau ketidakadilan. Ini digunakan sebagai ukuran skala bebas untuk mengkarakterisasi heterogenitas jaringan bebas skala, termasuk jaringan tak terbatas dan acak. Ini berguna dalam membangun pohon CART karena merupakan ukuran daya pisah dari pemisahan data tertentu.

Karena jangkauannya:

ada sedikit kesalahan pembulatan. Kisaran yang jauh dari 1.0 cenderung mengalami masalah numerik.
itu mudah dibaca manusia, dan lebih mudah diakses manusia. Manusia memiliki pemahaman yang lebih konkret terhadap objek daripada miliaran.

Karena dinormalisasi:

perbandingan skor sangat berarti, 0,9 di satu negara berarti tingkat ketidakseragaman relatif sama dengan 0,9 di negara lain.
Ini dinormalisasi terhadap kurva Lorenz untuk keseragaman yang sempurna sehingga nilai-nilai merupakan indikator yang relevan dari hubungan distribusi nilai-nilai yang menarik dengan kurva Lorenz.

Referensi:

EngrStudent - Pasang kembali Monica
sumber

Selamat datang di situs ini, @EngrStudent. Maukah Anda mengatakan sedikit tentang koefisien GINI, & mengapa itu jawaban yang tepat di sini? Karena Anda baru di sini & mulai berkontribusi, Anda mungkin ingin membaca FAQ kami , yang berisi banyak info tentang situs ini.

gung - Reinstate Monica