Saya memiliki proyek sampingan ini di mana saya merangkak situs web berita lokal di negara saya dan ingin membangun indeks kejahatan dan indeks ketidakstabilan politik. Saya sudah membahas bagian pengambilan informasi dari proyek. Rencana saya adalah melakukan:
- Ekstraksi topik tanpa pengawasan.
- Mendeteksi duplikat dekat.
- Klasifikasi dan tingkat insiden yang diawasi (kejahatan / politik - tinggi / sedang / rendah).
Saya akan menggunakan python dan sklearn dan sudah meneliti algoritma yang dapat saya gunakan untuk tugas-tugas itu. Saya pikir 2. dapat memberi saya faktor relevansi sebuah cerita: semakin banyak surat kabar menerbitkan tentang sebuah cerita atau topik, semakin relevan untuk hari itu.
Langkah saya berikutnya adalah membangun indeks bulanan, mingguan, dan harian (nasional dan per kota) berdasarkan fitur yang saya miliki, dan saya sedikit tersesat di sini karena "sensitivitas ketidakstabilan" mungkin meningkat seiring berjalannya waktu. Maksudku, indeks dari insiden ketidakstabilan utama tahun lalu bisa lebih kecil dari indeks untuk tahun ini. Juga jika menggunakan skala tetap 0-100 atau tidak.
Kemudian saya ingin dapat memprediksi insiden berdasarkan ini, misalnya apakah suksesi peristiwa dalam minggu terakhir mengarah ke insiden besar. Tetapi untuk sekarang saya akan senang mendapatkan klasifikasi bekerja dan membangun model indeks.
Saya akan menghargai setiap pointer ke kertas, bacaan atau pemikiran yang relevan. Terima kasih.
PD: Maaf kalau pertanyaannya bukan di sini.
UPDATE : Saya belum "membuatnya", tetapi baru-baru ini ada berita tentang sekelompok ilmuwan yang bekerja dalam sistem untuk memprediksi peristiwa menggunakan arsip berita dan merilis makalah yang relevan Menambang Web untuk Memprediksi Acara Mendatang (PDF) ).
sumber
Jawaban:
Pertimbangkan variasi skor GINI.
Itu dinormalisasi, dan outputnya berkisar dari 0 hingga 1.
EDIT:
Mengapa GINI "keren" atau setidaknya berpotensi sesuai:
Ini adalah ukuran ketidaksetaraan atau ketidakadilan. Ini digunakan sebagai ukuran skala bebas untuk mengkarakterisasi heterogenitas jaringan bebas skala, termasuk jaringan tak terbatas dan acak. Ini berguna dalam membangun pohon CART karena merupakan ukuran daya pisah dari pemisahan data tertentu.
Karena jangkauannya:
Karena dinormalisasi:
Referensi:
sumber