Ini sebenarnya tergantung pada tujuan penelitian Anda. Menurut saya, mungkin ada beberapa:
- Anda ingin memahami apa saja faktor-faktor khas yang menyebabkan kasus dan kematian dan yang tidak terpengaruh oleh periode epidemi dan faktor-faktor yang menyebabkan epidemi (jadi Anda tertarik pada tipikal tidak memaksa kemungkinan besar) - dalam hal ini Anda jelas perlu menghapus epidemi tersebut periode dari data, karena mereka dengan tujuan meneliti outlier untuk apa yang ingin Anda simpulkan
- Anda mungkin ingin memasukkan perubahan epidemi ke dalam model Anda (model pengalihan rezim, misalnya, tautan yang baik dan saran model dari masyarakat diterima di sini), karena Anda ingin mengetahui kemungkinan periode epidemi terjadi (dan juga berapa lama itu akan berlangsung), untuk menguji stabilitas dan untuk memperkirakan - dalam hal ini Anda tidak mengecualikan periode epidemi, tetapi mencari model yang lebih rumit daripada pergi untuk palu-alat-ekonometrik- atau sesuatu yang serupaO L S
- Sasaran utama Anda adalah untuk mendeteksi periode epidemi dan memantaunya secara real-time - ini adalah bidang khusus dalam ekonometrika yang bekerja sama dengan beberapa rekan saya di Universitas Vilnius (tentu saja, Anda ingin memiliki banyak pengamatan epidemi untuk ditangani )
Jadi, jika tujuan utama Anda adalah sekitar 2, menghapus data akan menyebabkan kesimpulan yang salah tentang prakiraan masa depan, yaitu kinerja perkiraan yang tidak akurat. Benar juga bahwa kasus ke-2 tidak selalu memberikan perkiraan yang lebih baik, tetapi Anda setidaknya bisa membuat kesimpulan tentang probabilitas periode epidemi dan panjangnya. Ini sangat penting bagi matematikawan aktuaria, jadi mungkinkah Anda orangnya?
Saya pribadi tidak akan menyebut ini "pembersihan data". Saya berpikir tentang pembersihan data lebih dalam arti mengedit data - membersihkan inkonsistensi dalam kumpulan data (misalnya catatan telah melaporkan usia 1000, atau orang berusia 4 adalah orang tua tunggal, dll.).
Kehadiran efek nyata dalam data Anda tidak membuatnya "berantakan" (sebaliknya, kehadiran efek nyata akan membuatnya kaya) - meskipun itu dapat membuat tugas matematika Anda lebih terlibat. Saya menyarankan agar data "dibersihkan" dengan cara ini jika itu satu-satunya cara yang layak untuk mendapatkan prediksi. Jika ada cara yang layak yang tidak membuang informasi, maka gunakan itu.
Sepertinya Anda dapat mengambil manfaat dari semacam analisis siklus, mengingat bahwa Anda mengatakan efek ini muncul secara berkala (seperti "siklus bisnis").
Dari sudut pandang saya, jika Anda melihat perkiraan sesuatu, maka menghapus efek asli dari sumber itu hanya dapat membuat prediksi Anda lebih buruk. Ini karena Anda telah secara efektif "membuang" informasi yang ingin Anda prediksi!
Poin lainnya adalah bahwa mungkin sulit untuk menentukan berapa banyak dari serangkaian kematian disebabkan oleh epidemi, dan berapa banyak yang disebabkan oleh fluktuasi biasa.
Dalam terminologi statistik, epidemi terdengar seperti itu, dari sudut pandang Anda, itu adalah "gangguan" untuk apa yang sebenarnya ingin Anda analisis. Jadi, Anda tidak terlalu tertarik dengan itu, tetapi Anda harus memperhitungkannya dalam analisis Anda. Salah satu cara "cepat dan kotor" untuk melakukan ini dalam pengaturan regresi adalah dengan memasukkan indikator untuk tahun / periode epidemi sebagai variabel regresi. Ini akan memberi Anda perkiraan rata-rata dampak epidemi (dan secara implisit mengasumsikan pengaruhnya sama untuk setiap epidemi). Namun, pendekatan ini hanya berfungsi untuk menggambarkan efeknya, karena dalam peramalan, variabel regresi Anda tidak diketahui (Anda tidak tahu periode mana di masa depan yang akan menjadi epidemi).
Cara lain untuk menjelaskan epidemi adalah dengan menggunakan model campuran dengan dua komponen: satu model untuk bagian epidemi dan satu model untuk bagian "biasa". Model kemudian melanjutkan dalam dua langkah: 1) mengklasifikasikan suatu periode sebagai epidemi atau normal, kemudian 2) menerapkan model yang diklasifikasikan.
sumber
Untuk memberi Anda jawaban umum atas pertanyaan Anda, izinkan saya memparafrasakan salah satu manajer umum lama saya: peluang penelitian ditemukan dalam outlier model yang Anda pas.
Situasi ini mirip dengan percobaan yang dilakukan Robert Millikan saya dalam menentukan muatan elektron. Puluhan tahun setelah memenangkan hadiah Nobel untuk eksperimennya, catatannya diperiksa dan ditemukan bahwa ia membuang sejumlah besar poin data karena mereka tidak setuju dengan hasil yang ia cari. Apakah itu ilmu yang buruk?
Jika Anda menemukan beberapa outlier, maka mungkin itu disebabkan oleh "abberasi statistik". Namun, jika Anda menemukan lebih dari beberapa outlier, Anda perlu menjelajahi data Anda lebih dekat. Jika Anda tidak dapat mengaitkan penyebab abberasi, maka Anda tidak memahami prosesnya dan model statistik tidak akan menyelesaikan masalah Anda. Tujuan dari suatu model adalah untuk merangkum suatu proses, model tersebut tidak akan secara ajaib meringkas suatu proses yang tidak dipahami oleh pelaku eksperimen.
sumber
Peran "pembersihan data" adalah mengidentifikasi kapan "undang-undang (model) kami tidak berfungsi". Menyesuaikan untuk Pencilan atau titik data abnormal berfungsi untuk memungkinkan kami mendapatkan "perkiraan kuat" dari parameter dalam model saat ini yang kami menghibur. "Pencilan" ini jika tidak dirawat memungkinkan distorsi yang tidak diinginkan dalam parameter model karena perkiraan "didorong untuk menjelaskan poin data ini" yang "tidak berperilaku sesuai dengan model hipotesis kami". Dengan kata lain ada banyak pengembalian dalam hal menjelaskan Jumlah Kuadrat dengan berfokus pada "penjahat". Poin-poin yang diidentifikasi secara empiris yang membutuhkan pembersihan harus diteliti dengan cermat untuk berpotensi mengembangkan / menyarankan faktor-faktor penyebab yang tidak ada dalam model saat ini.
Bagaimana cara menilai efek intervensi di satu negara dibandingkan negara lain menggunakan tingkat fatalitas kasus tahunan?
Melakukan sains berarti mencari pola yang berulang.
Untuk mendeteksi anomali adalah mengidentifikasi nilai-nilai yang tidak mengikuti pola berulang. Bagaimana lagi Anda tahu bahwa suatu titik melanggar model itu? Faktanya, proses tumbuh, memahami, menemukan, dan memeriksa outlier harus berulang. Ini bukan pemikiran baru.
Sir Frances Bacon, yang menulis di Novum Organum sekitar 400 tahun yang lalu berkata: “Kesalahan Alam, Olahraga, dan Monster mengoreksi pemahaman sehubungan dengan hal-hal biasa, dan mengungkapkan bentuk umum. Sebab siapa pun yang tahu jalan-jalan Alam akan lebih mudah melihat penyimpangannya; dan, di sisi lain, siapa pun yang tahu penyimpangan akan lebih akurat menggambarkan caranya. "
Kami mengubah aturan kami dengan mengamati ketika aturan saat ini gagal.
Jika memang outlier yang teridentifikasi semuanya adalah pulsa dan memiliki efek (ukuran) yang serupa maka kami sarankan yang berikut (dikutip dari poster lain)
"Satu" cara cepat dan kotor "untuk melakukan ini dalam pengaturan regresi adalah dengan memasukkan indikator untuk tahun / periode epidemi sebagai variabel regresi. Ini akan memberi Anda perkiraan rata-rata dari efek epidemi (dan secara implisit mengasumsikan bahwa pengaruhnya adalah sama untuk setiap epidemi). Namun, pendekatan ini hanya berfungsi untuk menggambarkan efeknya, karena dalam peramalan, variabel regresi Anda tidak diketahui (Anda tidak tahu periode mana di masa depan yang akan menjadi epidemi). "
Ini jika tentu saja mengharuskan anomali individu (tahun pulsa) memiliki efek yang sama. Jika mereka berbeda maka variabel portmanteau yang dijelaskan di atas akan salah.
sumber
Salah satu metode yang paling umum digunakan untuk menemukan epidemi dalam data retrospektif sebenarnya adalah untuk mencari pencilan - banyak peneliti flu, misalnya, terutama berfokus pada residu model pas mereka, daripada model itu sendiri, untuk melihat tempat di mana "hari" in, day out "prediksi model gagal - salah satu cara model gagal adalah dengan munculnya epidemi.
Namun sangat penting bahwa Anda membedakan antara memburu outlier dalam hasil Anda - mungkin bukan ide terbaik yang pernah ada - dan apa yang oleh sebagian besar orang disebut sebagai "pembersihan data". Di sini, Anda mencari outlier bukan karena mereka mewakili masalah statistik, tetapi karena mereka meningkatkan masalah kualitas data.
Misalnya, dalam kumpulan data yang saya miliki, ada variabel untuk timbulnya penyakit. Untuk satu subjek, tanggal ini adalah bulan November 1929. Apakah saya pikir ini benar? Ini menunjukkan masalah kualitas data yang perlu diperbaiki - dalam hal ini mengoreksi tanggal berdasarkan informasi lain tentang subjek. Jenis pembersihan data ini akan secara aktif meningkatkan kualitas hasil statistik Anda.
sumber