Bisakah pembersihan data memperburuk hasil analisis statistik?

17

Peningkatan jumlah kasus dan kematian terjadi selama epidemi (peningkatan mendadak dalam jumlah) karena sirkulasi virus (seperti Virus West Nile di AS pada tahun 2002) atau penurunan resistensi orang atau kontaminasi makanan atau air atau peningkatan jumlah nyamuk. Epidemi ini akan muncul sebagai outlier yang dapat terjadi setiap 1 hingga 5 tahun. Dengan menghapus pencilan ini, kami menghapus bukti epidemi yang merupakan bagian penting dari perkiraan dan pemahaman penyakit.

Apakah pembersihan data diperlukan saat berurusan dengan pencilan yang disebabkan oleh epidemi?

Apakah akan meningkatkan hasil atau memperburuk hasil analisis statistik?

DrSiapa
sumber

Jawaban:

12

Ini sebenarnya tergantung pada tujuan penelitian Anda. Menurut saya, mungkin ada beberapa:

  1. Anda ingin memahami apa saja faktor-faktor khas yang menyebabkan kasus dan kematian dan yang tidak terpengaruh oleh periode epidemi dan faktor-faktor yang menyebabkan epidemi (jadi Anda tertarik pada tipikal tidak memaksa kemungkinan besar) - dalam hal ini Anda jelas perlu menghapus epidemi tersebut periode dari data, karena mereka dengan tujuan meneliti outlier untuk apa yang ingin Anda simpulkan
  2. Anda mungkin ingin memasukkan perubahan epidemi ke dalam model Anda (model pengalihan rezim, misalnya, tautan yang baik dan saran model dari masyarakat diterima di sini), karena Anda ingin mengetahui kemungkinan periode epidemi terjadi (dan juga berapa lama itu akan berlangsung), untuk menguji stabilitas dan untuk memperkirakan - dalam hal ini Anda tidak mengecualikan periode epidemi, tetapi mencari model yang lebih rumit daripada pergi untuk palu-alat-ekonometrik- atau sesuatu yang serupaHAIL.S
  3. Sasaran utama Anda adalah untuk mendeteksi periode epidemi dan memantaunya secara real-time - ini adalah bidang khusus dalam ekonometrika yang bekerja sama dengan beberapa rekan saya di Universitas Vilnius (tentu saja, Anda ingin memiliki banyak pengamatan epidemi untuk ditangani )

Jadi, jika tujuan utama Anda adalah sekitar 2, menghapus data akan menyebabkan kesimpulan yang salah tentang prakiraan masa depan, yaitu kinerja perkiraan yang tidak akurat. Benar juga bahwa kasus ke-2 tidak selalu memberikan perkiraan yang lebih baik, tetapi Anda setidaknya bisa membuat kesimpulan tentang probabilitas periode epidemi dan panjangnya. Ini sangat penting bagi matematikawan aktuaria, jadi mungkinkah Anda orangnya?

Dmitrij Celov
sumber
Jawaban yang bagus dan sederhana. Anda memiliki pengetahuan yang cukup di usia muda.
DrWho
15

Saya pribadi tidak akan menyebut ini "pembersihan data". Saya berpikir tentang pembersihan data lebih dalam arti mengedit data - membersihkan inkonsistensi dalam kumpulan data (misalnya catatan telah melaporkan usia 1000, atau orang berusia 4 adalah orang tua tunggal, dll.).

Kehadiran efek nyata dalam data Anda tidak membuatnya "berantakan" (sebaliknya, kehadiran efek nyata akan membuatnya kaya) - meskipun itu dapat membuat tugas matematika Anda lebih terlibat. Saya menyarankan agar data "dibersihkan" dengan cara ini jika itu satu-satunya cara yang layak untuk mendapatkan prediksi. Jika ada cara yang layak yang tidak membuang informasi, maka gunakan itu.

Sepertinya Anda dapat mengambil manfaat dari semacam analisis siklus, mengingat bahwa Anda mengatakan efek ini muncul secara berkala (seperti "siklus bisnis").

Dari sudut pandang saya, jika Anda melihat perkiraan sesuatu, maka menghapus efek asli dari sumber itu hanya dapat membuat prediksi Anda lebih buruk. Ini karena Anda telah secara efektif "membuang" informasi yang ingin Anda prediksi!

Poin lainnya adalah bahwa mungkin sulit untuk menentukan berapa banyak dari serangkaian kematian disebabkan oleh epidemi, dan berapa banyak yang disebabkan oleh fluktuasi biasa.

Dalam terminologi statistik, epidemi terdengar seperti itu, dari sudut pandang Anda, itu adalah "gangguan" untuk apa yang sebenarnya ingin Anda analisis. Jadi, Anda tidak terlalu tertarik dengan itu, tetapi Anda harus memperhitungkannya dalam analisis Anda. Salah satu cara "cepat dan kotor" untuk melakukan ini dalam pengaturan regresi adalah dengan memasukkan indikator untuk tahun / periode epidemi sebagai variabel regresi. Ini akan memberi Anda perkiraan rata-rata dampak epidemi (dan secara implisit mengasumsikan pengaruhnya sama untuk setiap epidemi). Namun, pendekatan ini hanya berfungsi untuk menggambarkan efeknya, karena dalam peramalan, variabel regresi Anda tidak diketahui (Anda tidak tahu periode mana di masa depan yang akan menjadi epidemi).

Cara lain untuk menjelaskan epidemi adalah dengan menggunakan model campuran dengan dua komponen: satu model untuk bagian epidemi dan satu model untuk bagian "biasa". Model kemudian melanjutkan dalam dua langkah: 1) mengklasifikasikan suatu periode sebagai epidemi atau normal, kemudian 2) menerapkan model yang diklasifikasikan.

probabilityislogic
sumber
(+1) saran yang bagus, meskipun mungkin trik yang tidak terlalu kotor mungkin.
Dmitrij Celov
+1; Untuk anak cucu, saya ingin membuat komentar berikut: Anda menyatakan "menghapus efek asli ... hanya dapat membuat prediksi Anda lebih buruk". Dalam konteks, Anda jelas benar, namun, dalam kasus umum ini belum tentu benar. (Saya sedang memikirkan 'tradeoff varians bias', yang merupakan masalah besar dalam pemodelan prediktif.) Sekali lagi, saya pikir Anda ada di sini, dan saya tahu Anda tahu tentang tradeoff varians bias; Saya ingin menyebutkannya untuk siapa saja yang menemukan jawaban ini di masa depan dan mungkin salah menafsirkan pernyataan itu.
gung - Reinstate Monica
5

Untuk memberi Anda jawaban umum atas pertanyaan Anda, izinkan saya memparafrasakan salah satu manajer umum lama saya: peluang penelitian ditemukan dalam outlier model yang Anda pas.

Situasi ini mirip dengan percobaan yang dilakukan Robert Millikan saya dalam menentukan muatan elektron. Puluhan tahun setelah memenangkan hadiah Nobel untuk eksperimennya, catatannya diperiksa dan ditemukan bahwa ia membuang sejumlah besar poin data karena mereka tidak setuju dengan hasil yang ia cari. Apakah itu ilmu yang buruk?

Jika Anda menemukan beberapa outlier, maka mungkin itu disebabkan oleh "abberasi statistik". Namun, jika Anda menemukan lebih dari beberapa outlier, Anda perlu menjelajahi data Anda lebih dekat. Jika Anda tidak dapat mengaitkan penyebab abberasi, maka Anda tidak memahami prosesnya dan model statistik tidak akan menyelesaikan masalah Anda. Tujuan dari suatu model adalah untuk merangkum suatu proses, model tersebut tidak akan secara ajaib meringkas suatu proses yang tidak dipahami oleh pelaku eksperimen.

schenectady
sumber
Ini adalah kecenderungan manusia. Robert Millikan tidak terkecuali. Saya sangat senang bahwa begitu banyak hal baru telah tercerahkan dan filosofi di balik model statistik ditekankan.
DrWho
5

Peran "pembersihan data" adalah mengidentifikasi kapan "undang-undang (model) kami tidak berfungsi". Menyesuaikan untuk Pencilan atau titik data abnormal berfungsi untuk memungkinkan kami mendapatkan "perkiraan kuat" dari parameter dalam model saat ini yang kami menghibur. "Pencilan" ini jika tidak dirawat memungkinkan distorsi yang tidak diinginkan dalam parameter model karena perkiraan "didorong untuk menjelaskan poin data ini" yang "tidak berperilaku sesuai dengan model hipotesis kami". Dengan kata lain ada banyak pengembalian dalam hal menjelaskan Jumlah Kuadrat dengan berfokus pada "penjahat". Poin-poin yang diidentifikasi secara empiris yang membutuhkan pembersihan harus diteliti dengan cermat untuk berpotensi mengembangkan / menyarankan faktor-faktor penyebab yang tidak ada dalam model saat ini.

Bagaimana cara menilai efek intervensi di satu negara dibandingkan negara lain menggunakan tingkat fatalitas kasus tahunan?

Melakukan sains berarti mencari pola yang berulang.

Untuk mendeteksi anomali adalah mengidentifikasi nilai-nilai yang tidak mengikuti pola berulang. Bagaimana lagi Anda tahu bahwa suatu titik melanggar model itu? Faktanya, proses tumbuh, memahami, menemukan, dan memeriksa outlier harus berulang. Ini bukan pemikiran baru.

Sir Frances Bacon, yang menulis di Novum Organum sekitar 400 tahun yang lalu berkata: “Kesalahan Alam, Olahraga, dan Monster mengoreksi pemahaman sehubungan dengan hal-hal biasa, dan mengungkapkan bentuk umum. Sebab siapa pun yang tahu jalan-jalan Alam akan lebih mudah melihat penyimpangannya; dan, di sisi lain, siapa pun yang tahu penyimpangan akan lebih akurat menggambarkan caranya. "

Kami mengubah aturan kami dengan mengamati ketika aturan saat ini gagal.

Jika memang outlier yang teridentifikasi semuanya adalah pulsa dan memiliki efek (ukuran) yang serupa maka kami sarankan yang berikut (dikutip dari poster lain)

"Satu" cara cepat dan kotor "untuk melakukan ini dalam pengaturan regresi adalah dengan memasukkan indikator untuk tahun / periode epidemi sebagai variabel regresi. Ini akan memberi Anda perkiraan rata-rata dari efek epidemi (dan secara implisit mengasumsikan bahwa pengaruhnya adalah sama untuk setiap epidemi). Namun, pendekatan ini hanya berfungsi untuk menggambarkan efeknya, karena dalam peramalan, variabel regresi Anda tidak diketahui (Anda tidak tahu periode mana di masa depan yang akan menjadi epidemi). "

Ini jika tentu saja mengharuskan anomali individu (tahun pulsa) memiliki efek yang sama. Jika mereka berbeda maka variabel portmanteau yang dijelaskan di atas akan salah.

IrishStat
sumber
@IrishStat: Penjelasan yang bagus dan kutipan yang mengesankan. Anda mempertahankan senioritas dan keahlian Anda. Bisakah Anda memperluas pernyataan "pengetahuan yang menunggu untuk ditemukan" dengan mengacu pada pertanyaan saya sebelumnya stats.stackexchange.com/questions/8358/…
DrWho
1
@DrWHO: Identifikasi LEVEL SHIFT pada tahun 2014 yang memperbaiki plot residu yang terlihat sangat buruk adalah contoh dari "pengetahuan yang menunggu untuk ditemukan" karena ia mengungkap penundaan nyata antara tanggal perubahan kebijakan dan tanggal implementasi / realisasi penuhnya. pernyataan bahwa pergeseran tingkat (langkah) permanen sepenuhnya direalisasikan pada tahun 2004 (tahun 11 dari 17) mencerminkan tanggal de facto di mana tanggal de jure adalah beberapa tahun sebelumnya.
IrishStat
@IrishStat: Terima kasih atas klarifikasi. Sangat sulit untuk meyakinkan pembuat kebijakan, dokter dan masyarakat bahwa pengobatan tertentu dapat memiliki perubahan drastis pada hasil penyakit. Butuh beberapa dekade. Pergeseran Tingkat ini terlihat pada tahun 2004 mencerminkan keterlambatan dalam menerima sesuatu yang baru. Apakah lebih baik meninggalkan Level shift atau memperlakukannya sebagai pencilan untuk perhitungan Angka Fatalitas Kasus 1 sementara menangani pertanyaan stats.stackexchange.com/questions/8358/…
DrWho
1
komentar saya di atas seharusnya LEVEL SHIFT pada tahun 2004. Maaf tentang kebingungannya.
IrishStat
1
@DrWHO: Untuk menjawab pertanyaan Anda, "Apakah lebih baik meninggalkan Level shift atau memperlakukannya sebagai pencilan untuk perhitungan Angka Kematian Kasus Negara 1 saat menangani pertanyaan". Jika Anda tidak mengobatinya maka orang dapat dengan mudah mengatakan STATE1 memiliki Level Shift Change pada 2004 sedangkan STATE2 tidak dengan demikian mereka berbeda tetapi orang tidak dapat menempatkan probabilitas pada pernyataan itu. Setelah memperlakukan STATE1 untuk Level Shift seseorang telah menormalkan data untuk perubahan status pada tahun 2004. Data yang dinormalisasi (data yang dibersihkan) kemudian dapat dibandingkan dengan data normalisasi STATE2 tanpa kehilangan keumuman.
IrishStat
5

Salah satu metode yang paling umum digunakan untuk menemukan epidemi dalam data retrospektif sebenarnya adalah untuk mencari pencilan - banyak peneliti flu, misalnya, terutama berfokus pada residu model pas mereka, daripada model itu sendiri, untuk melihat tempat di mana "hari" in, day out "prediksi model gagal - salah satu cara model gagal adalah dengan munculnya epidemi.

Namun sangat penting bahwa Anda membedakan antara memburu outlier dalam hasil Anda - mungkin bukan ide terbaik yang pernah ada - dan apa yang oleh sebagian besar orang disebut sebagai "pembersihan data". Di sini, Anda mencari outlier bukan karena mereka mewakili masalah statistik, tetapi karena mereka meningkatkan masalah kualitas data.

Misalnya, dalam kumpulan data yang saya miliki, ada variabel untuk timbulnya penyakit. Untuk satu subjek, tanggal ini adalah bulan November 1929. Apakah saya pikir ini benar? Ini menunjukkan masalah kualitas data yang perlu diperbaiki - dalam hal ini mengoreksi tanggal berdasarkan informasi lain tentang subjek. Jenis pembersihan data ini akan secara aktif meningkatkan kualitas hasil statistik Anda.

Fomite
sumber