Apakah kesalahan penanganan data sudah 'dihargai' untuk analisis statistik?

Ok, peringatan yang adil - ini adalah pertanyaan filosofis yang tidak melibatkan angka. Saya telah berpikir banyak tentang bagaimana kesalahan merayap ke set data dari waktu ke waktu dan bagaimana itu harus diperlakukan oleh analis - atau jika itu benar-benar penting?

Sebagai latar belakang, saya melakukan analisis pada studi jangka panjang yang melibatkan banyak set data yang dikumpulkan oleh sekitar 25 orang selama 7-8 tahun - tidak ada yang pernah membawa semua data ke dalam struktur yang koheren (itulah pekerjaan saya). Saya telah melakukan banyak entri data (menyalin dari fotokopi notebook lab lama) dan saya terus menemukan kesalahan transkripsi kecil yang dibuat orang lain, dan juga menemukan entri data yang sulit atau tidak mungkin dibaca - kebanyakan karena tinta telah memudar seiring waktu. Saya menggunakan konteks untuk membuat 'tebakan terbaik' tentang apa yang dikatakan data dan meninggalkan data secara keseluruhan jika saya tidak yakin. Tapi saya terus berpikir tentang fakta bahwa setiap kali data disalin, frekuensi kesalahan pasti akan meningkat hingga data asli benar-benar hilang.

Jadi, ini membawa saya pada pemikiran: selain kesalahan instrumen / pengukuran, dan kesalahan perekaman, ada komponen fundamental 'kesalahan penanganan data' yang akan meningkat seiring waktu dan dengan lebih banyak penanganan data (catatan tambahan: ini mungkin hanyalah cara lain untuk menyatakan hukum ke-2 Termodinamika, bukan? Entropi data akan selalu meningkat). Konsekuensinya, saya bertanya-tanya apakah harus ada semacam 'koreksi' yang diperkenalkan untuk menjelaskan sejarah kehidupan set data (sesuatu yang mirip dengan koreksi Bonferroni)? Dengan kata lain, haruskah kita berasumsi bahwa set data yang lebih lama, atau lebih banyak disalin kurang akurat, dan jika demikian, haruskah kita menyesuaikan temuan?

Tetapi kemudian pemikiran saya yang lain adalah bahwa kesalahan adalah bagian inheren dari pengumpulan data dan penanganan data, dan karena semua tes statistik telah dikembangkan dengan data dunia nyata, mungkin sumber kesalahan ini sudah 'dihargai' untuk dianalisis?

Juga, poin lain yang layak disebutkan adalah bahwa karena kesalahan data acak, mereka jauh lebih mungkin mengurangi kekuatan temuan daripada memperbaikinya - dengan kata lain, kesalahan penanganan data akan menyebabkan kesalahan Tipe 2, bukan kesalahan Tipe 1 . Jadi, dalam banyak konteks, jika Anda menggunakan data lama / dipertanyakan dan masih menemukan efek, itu akan meningkatkan kepercayaan diri Anda bahwa efeknya nyata (karena itu cukup kuat untuk selamat dari penambahan kesalahan acak ke kumpulan data). Jadi untuk alasan itu, mungkin 'koreksi' harus pergi ke arah lain (meningkatkan level alpha yang diperlukan untuk 'temuan'), atau tidak menyusahkan kita?

Bagaimanapun, maaf karena begitu bertele-tele dan tumpul, saya tidak benar-benar yakin bagaimana mengajukan pertanyaan ini dengan lebih ringkas. Terima kasih telah bersama dengan saya.

dataset error Jas Max
sumber

Ini pertanyaan yang bagus (+1). Namun, satu poin: ini bisa menjadi kesalahan substansial untuk memperlakukan sebagian besar kesalahan data yang Anda sebutkan sebagai "acak." Misalnya, cenderung ada lebih banyak pertukaran angka "0", "5", "6", dan "8" selama transkripsi daripada angka lainnya (dan beberapa di antaranya dapat salah dibaca sebagai "." Dan sebaliknya ). Juga, perubahan yang dilakukan pada nilai data yang menonjol (seperti yang ekstrem) seringkali cepat diidentifikasi dan diperbaiki. Meskipun tentu saja ada beberapa elemen peluang untuk proses korupsi data ini, mengkarakterisasi mereka dengan benar bisa menjadi masalah penting.

whuber

Mengapa Anda tidak memperlakukan kesalahan penanganan data adalah bagian dari kesalahan pengukuran dan menanganinya sesuai? Jika untuk mengukur jumlah pengendara taman hiburan, saya perlu mengerahkan 20 orang untuk menonton gerbang, maka saya dapat menganggap tim 20 orang ini sebagai alat pengukur jenis

Aksakal

@whuber, masih acak untuk mencampur 8 dan 5, meskipun mungkin tidak memiliki probabilitas yang sama dengan mencampur 5 dan 7.

Aksakal

@whuber, itu poin yang menarik (frekuensi tidak sama dari jenis kesalahan transkripsi tertentu) yang tidak saya pikirkan. Bisakah Anda mengarahkan saya ke sumber mana pun untuk mempelajari lebih lanjut tentang itu? Itu membuat saya bertanya-tanya apakah tes kualitas data dapat dikembangkan, berdasarkan frekuensi digit? Saya pernah mendengar tes serupa untuk data palsu / palsu berdasarkan frekuensi digit, jadi saya bayangkan hal serupa mungkin terjadi jika tren yang Anda sebutkan konsisten.

Jas Max

@whuber, satu pemikiran lagi. Anda menyebutkan 0, 5, 6, 8 sering bingung - karena mereka mirip? Itu membuat saya menyadari bahwa sumber kesalahan yang berbeda akan memiliki kesalahan penggantian karakteristik - misalnya, jika Anda mendengar data (merekam apa yang seseorang katakan) maka saya pikir 5 dan 9 mungkin akan lebih sering bingung. Jika sumber kesalahan adalah entropi (tinta memudar atau elektron bergerak) maka saya pikir substitusi akan lebih acak, tetapi mungkin juga unik. Jika pola ini berlaku, mungkin Anda bisa menyelidiki sumber kesalahan dalam kumpulan data besar, berdasarkan frekuensi digit.

Jas Max

Saya mendukung saran @Aksakal: Jika kesalahan pengukuran dilihat oleh analis sebagai hal yang penting, itu dapat dan harus dimodelkan secara eksplisit sebagai bagian dari proses menghasilkan data.

Saya melihat beberapa pertimbangan yang menentang pengenalan faktor koreksi generik berdasarkan, misalnya, usia kumpulan data.

Pertama, usia mungkin proksi yang sangat buruk untuk tingkat penurunan data. Teknologi duplikasi, kompresi, dan konservasi, dan tingkat upaya dan perawatan yang dilakukan untuk memverifikasi transkripsi yang benar, tampaknya merupakan faktor penting. Beberapa teks kuno (misalnya, Alkitab) telah dikonservasi selama berabad-abad dengan degradasi yang tampaknya nol. Contoh VHS Anda, meskipun sah, sebenarnya tidak biasa, karena setiap peristiwa duplikasi selalu menimbulkan kesalahan, dan tidak ada cara mudah untuk memeriksa dan memperbaiki kesalahan transkripsi - jika seseorang menggunakan teknologi murah, tersedia luas untuk duplikasi dan penyimpanan. Saya berharap bahwa satu kesalahan tingkat rendah diperkenalkan secara substansial, melalui investasi dalam sistem yang lebih mahal.

Poin terakhir ini lebih umum: konservasi dan perbanyakan data adalah kegiatan ekonomi . Kualitas transmisi sangat tergantung pada sumber daya yang digunakan. Pilihan-pilihan ini pada gilirannya akan tergantung pada pentingnya data yang dirasakan oleh siapa pun yang melakukan penggandaan dan pengiriman.

Pertimbangan ekonomi juga berlaku untuk analis. Selalu ada lebih banyak faktor yang dapat Anda perhitungkan saat melakukan analisis. Dalam kondisi apa kesalahan transkripsi data akan cukup besar, dan cukup penting, sehingga layak diperhitungkan? Firasat saya adalah: kondisi seperti itu tidak umum. Selain itu, jika potensi degradasi data dipandang cukup penting untuk diperhitungkan dalam analisis Anda, maka mungkin cukup penting untuk melakukan upaya untuk memodelkan proses secara eksplisit, daripada memasukkan langkah "koreksi" umum.

Akhirnya, tidak ada kebutuhan untuk mengembangkan suatu faktor koreksi generik de novo . Sudah ada badan substansial teori statistik dan praktik untuk menganalisis set data yang kesalahan pengukuran dipandang penting.

Singkatnya: ini pemikiran yang menarik. Tapi saya tidak berpikir itu harus memacu perubahan dalam praktik analitik.

Arthur Small
sumber

Apakah kesalahan penanganan data sudah 'dihargai' untuk analisis statistik?

Jawaban: