Ok, peringatan yang adil - ini adalah pertanyaan filosofis yang tidak melibatkan angka. Saya telah berpikir banyak tentang bagaimana kesalahan merayap ke set data dari waktu ke waktu dan bagaimana itu harus diperlakukan oleh analis - atau jika itu benar-benar penting?
Sebagai latar belakang, saya melakukan analisis pada studi jangka panjang yang melibatkan banyak set data yang dikumpulkan oleh sekitar 25 orang selama 7-8 tahun - tidak ada yang pernah membawa semua data ke dalam struktur yang koheren (itulah pekerjaan saya). Saya telah melakukan banyak entri data (menyalin dari fotokopi notebook lab lama) dan saya terus menemukan kesalahan transkripsi kecil yang dibuat orang lain, dan juga menemukan entri data yang sulit atau tidak mungkin dibaca - kebanyakan karena tinta telah memudar seiring waktu. Saya menggunakan konteks untuk membuat 'tebakan terbaik' tentang apa yang dikatakan data dan meninggalkan data secara keseluruhan jika saya tidak yakin. Tapi saya terus berpikir tentang fakta bahwa setiap kali data disalin, frekuensi kesalahan pasti akan meningkat hingga data asli benar-benar hilang.
Jadi, ini membawa saya pada pemikiran: selain kesalahan instrumen / pengukuran, dan kesalahan perekaman, ada komponen fundamental 'kesalahan penanganan data' yang akan meningkat seiring waktu dan dengan lebih banyak penanganan data (catatan tambahan: ini mungkin hanyalah cara lain untuk menyatakan hukum ke-2 Termodinamika, bukan? Entropi data akan selalu meningkat). Konsekuensinya, saya bertanya-tanya apakah harus ada semacam 'koreksi' yang diperkenalkan untuk menjelaskan sejarah kehidupan set data (sesuatu yang mirip dengan koreksi Bonferroni)? Dengan kata lain, haruskah kita berasumsi bahwa set data yang lebih lama, atau lebih banyak disalin kurang akurat, dan jika demikian, haruskah kita menyesuaikan temuan?
Tetapi kemudian pemikiran saya yang lain adalah bahwa kesalahan adalah bagian inheren dari pengumpulan data dan penanganan data, dan karena semua tes statistik telah dikembangkan dengan data dunia nyata, mungkin sumber kesalahan ini sudah 'dihargai' untuk dianalisis?
Juga, poin lain yang layak disebutkan adalah bahwa karena kesalahan data acak, mereka jauh lebih mungkin mengurangi kekuatan temuan daripada memperbaikinya - dengan kata lain, kesalahan penanganan data akan menyebabkan kesalahan Tipe 2, bukan kesalahan Tipe 1 . Jadi, dalam banyak konteks, jika Anda menggunakan data lama / dipertanyakan dan masih menemukan efek, itu akan meningkatkan kepercayaan diri Anda bahwa efeknya nyata (karena itu cukup kuat untuk selamat dari penambahan kesalahan acak ke kumpulan data). Jadi untuk alasan itu, mungkin 'koreksi' harus pergi ke arah lain (meningkatkan level alpha yang diperlukan untuk 'temuan'), atau tidak menyusahkan kita?
Bagaimanapun, maaf karena begitu bertele-tele dan tumpul, saya tidak benar-benar yakin bagaimana mengajukan pertanyaan ini dengan lebih ringkas. Terima kasih telah bersama dengan saya.
Jawaban:
Saya mendukung saran @Aksakal: Jika kesalahan pengukuran dilihat oleh analis sebagai hal yang penting, itu dapat dan harus dimodelkan secara eksplisit sebagai bagian dari proses menghasilkan data.
Saya melihat beberapa pertimbangan yang menentang pengenalan faktor koreksi generik berdasarkan, misalnya, usia kumpulan data.
Pertama, usia mungkin proksi yang sangat buruk untuk tingkat penurunan data. Teknologi duplikasi, kompresi, dan konservasi, dan tingkat upaya dan perawatan yang dilakukan untuk memverifikasi transkripsi yang benar, tampaknya merupakan faktor penting. Beberapa teks kuno (misalnya, Alkitab) telah dikonservasi selama berabad-abad dengan degradasi yang tampaknya nol. Contoh VHS Anda, meskipun sah, sebenarnya tidak biasa, karena setiap peristiwa duplikasi selalu menimbulkan kesalahan, dan tidak ada cara mudah untuk memeriksa dan memperbaiki kesalahan transkripsi - jika seseorang menggunakan teknologi murah, tersedia luas untuk duplikasi dan penyimpanan. Saya berharap bahwa satu kesalahan tingkat rendah diperkenalkan secara substansial, melalui investasi dalam sistem yang lebih mahal.
Poin terakhir ini lebih umum: konservasi dan perbanyakan data adalah kegiatan ekonomi . Kualitas transmisi sangat tergantung pada sumber daya yang digunakan. Pilihan-pilihan ini pada gilirannya akan tergantung pada pentingnya data yang dirasakan oleh siapa pun yang melakukan penggandaan dan pengiriman.
Pertimbangan ekonomi juga berlaku untuk analis. Selalu ada lebih banyak faktor yang dapat Anda perhitungkan saat melakukan analisis. Dalam kondisi apa kesalahan transkripsi data akan cukup besar, dan cukup penting, sehingga layak diperhitungkan? Firasat saya adalah: kondisi seperti itu tidak umum. Selain itu, jika potensi degradasi data dipandang cukup penting untuk diperhitungkan dalam analisis Anda, maka mungkin cukup penting untuk melakukan upaya untuk memodelkan proses secara eksplisit, daripada memasukkan langkah "koreksi" umum.
Akhirnya, tidak ada kebutuhan untuk mengembangkan suatu faktor koreksi generik de novo . Sudah ada badan substansial teori statistik dan praktik untuk menganalisis set data yang kesalahan pengukuran dipandang penting.
Singkatnya: ini pemikiran yang menarik. Tapi saya tidak berpikir itu harus memacu perubahan dalam praktik analitik.
sumber