Saya ditanya pertanyaan seperti "Apakah Anda melakukan pemeriksaan konsistensi dalam pekerjaan sehari-hari Anda?" selama wawancara telepon untuk posisi Biostatistician. Saya tidak tahu harus menjawab apa. Setiap informasi dihargai.
sumber
Saya ditanya pertanyaan seperti "Apakah Anda melakukan pemeriksaan konsistensi dalam pekerjaan sehari-hari Anda?" selama wawancara telepon untuk posisi Biostatistician. Saya tidak tahu harus menjawab apa. Setiap informasi dihargai.
Untuk daftar chl, yang berfokus pada kesalahan pemrosesan data yang jujur, saya akan menambahkan pemeriksaan untuk kesalahan yang lebih halus untuk mengatasi pertanyaan dan masalah berikut (diberikan tanpa urutan tertentu dan tentu saja tidak lengkap):
Dengan asumsi integritas basis data, apakah datanya masuk akal? Apakah mereka secara kasar sesuai dengan harapan atau model konvensional, atau akankah mereka mengejutkan seseorang yang akrab dengan data serupa?
Apakah data konsisten secara internal? Misalnya, jika satu bidang seharusnya merupakan jumlah dari dua bidang lainnya, bukan?
Seberapa lengkap datanya? Apakah mereka yang ditentukan selama fase perencanaan pengumpulan data? Apakah ada data tambahan yang tidak direncanakan? Jika demikian, mengapa mereka ada di sana?
Sebagian besar analisis secara implisit atau eksplisit memodelkan data dengan cara pelit dan memasukkan kemungkinan variasi dari deskripsi umum. Masing-masing model menyarankan cara khusus untuk mengidentifikasi outlier - data yang sangat menyimpang dari deskripsi umum. Apakah ada upaya yang dilakukan untuk mengidentifikasi dan memahami outlier pada setiap tahap eksplorasi dan analisis?
Dalam banyak kasus adalah mungkin bagi analis untuk memasukkan data tambahan ke dalam analisis untuk pemeriksaan kualitas dan wawasan. Misalnya, banyak set data dalam ilmu alam dan sosial serta bisnis mencakup (setidaknya secara implisit) informasi lokasi: pengidentifikasi wilayah Sensus; nama negara, negara bagian, kabupaten; kode pos pelanggan; dan seterusnya. Bahkan jika - mungkin terutama jika - korelasi spasial bukan merupakan elemen dari EDA atau pemodelan, analis dapat menggabungkan data ke representasi geografis dari lokasi dan memetakannya untuk mencari pola dan outlier.
Salah satu kesalahan paling berbahaya yang dapat menyusup ke dalam analisis adalah hilangnya data. Saat mengekstraksi bidang, meringkas data, memformat ulang dataset, dll., Jika satu atau dua item dijatuhkan dari dataset besar sering kali tidak akan ada yang menandainya. Tetapi kadang-kadang sesuatu yang penting hilang, yang memalukan jika ditemukan. Pemeriksaan sederhana - seperti membandingkan sebelum dan sesudah perhitungan dan total data - perlu dilakukan secara rutin untuk menjaga hal-hal tersebut.
Kesalahan berbahaya lainnya dikaitkan dengan konversi tipe dalam komputasi digital. Sebagai contoh, baru-baru ini saya harus membuat kunci (untuk mencocokkan dua file data) dari bidang floating point. Perangkat lunak (Stata) mengimpor bidang sebagai float presisi tunggal dalam satu file tetapi, karena alasan apa pun, sebagai float presisi ganda di file lain. Sebagian besar waktu nilainya cocok tetapi, dalam beberapa kasus karena pembulatan yang berbeda, mereka tidak. Beberapa data hilang sebagai hasilnya. Saya menangkap ini hanya karena penerapan (6). Secara umum, membayar untuk memeriksa konsistensi tipe data lapangan: ints vs float, panjang string, dll.
Jika spreadsheet pernah digunakan pada tahap analisis apa pun , harapkan yang terburuk. Masalahnya adalah bahwa bahkan keystroke yang tersesat dapat secara tidak terlihat merusak data. Ketika hasilnya sangat penting, sebaiknya Anda terus bolak-balik - mengekspor ke spreadsheet, melakukan analisis, mengimpor kembali, dan membandingkan secara sistematis - untuk memastikan tidak ada yang tidak diinginkan terjadi.
Setiap kali database diperbarui, ada baiknya untuk berhenti sejenak dan melakukan perbandingan yang sistematis dan lengkap dengan yang lama untuk memastikan tidak ada yang hilang, berubah, atau rusak dalam proses.
Pada tingkat yang lebih tinggi, setiap kali perkiraan dilakukan (seperti regresi, PCA, apa pun), akan bermanfaat untuk melakukannya menggunakan teknik yang berbeda untuk memeriksa sensitivitas atau bahkan kemungkinan kesalahan dalam kode. Misalnya, ikuti regresi OLS dengan beberapa bentuk regresi yang kuat dan bandingkan koefisiennya. Untuk hasil yang penting, dapat menghibur untuk mendapatkan jawaban menggunakan dua (atau lebih) platform perangkat lunak yang berbeda.
Mungkin jenis "pemeriksaan konsistensi" umum terbaik yang dapat dilakukan siapa pun adalah membuat grafik segalanya, awal dan sering.
Saya kira ini ada hubungannya dengan beberapa bentuk Kontrol Kualitas tentang integritas data , dan lebih khusus bahwa Anda secara teratur memeriksa bahwa database kerja Anda tidak rusak (karena kesalahan saat transfer, salin, atau setelah pembaruan atau pemeriksaan kewarasanan). Ini juga berarti memastikan bahwa penghitungan antara Anda diperiksa ulang (baik secara manual atau melalui kode atau makro tambahan dalam perangkat lunak statistik Anda).
Informasi lain dapat ditemukan di sini: panduan referensi ICH E6 (R1) tentang Pedoman Praktik Klinik yang Baik dari EMEA, Pedoman Praktik Laboratorium Klinik yang Baik , atau Toolbox Investigator Studi Penelitian Penelitian Klinis .
untuk menambah poin bagus lainnya
Saat menggunakan Excel, saya selalu menghasilkan nomor kasus sebagai kolom pertama untuk setiap baris, ini kemudian disalin ke kolom terakhir. Excel tampaknya cukup senang mengurutkan hanya beberapa kolom pada satu waktu, menyebabkan kekacauan jika Anda tidak hati-hati memilih semuanya. Anda bahkan mungkin tidak menyadari bahwa ini telah terjadi. Mampu memeriksa bahwa angka-angka kasus setuju pada kolom pertama dan terakhir dari suatu garis adalah tindakan pencegahan yang bermanfaat.
Saya selalu meninjau outlier.
Entri ganda data oleh orang-orang yang terpisah direkomendasikan untuk pekerjaan kritis.
Saat memasukkan data dari dokumen kertas, adalah ide yang baik untuk menggunakan pengidentifikasi referensi untuk dapat merujuk kembali ke dokumen dan garis yang tepat dari mana entri berasal, penomoran formulir entri data membantu dengan ini.
Sunting - Item lain - Saya tahu bahwa mengedit spreadsheet penuh dengan masalah, tetapi jauh lebih mudah untuk membersihkan entri data dengan mereka. Namun, saya juga menyimpan versi asli yang belum diedit, sehingga setiap perubahan dapat diverifikasi atau dalam kasus terburuk dipulihkan.