Dalam buku Model Statistik dan Metode untuk Data Seumur Hidup , ada tertulis:
Penyensoran: Ketika pengamatan tidak lengkap karena beberapa penyebab acak.
Pemotongan: Ketika sifat pengamatan yang tidak lengkap adalah karena proses seleksi sistematis yang melekat pada desain penelitian.
Apa yang dimaksud dengan "proses seleksi sistematis yang melekat pada desain studi" dalam definisi pemotongan?
Apa perbedaan antara sensor dan pemotongan?
Jawaban:
Definisi berbeda-beda, dan kedua istilah ini kadang-kadang digunakan secara bergantian. Saya akan mencoba menjelaskan penggunaan paling umum menggunakan kumpulan data berikut:
Penyensoran : beberapa pengamatan akan disensor, artinya kita hanya tahu bahwa mereka di bawah (atau di atas) beberapa batas. Ini dapat misalnya terjadi jika kita mengukur konsentrasi bahan kimia dalam sampel air. Jika konsentrasi terlalu rendah, peralatan laboratorium tidak dapat mendeteksi keberadaan bahan kimia tersebut. Mungkin masih ada, jadi kita hanya tahu bahwa konsentrasinya di bawah batas deteksi laboratorium.
Jika batas deteksi 1,5, sehingga pengamatan yang berada di bawah batas ini disensor, kumpulan data contoh kami akan menjadi: yaitu, kita tidak tahu nilai aktual dari dua pengamatan pertama, tetapi hanya bahwa mereka lebih kecil dari 1,5.
Pemotongan : proses menghasilkan data sedemikian rupa sehingga hanya mungkin untuk mengamati hasil di atas (atau di bawah) batas pemotongan. Misalnya, hal ini dapat terjadi jika pengukuran dilakukan menggunakan detektor yang hanya diaktifkan jika sinyal yang dideteksinya berada di atas batas tertentu. Mungkin ada banyak sinyal masuk yang lemah, tetapi kita tidak pernah tahu menggunakan detektor ini.
Jika batas pemotongan 1,5, kumpulan data contoh kami akan menjadi dan kita tidak akan tahu bahwa sebenarnya ada dua sinyal yang tidak direkam.
sumber
Sama seperti perspektif dari bidang lain (pemrograman), sensor dan pemotongan adalah dua operasi yang berbeda.
Ketika bekerja dengan dataset sensitif, misalnya nomor jaminan sosial dan nomor telepon, saya mungkin menyensornya atau menyensornya sebelum akses diberikan:
Hal ini memungkinkan sisa aplikasi untuk beroperasi seperti biasanya, dengan struktur data yang serupa, tetapi tanpa konten informasi nyata atau penyebaran informasi pribadi.
Pemotongan, sebaliknya, biasanya hanya memotong nilai yang tersisa setelah titik tertentu. Untuk mengerjakan aplikasi, saya tidak perlu ratusan ribu catatan, mungkin saya hanya perlu ~ masing-masing 50 yang membuat akses data lebih cepat dan set data lebih kecil.
Varian pemotongan yang serupa adalah ketika memasukkan nilai ke dalam kolom atau tipe data dengan panjang atau presisi terbatas:
sumber