Apa perbedaan antara sensor dan pemotongan?

30

Dalam buku Model Statistik dan Metode untuk Data Seumur Hidup , ada tertulis:

Penyensoran: Ketika pengamatan tidak lengkap karena beberapa penyebab acak.
Pemotongan: Ketika sifat pengamatan yang tidak lengkap adalah karena proses seleksi sistematis yang melekat pada desain penelitian.

Apa yang dimaksud dengan "proses seleksi sistematis yang melekat pada desain studi" dalam definisi pemotongan?

Apa perbedaan antara sensor dan pemotongan?

ABC
sumber
3
Lihatlah jawabannya di sini .
Dimitriy V. Masterov
3
Penyensoran: "Kami telah melakukan pengamatan di suatu tempat tetapi kami tidak tahu apa itu". Truncation: "Pengamatan? Pengamatan apa?"
Glen_b -Reinstate Monica
Dari manakah definisi Anda dikutip?
Glen_b -Reinstate Monica
1
@ Glen_b Saya sudah mengedit pertanyaan saya.
ABC

Jawaban:

57

Definisi berbeda-beda, dan kedua istilah ini kadang-kadang digunakan secara bergantian. Saya akan mencoba menjelaskan penggunaan paling umum menggunakan kumpulan data berikut:

11.25245

Penyensoran : beberapa pengamatan akan disensor, artinya kita hanya tahu bahwa mereka di bawah (atau di atas) beberapa batas. Ini dapat misalnya terjadi jika kita mengukur konsentrasi bahan kimia dalam sampel air. Jika konsentrasi terlalu rendah, peralatan laboratorium tidak dapat mendeteksi keberadaan bahan kimia tersebut. Mungkin masih ada, jadi kita hanya tahu bahwa konsentrasinya di bawah batas deteksi laboratorium.

Jika batas deteksi 1,5, sehingga pengamatan yang berada di bawah batas ini disensor, kumpulan data contoh kami akan menjadi: yaitu, kita tidak tahu nilai aktual dari dua pengamatan pertama, tetapi hanya bahwa mereka lebih kecil dari 1,5.

<1.5<1.5245,

Pemotongan : proses menghasilkan data sedemikian rupa sehingga hanya mungkin untuk mengamati hasil di atas (atau di bawah) batas pemotongan. Misalnya, hal ini dapat terjadi jika pengukuran dilakukan menggunakan detektor yang hanya diaktifkan jika sinyal yang dideteksinya berada di atas batas tertentu. Mungkin ada banyak sinyal masuk yang lemah, tetapi kita tidak pernah tahu menggunakan detektor ini.

Jika batas pemotongan 1,5, kumpulan data contoh kami akan menjadi dan kita tidak akan tahu bahwa sebenarnya ada dua sinyal yang tidak direkam.

245
MånsT
sumber
Jadi, pada penggunaan istilah ini, "disensor" menyesatkan jika kita berpikir dalam hal penggunaan kata yang non-teknis? yaitu dalam pengertian statistik, ini berarti sesuatu seperti "kabur" atau "hanya diketahui berada dalam kisaran tertentu", daripada dalam sesuatu seperti pengertian non-teknis - yaitu ditekan atau dihapus, seperti ketika sebuah buku dihapus dari toko karena isinya.
Mars
3
Sebagai contoh nyata pemotongan, perusahaan asuransi mobil tidak pernah mendengar tentang kecelakaan di mana kerusakan kurang dari yang dapat dikurangkan, karena orang tidak melaporkan di sana. Ini adalah pemotongan kiri; kami tidak pernah melihat data tentang insiden ini sama sekali. Sebagai contoh penyensoran benar, ketika seorang pasien yang sakit memutuskan untuk berhenti mengunjungi dokter mereka, atau pindah ke kota lain, maka yang diketahui hanyalah bahwa mereka masih hidup pada hari mereka pergi, tetapi kita tidak tahu kapan mereka mati. .
David White
@ Mars: Saya setuju bahwa kedengarannya mundur dari penggunaan non-teknis modern di mana "sensor" menghapus semua jejak, dan "memotong" menghapus rincian. Tetapi dalam statistik "Sensor" digunakan dalam pengertian non-teknis yang lebih kuno di mana sensor dapat menghapus tetapi tidak menghilangkan jejak sesuatu: kotak hitam atau kabur yang ditempatkan di bagian foto atau video yang ofensif, bleep yang mencakup kata-kata kotor di radio, atau surat tentara ke rumah atau rilis dokumen rahasia di mana bagian yang disensor (lebih modern "dihapus") dihitamkan.
Wayne
Bayangkan saya mengukur selang waktu antara dua jenis acara. Tapi saya hanya bisa merekam acara selama 1 tahun. Apakah waktu akan disensor atau dipotong?
skan
4

Sama seperti perspektif dari bidang lain (pemrograman), sensor dan pemotongan adalah dua operasi yang berbeda.

Ketika bekerja dengan dataset sensitif, misalnya nomor jaminan sosial dan nomor telepon, saya mungkin menyensornya atau menyensornya sebelum akses diberikan:

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

Hal ini memungkinkan sisa aplikasi untuk beroperasi seperti biasanya, dengan struktur data yang serupa, tetapi tanpa konten informasi nyata atau penyebaran informasi pribadi.

Pemotongan, sebaliknya, biasanya hanya memotong nilai yang tersisa setelah titik tertentu. Untuk mengerjakan aplikasi, saya tidak perlu ratusan ribu catatan, mungkin saya hanya perlu ~ masing-masing 50 yang membuat akses data lebih cepat dan set data lebih kecil.

Varian pemotongan yang serupa adalah ketika memasukkan nilai ke dalam kolom atau tipe data dengan panjang atau presisi terbatas:

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10
Ehryk
sumber
1
+1 Sangat penting untuk mengetahui bahwa penyensoran dan pemotongan dapat memiliki arti yang sangat berbeda di luar statistik!
MånsT