Saya telah membaca berbagai deskripsi data yang disensor:
A) Sebagaimana dijelaskan dalam utas ini , data yang tidak dikuantifikasi di bawah atau di atas ambang tertentu disensor. Tidak dikenali berarti data di atas atau di bawah ambang tertentu tetapi kami tidak tahu nilai pastinya. Data kemudian ditandai pada nilai ambang batas rendah atau tinggi dalam model regresi. Ini cocok dengan deskripsi dalam presentasi ini , yang saya temukan sangat jelas (slide ke-2 di halaman pertama). Dengan kata lain dibatasi hingga minimum, nilai maksimum, atau keduanya karena kita tidak tahu nilai sebenarnya di luar rentang itu.
B) Seorang teman mengatakan kepada saya bahwa kita dapat menerapkan model data yang disensor ke pengamatan Y sebagian tidak diketahui , asalkan kita memiliki setidaknya beberapa informasi batas tentang hasil Y i yang tidak diketahui . Misalnya, kami ingin memperkirakan harga akhir untuk campuran lelang diam-diam dan terbuka berdasarkan beberapa kriteria kualitatif (jenis barang, negara, kekayaan penawar, dll.). Sedangkan untuk pelelangan terbuka kita tahu semua harga final Y i , untuk pelelangan diam kita hanya tahu tawaran pertama (katakanlah, $ 1.000) tetapi bukan harga akhir. Saya diberitahu bahwa dalam hal ini data disensor dari atas dan model regresi yang disensor harus diterapkan.
C) Akhirnya ada definisi yang diberikan oleh Wikipedia di mana hilang sama sekali tetapi prediktor tersedia. Saya tidak yakin bagaimana contoh ini berbeda dari data terpotong.
Jadi apa sebenarnya data yang disensor?
sumber
Jawaban:
Pertimbangkan data berikut pada hasil dan x kovariat :y x
Untuk pengguna 1, kami memiliki data lengkap. Untuk semua orang, kami memiliki data yang tidak lengkap. Pengguna 2, 3 dan 4 semuanya disensor: hasil yang sesuai dengan nilai-nilai kovariat yang diketahui tidak diamati atau tidak diamati secara tepat (disensor kiri, kanan, dan interval). Terkadang ini adalah artefak pertimbangan privasi dalam desain survei. Di lain waktu, itu terjadi karena alasan lain. Sebagai contoh, kami tidak mengamati upah di bawah upah minimum atau permintaan aktual untuk tiket konser di atas kapasitas arena.
Pengguna 5 terpotong: hasil dan kovariat tidak ada. Ini biasanya terjadi karena kami hanya mengumpulkan data pada orang yang melakukan sesuatu. Misalnya, kami hanya mensurvei orang-orang yang membeli sesuatu ( ), jadi kami mengecualikan siapa pun dengan y = 0 bersama dengan x s mereka. Kami bahkan mungkin tidak memiliki baris untuk tipe data keluar pengguna ini, meskipun kami tahu mereka ada karena kami tahu aturan yang digunakan untuk menghasilkan sampel kami. Contoh lain adalah pemotongan insidental : kami hanya mengamati tawaran upah untuk orang-orang yang berada dalam angkatan kerja, karena kami menganggap bahwa tawaran upah adalah upah ketika Anda bekerja. Pemotongan bersifat insidental karena tidak tergantung pada yy>0 y=0 x y , tetapi pada variabel lain.
Singkatnya, pemotongan menyiratkan kehilangan informasi yang lebih besar daripada menyensor (poin A & B). Kedua jenis "ketiadaan" ini sistematis.
Bekerja dengan tipe data ini biasanya melibatkan membuat asumsi distribusi yang kuat tentang kesalahan, dan memodifikasi kemungkinan untuk memperhitungkannya. Pendekatan semi parametrik yang lebih fleksibel juga dimungkinkan. Ini tersirat dalam poin Anda B.
sumber
Secara deskriptif, saya akan menawarkan "sampel data disensor jika beberapa pengamatan di dalamnya mengambil, atau merupakan, nilai ekstrim sampel tetapi nilai sebenarnya berada di luar rentang sampel yang diamati". Tapi ini sangat mudah.
Jadi pertama mari kita bahas bagaimana kita dapat menyimpulkan bahwa set data disensor, yang secara alami akan mengarahkan kita untuk membahas kasus-kasus yang disajikan dalam pertanyaan.
Misalkan kita diberi set data berikut dari variabel acak diskrit , yang hanya kita ketahui adalah bahwa itu non-negatif:X
Bisakah kita mengatakan bahwa kumpulan data disensor? Kita berhak berpikir bahwa itu mungkin, tetapi tidak harus demikian:
1) mungkin memiliki rentang { 0 , 1 , 2 } dan distribusi probabilitas { 0,1 , 0,1 , 0,8 } . Jika memang demikian, tampaknya tidak ada sensor di sini, hanya sampel "yang diantisipasi" dari variabel acak seperti itu, dengan dukungan terikat dan distribusi sangat asimetris.X {0,1,2} {0.1,0.1,0.8}
2) Tapi mungkin kasus yang memiliki rentang { 0 , 1 , . . . , 9 } dengan distribusi probabilitas seragam { 0,1 , 0,1 , . . .0 .1 }X {0,1,...,9} {0.1,0.1,...0.1} , dalam hal ini sampel data kami kemungkinan besar disensor.
Bagaimana kita tahu? Kami tidak dapat, kecuali jika kami memiliki pengetahuan atau informasi sebelumnya , yang akan memungkinkan kami untuk berdebat mendukung satu atau kasus lainnya. Apakah ketiga kasus yang disajikan dalam pertanyaan mewakili pengetahuan sebelumnya tentang efek penyensoran? Ayo lihat:
Kasus A) menggambarkan situasi di mana untuk beberapa pengamatan kami hanya memiliki informasi kualitatif seperti "sangat besar", "sangat kecil" dll, yang mengarahkan kami untuk memberikan nilai ekstrim pada pengamatan. Perhatikan bahwa tidak mengetahui nilai realisasi yang sebenarnya tidak membenarkan pemberian nilai ekstrem. Jadi kita harus memiliki beberapa informasi yang menyatakan bahwa untuk pengamatan ini, nilainya melebihi atau di bawah semua yang diamati. Dalam hal ini, kisaran aktual dari variabel acak tidak diketahui, tetapi informasi kualitatif kami memungkinkan kami untuk membuat sampel yang disensor (ini adalah diskusi lain mengapa kami tidak hanya meninggalkan pengamatan yang kami tidak memiliki nilai realisasi aktual) ).
Kasus B) adalah bukan kasus menyensor, jika saya mengerti benar, melainkan kasus sampel terkontaminasi: kami apriori informasi memberitahu kita bahwa nilai maksimum dari variabel acak tidak dapat melebihi (karena katakanlah kepada hukum fisik atau hukum sosial - anggap ini adalah nilai data dari sistem penilaian yang hanya menggunakan nilai 1 , 2 , 3 ). Tetapi kami telah mengamati juga nilai 4 dan nilai 5 . Bagaimana ini bisa terjadi? Kesalahan dalam pencatatan data. Tetapi dalam kasus seperti itu, kita tidak tahu pasti bahwa angka 4 dan 5 harus semuanya 33 1,2,3 4 5 4 5 3 (sebenarnya, melihat keyboard samping dari komputer, lebih mungkin bahwa adalah 1 dan 5 adalah 2 !). Dengan "mengoreksi" dengan cara apa pun sampel, kami tidak membuatnya menjadi yang disensor, karena variabel acak tidak seharusnya berkisar dalam rentang yang direkam di tempat pertama (sehingga tidak ada probabilitas benar ditugaskan untuk nilai 4 dan 5 ). 4 1 5 2 4 5
Kasus C) mengacu pada sampel bersama, di mana kami memiliki variabel dependen dan prediktor. Di sini, kita dapat memiliki sampel di mana nilai-nilai variabel dependen terkonsentrasi pada satu atau kedua ekstrem, karena struktur fenomena yang diteliti: Dalam contoh biasa "jam kerja", orang yang menganggur tidak bekerja tetapi mereka akan memiliki berhasil (pikirkan baik-baik: apakah kasus ini benar-benar berada di bawah "definisi" deskriptif di awal jawaban ini?). Jadi termasuk mereka dalam regresi dengan jam yang dicatat "nol" membuat bias. Untuk ekstrem lainnya, jumlah jam maksimum yang bekerja mungkin dianggap dapat mencapai, katakanlah16 / hari, dan mungkin ada karyawan yang mau bekerja begitu banyak untuk upah yang diberikan. Tetapi kerangka hukum tidak mengizinkannya dan karenanya kami tidak mengamati "jam kerja" tersebut. Di sini, kami mencoba untuk memperkirakan " fungsi pasokan tenaga kerja yang dimaksudkan " - dan sehubungan dengan variabel ini sampel dicirikan sebagai tersensor.
Tetapi jika kita menyatakan bahwa apa yang ingin kita lakukan adalah memperkirakan "fungsi pasokan tenaga kerja diberikan fenomena pengangguran dan kerangka kerja hukum", sampel tidak akan disensor, karena itu akan mencerminkan efek dari dua aspek ini, sesuatu yang kita inginkan itu harus dilakukan.
Jadi kita melihat bahwa mengkarakterisasi sampel data sebagai yang disensor
a) dapat berasal dari situasi yang berbeda dan
b) memerlukan beberapa perawatan -
biarkan saja fakta bahwa hal itu dapat dikacaukan dengan kasus pemotongan .
sumber
sumber
Sangat penting untuk membedakan data yang disensor versus terpotong serta data yang hilang .
Penyensoran berlaku khusus untuk masalah analisis kelangsungan hidup dan hasil waktu-ke-peristiwa di mana peristiwa yang dihadapi diasumsikan telah terjadi pada beberapa waktu melewati titik di mana Anda berhenti mengamati individu itu . Contohnya adalah laki-laki yang berhubungan seks dengan laki-laki (LSL) dan risiko insiden HIV dalam penelitian prospektif yang memindahkan dan menghentikan kontak dengan koordinator penelitian.
Pemotongan berlaku untuk variabel kontinu yang mengevaluasi ke titik tertentu di mana nilai aktual diketahui lebih besar dari atau kurang dari titik itu. Contohnya adalah pemantauan subyek dengan HIV dan pengembangan AIDS, jumlah CD4 yang turun di bawah 300 dievaluasi hingga 300 yang lebih rendah dari deteksi.
Terakhir, data yang hilang adalah data yang memiliki nilai aktual yang tidak diamati dalam arti apa pun. Data yang disensor tidak hilang data waktu-ke-acara juga tidak terpotong.
sumber
sumber