Saya akan sangat terkejut jika ada alat generik untuk ini - bagaimana ia "tahu" apa data sensitif dan apa yang tidak? Misalnya perlu memeriksa semua data Anda dan mengenali semua format yang mungkin dari nomor kartu kredit, nomor telepon, kode pos, alamat email, dan apa pun data lain yang dianggap sensitif. Skema Anda juga perlu cerdas - mis. Haruskah ia menulis ulang semua alamat email pelanggan menjadi "[email protected]" - atau apakah ada bagian dari basis data, aplikasi, alat-alat Anda yang menganggap bahwa alamat email pelanggan (atau SSN atau apa pun) unik? Atau apakah Anda memiliki sebagian aplikasi yang memeriksa nomor kartu kredit, yang akan rusak jika Anda mengatur ulang semuanya menjadi 0000 0000 0000 0000? Atau apakah sistem telepon Anda menganggap bahwa pelanggan
Pada dasarnya, mengonfigurasi alat apa pun untuk melakukannya akan lebih atau lebih berfungsi daripada hanya menulis skrip Anda sendiri, menggunakan pengetahuan Anda tentang aplikasi tersebut. Di situs saya, kami membuat kebijakan bahwa siapa pun yang menambahkan kolom dengan data tersebut di pembaruan skrip untuk menganonimkannya pada saat yang sama, setelah audit awal untuk menemukan semua kolom itu dan menulis versi 1.
Jika basis data Anda kecil, memiliki model data sederhana dan dipahami dengan baik oleh DBA saat ini - penulisan skrip "mungkin" menjadi jawabannya. Namun, upaya (dan biaya) untuk secara manual menganalisis dan menutupi basis data yang khas dapat keluar dengan cepat begitu persyaratan berubah, fungsionalitas ditambahkan dan pengembang / DBA datang dan pergi.
Meskipun saya tidak mengetahui adanya produk penyembunyian data sumber terbuka, ada penawaran komersial yang cukup komprehensif, relatif mudah digunakan, dan mungkin lebih masuk akal dari segi biaya. Banyak dari mereka termasuk kemampuan penemuan out-of-the-box untuk mengidentifikasi dan mengklasifikasikan data sensitif (SSN, kartu kredit, nomor telepon) serta fungsi untuk mempertahankan checksum, pemformatan alamat email, pengelompokan data, dll. Sehingga menutupi data terlihat dan terasa nyata.
Tetapi Anda tidak harus mengambil kata (yang memang bias) saya untuk itu. Tanyakan analis industri seperti Gartner atau Forrester yang memiliki sejumlah laporan yang tidak bias tentang masking yang dapat membantu.
Semoga komentar ini akan mendorong Anda untuk mempertimbangkan mengeksplorasi produk komersial serta pengembangan skrip internal. Pada akhirnya, hal terpenting adalah melindungi data sensitif yang banyak dari kita lihat hari demi hari yang sebenarnya tidak perlu kita lihat untuk melakukan pekerjaan kita - menempatkan kita dan orang-orang yang memiliki data yang kami pegang berisiko.
Kevin Hillier, Spesialis Integrasi Senior, Camouflage Software Inc.
sumber
Belum pernah melihat item seperti itu, tetapi setelah bekerja dengan beberapa set data sensitif di waktu saya, hal utama yang perlu diacak adalah identitas orang atau informasi identitas pribadi. Ini seharusnya hanya muncul di beberapa tempat dalam database.
Operasi masking Anda harus mempertahankan properti statistik dan hubungan data, dan mungkin perlu mempertahankan kode referensi yang sebenarnya (atau setidaknya semacam mekanisme terjemahan terkontrol) sehingga Anda dapat merekonsiliasi data aktual.
Hal semacam ini dapat dicapai dengan mendapatkan daftar nama yang berbeda di bidang dan menggantinya dengan sesuatu seperti FirstNameXXXX (di mana XXXX adalah nomor urut, satu untuk setiap nilai yang berbeda). Nomor kartu kredit dan informasi serupa yang dapat digunakan untuk pencurian identitas sangat mungkin menjadi tidak-tidak dalam lingkungan pengembangan, tetapi Anda hanya perlu yang nyata jika Anda menguji sistem pemrosesan pembayaran - biasanya vendor akan memberikan kode khusus kepada Anda untuk akun dummy.
Tidak terlalu sulit untuk menulis prosedur anonimisasi semacam ini, tetapi Anda harus menyetujui apa yang perlu dianonimkan dengan bisnis. Jika perlu, buka bidang basis data per bidang. Bertanya ya / tidak akan memberi Anda positif palsu yang tidak Anda inginkan. Minta perwakilan bisnis untuk menjelaskan mengapa, atau konsekuensi atau implikasi peraturan dari tidak menganonimkan data tertentu.
sumber
Saya memiliki tugas yang sama beberapa minggu yang lalu. kami mengevaluasi beberapa sistem perangkat lunak, tetapi kebanyakan dari mereka hanya untuk tepat satu jenis basis data, misalnya oracle dan mereka sering sangat rumit untuk digunakan ... jadi uhm bukan hal terbaik untuk mengevaluasi ini. Kami butuh berminggu-minggu.
Kami memutuskan untuk membeli versi profesional data masking karena itu yang paling mudah untuk mendapatkannya. Ia juga memiliki kemungkinan keren untuk menyamarkan data, misalnya Anda dapat mengubah alamat email menjadi yang tampak nyata, misalnya ... @ siemens.com menjadi [email protected].
Anda dapat mencobanya secara gratis untuk sekitar 500 (?) Catatan sejauh yang saya ingat.
Ini tautannya http://www.data-masking-tool.com/
sumber
Cara saya melakukan ini:
column to be masked
))sumber
Saya pertama kali menyatakan jalan ini beberapa tahun yang lalu dan sejak itu membangun konsultasi berdasarkan praktik ini.
Saya berasumsi bahwa tujuannya adalah untuk membangun data uji untuk digunakan dalam lingkungan uji di mana orang-orang yang mengakses data tidak memiliki hak untuk melihat informasi produksi.
Hal pertama yang harus ditetapkan adalah elemen data apa yang perlu Anda sembunyikan dan untuk melakukannya sebaiknya mulai dengan alat penemuan data seperti Schema Spy (Open source) dan Anda akan memerlukan driver jdbc yang relevan untuk tugas ini tetapi adalah langkah yang sangat berguna dalam prosesnya.
Talend Open Studio adalah salah satu alat terbaik yang saya gunakan dalam beberapa tahun terakhir untuk melakukan beberapa fungsi ETL dan Anda juga akan dapat melakukan beberapa praktik masking dasar dengan mengganti nilai dengan acak atau. Cari / ganti - untuk mempertahankan konsistensi - menggunakan komponen peta.
Tetapi jika Anda mencari alat masking data nyata saya belum menemukan alat open source yang cocok. Jika Anda memiliki anggaran yang sangat moderat untuk alat saya sarankan Data Masker tetapi Anda perlu melakukan impor dan ekspor melalui MS SQL atau Oracle karena hanya terhubung melalui protokol-protokol itu.
Lihatlah http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset untuk info tentang masking data, metodologi masking data, penemuan data, dan data uji pengelolaan. Ada juga blog yang bermanfaat di http://www.dataobfuscation.com.au
sumber
Ada alat yang tersedia di Pasar dari Informatica yang disebut Informatica ILM (TDM). Ini menggunakan PowerCenter sebagai backone untuk ETL dan menyamarkan data dengan berbagai opsi masking yang tersedia. Meskipun Anda membutuhkan analis data atau UKM yang dapat memahami bagaimana data harus ditutup. Alat itu sendiri tidak memberikan informasi bidang mana yang harus ditutup, namun ada algoritma atau prosedur atau proses internal untuk mengidentifikasi bidang data pasif seperti Nama, kolom ID dengan nomor, kartu kredit, nomor SSN, Nomor Akun dll.
sumber
Tahun ini saya memiliki kesempatan untuk bekerja dengan IBM Optim yang mengklaim melakukan apa yang diminta. Tidak gratis, tetapi berfungsi dengan baik.
sumber
Yang paling saya sukai adalah IRI FieldShield ( https://www.iri.com/products/fieldshield ) dalam hal fleksibilitas (sebagian besar fungsi penutupan data), kecepatan (mesin CoSort untuk perpindahan data di dalam), dan ergonomi (pekerjaan 4GL sederhana) didukung dalam GUI Eclipse dengan banyak DB dan koneksi file). Harga-bijaksana itu tentang setengah IBM dan Informatica, meskipun juga tersedia dalam paket integrasi data yang lebih besar untuk transformasi data besar, migrasi, dan BI juga. Jadi tidak gratis juga, tetapi menggunakan beberapa sumber terbuka (IDE, dan dapat menggunakan OpenSSL dan GPG) dan skrip dijalankan pada Windows, Linux, dan citarasa Unix lainnya.
sumber