Saya tertarik untuk menghubungkan catatan di 2 dataset dengan nama depan, nama belakang, dan tahun kelahiran. Mungkin ini bisa dilakukan dengan algoritma EM, dan jika demikian, bagaimana?
Pertimbangkan catatan berikut dalam 1 sebagai contoh: Carl McCarthy, 1967. Saya akan mencari semua catatan dalam dataset ke-2, dan menetapkan jarak jaro-winkler antara nama pertama dan Carl dan jarak jaro-winkler antara nama belakang dan McCarthy. Jarak ini adalah probabilitas seperti jarak antara tahun kelahiran. Kami menggabungkan 3 probabilitas tersebut (kalikan? Rata-rata?) Menjadi 1.
Sekarang sampai pada bagian aturan keputusan. Mari kita rangking semua probabilitas dari tertinggi ke terendah. Pertama, kami ingin P (klik pertama adalah kecocokan)> = ambang batas. Kedua, kami juga menginginkan P (hit pertama cocok) / P (hit kedua cocok)> = ambang jika P (hit kedua cocok) ada. Ketiga, kami ingin hit pertama dalam dataset kedua ini cocok dengan tidak lebih dari 1 orang di dataset pertama dengan Carl McCarthy, 1967.
Bagaimana ambang ini ditentukan?
Saya lebih suka pendekatan dalam Stata dan / atau Perl.
Lihat, misalnya:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Meskipun dengan itu, saya masih belum sepenuhnya mengikuti mengapa atau bagaimana, dan apa input dan outputnya, serta asumsi dan seberapa ketatnya mereka).
sumber
Jawaban:
Tentu saja, algoritma EM telah digunakan untuk menghubungkan probabilistik. Ada banyak artikel tentang masalah ini, yang berikut oleh Winkler dapat membantu mengenai rincian teoritis:
http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf
Juga ada perangkat lunak penghubung data yang dikembangkan oleh Kevin Campbell sudah tersedia di sini:
http://the-link-king.com/
Perangkat lunak ini dapat diunduh secara gratis & Kevin Campbell menawarkan dukungan dengan dikenakan biaya. Kode ini ditulis dalam SAS, jadi Anda akan memerlukan paket SAS dasar.
sumber
Ada perangkat lunak RELAIS yang merekam hubungan dengan:
Ada beberapa dokumentasi tentang catatan hubungan yang tersedia dari proyek Integrasi Data ESSnet .
sumber