Inclusão de etapa de pós-processamento determinístico para aumento de performance do relacionamento (linkage) probabilístico

O objetivo do presente estudo foi demonstrar a aplicação de uma etapa de pós-processamento determinístico, baseada em medidas de similaridade, para aumentar a performance do relacionamento probabilístico com e sem a etapa de revisão manual. As bases de dados utilizadas no estudo foram o Sistema de I...

Full description

Bibliographic Details
Main Author: Brustulin, Rafael
Other Authors: Marson, Poliana Guerino
Format: Others
Language:Portuguese
Published: Universidade Federal do Tocantins 2018
Subjects:
Online Access:http://hdl.handle.net/11612/911
Description
Summary:O objetivo do presente estudo foi demonstrar a aplicação de uma etapa de pós-processamento determinístico, baseada em medidas de similaridade, para aumentar a performance do relacionamento probabilístico com e sem a etapa de revisão manual. As bases de dados utilizadas no estudo foram o Sistema de Informações de Agravos de Notificação e o Sistema de Informação Sobre Mortalidade no período de 2007 a 2015 do município de Palmas, Tocantins. O software probabilístico utilizado foi o OpenRecLink; foi desenvolvida e aplicada uma etapa de pós-processamento determinístico aos dados obtidos por três diferentes estratégias de pareamento probabilístico. As três estratégias foram comparadas entre si e acrescidas da etapa de pós-processamento determinístico. A sensibilidade das estratégias probabilísticas sem revisão manual variou entre 69,1% e 77,8%, enquanto que as mesmas estratégias, acrescidas da etapa de pós-processamento determinístico, tiveram uma variação entre 92,9% e 96,3%. A sensibilidade de duas estratégias probabilísticas com revisão manual foi semelhante aos obtidos pela etapa de pós-processamento determinístico, no entanto o número de pares destinados a revisão manual pelas duas estratégias probabilísticas variou entre 1.177 e 1.132 registros, contra 149 e 145 após a etapa de pós-processamento determinístico. Nossos resultados sugerem que a etapa de pós-processamento determinístico é uma opção promissora, tanto para aumentar a sensibilidade quanto para reduzir o número de pares que precisam ser revisados manualmente, ou mesmo para eliminar sua necessidade. === The objective of the present study was to demonstrate the application of a deterministic post-processing step, based on similarity measures, to increase the performance of the probabilistic relationship with and without the clerical review. The databases used in the study were the Information System of Notifiable Diseases and the Mortality Information System in the period from 2007 to 2015 of the municipality of Palmas, Tocantins, Brazil. The probabilistic software used was OpenRecLink; a deterministic post-processing step was developed and applied to the data obtained by three different probabilistic matching strategies. The three strategies were compared to each other and added to the deterministic post-processing step. The sensitivity of the probabilistic strategies without manual revision varied between 69.1% and 77.8%, while the same strategies, added to the deterministic post-processing step, ranged from 92.9% to 96.3%. The sensitivity of two probabilistic strategies with manual revision was similar to those obtained by the deterministic post-processing step. However, the number of pairs destined for manual revision by the two probabilistic strategies varied between 1,177 and 1,132 registers, against 149 and 145 after the post-processing step. Our results suggest that the deterministic postprocessing step is a promising option both to increase sensitivity and to reduce the number of pairs that need to be revised manually or even to eliminate their need.