Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico

O objetivo do presente estudo foi demonstrar a aplicação de uma etapa de pós-processamento determinístico, baseada em medidas de similaridade, para aumentar a performance do relacionamento probabilístico com e sem a etapa de revisão manual. As bases de dados utilizadas no estudo foram o Sistema de I...

Full description

Bibliographic Details
Main Authors: Rafael Brustulin, Poliana Guerino Marson
Format: Article
Language:English
Published: Escola Nacional de Saúde Pública, Fundação Oswaldo Cruz 2018-06-01
Series:Cadernos de Saúde Pública
Subjects:
Online Access:http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2018000604001&lng=en&tlng=en
id doaj-3a13739a24374b289710c46da497fb5e
record_format Article
spelling doaj-3a13739a24374b289710c46da497fb5e2020-11-25T00:44:40ZengEscola Nacional de Saúde Pública, Fundação Oswaldo CruzCadernos de Saúde Pública1678-44642018-06-0134610.1590/0102-311x00088117S0102-311X2018000604001Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilísticoRafael BrustulinPoliana Guerino MarsonO objetivo do presente estudo foi demonstrar a aplicação de uma etapa de pós-processamento determinístico, baseada em medidas de similaridade, para aumentar a performance do relacionamento probabilístico com e sem a etapa de revisão manual. As bases de dados utilizadas no estudo foram o Sistema de Informação de Agravos de Notificação e o Sistema de Informações sobre Mortalidade, no período de 2007 a 2015, do Município de Palmas, Tocantins, Brasil. O software probabilístico utilizado foi o OpenRecLink; foi desenvolvida e aplicada uma etapa de pós-processamento determinístico aos dados obtidos por três diferentes estratégias de pareamento probabilístico. As três estratégias foram comparadas entre si e acrescidas da etapa de pós-processamento determinístico. A sensibilidade das estratégias probabilísticas sem revisão manual variou entre 69,1% e 77,8%, já as mesmas estratégias, acrescidas da etapa de pós-processamento determinístico, apresentaram uma variação entre 92,9% e 96,3%. A sensibilidade de duas estratégias probabilísticas com revisão manual foi semelhante à obtida pela etapa de pós-processamento determinístico, no entanto, o número de pares destinados à revisão manual pelas duas estratégias probabilísticas variou entre 1.177 e 1.132 registros, contra 149 e 145 após a etapa de pós-processamento determinístico. Nossos resultados sugerem que a etapa de pós-processamento determinístico é uma opção promissora, tanto para aumentar a sensibilidade quanto para reduzir o número de pares que precisam ser revisados manualmente, ou mesmo para eliminar sua necessidade.http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2018000604001&lng=en&tlng=enBase de DadosSoftwareProcessamento Automatizado de DadosSistemas de Informação
collection DOAJ
language English
format Article
sources DOAJ
author Rafael Brustulin
Poliana Guerino Marson
spellingShingle Rafael Brustulin
Poliana Guerino Marson
Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
Cadernos de Saúde Pública
Base de Dados
Software
Processamento Automatizado de Dados
Sistemas de Informação
author_facet Rafael Brustulin
Poliana Guerino Marson
author_sort Rafael Brustulin
title Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
title_short Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
title_full Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
title_fullStr Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
title_full_unstemmed Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
title_sort inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
publisher Escola Nacional de Saúde Pública, Fundação Oswaldo Cruz
series Cadernos de Saúde Pública
issn 1678-4464
publishDate 2018-06-01
description O objetivo do presente estudo foi demonstrar a aplicação de uma etapa de pós-processamento determinístico, baseada em medidas de similaridade, para aumentar a performance do relacionamento probabilístico com e sem a etapa de revisão manual. As bases de dados utilizadas no estudo foram o Sistema de Informação de Agravos de Notificação e o Sistema de Informações sobre Mortalidade, no período de 2007 a 2015, do Município de Palmas, Tocantins, Brasil. O software probabilístico utilizado foi o OpenRecLink; foi desenvolvida e aplicada uma etapa de pós-processamento determinístico aos dados obtidos por três diferentes estratégias de pareamento probabilístico. As três estratégias foram comparadas entre si e acrescidas da etapa de pós-processamento determinístico. A sensibilidade das estratégias probabilísticas sem revisão manual variou entre 69,1% e 77,8%, já as mesmas estratégias, acrescidas da etapa de pós-processamento determinístico, apresentaram uma variação entre 92,9% e 96,3%. A sensibilidade de duas estratégias probabilísticas com revisão manual foi semelhante à obtida pela etapa de pós-processamento determinístico, no entanto, o número de pares destinados à revisão manual pelas duas estratégias probabilísticas variou entre 1.177 e 1.132 registros, contra 149 e 145 após a etapa de pós-processamento determinístico. Nossos resultados sugerem que a etapa de pós-processamento determinístico é uma opção promissora, tanto para aumentar a sensibilidade quanto para reduzir o número de pares que precisam ser revisados manualmente, ou mesmo para eliminar sua necessidade.
topic Base de Dados
Software
Processamento Automatizado de Dados
Sistemas de Informação
url http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2018000604001&lng=en&tlng=en
work_keys_str_mv AT rafaelbrustulin inclusaodeetapadeposprocessamentodeterministicoparaoaumentodeperformancedorelacionamentolinkageprobabilistico
AT polianaguerinomarson inclusaodeetapadeposprocessamentodeterministicoparaoaumentodeperformancedorelacionamentolinkageprobabilistico
_version_ 1725274231577509888