Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural

O registro eletrônico do paciente (REP) está sendo gradativamente implantado no meio médico hospitalar. Grande parte das informações essenciais do REP está armazenada na forma de texto narrativo livre, dificultando operações de procura, análise e comparação de dados. O processamento de linguagem...

Full description

Bibliographic Details
Main Author: André Coutinho Castilla
Other Authors: Sergio Shiguemi Furuie
Language:Portuguese
Published: Universidade de São Paulo 2007
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/5/5131/tde-16022009-165641/
id ndltd-IBICT-oai-teses.usp.br-tde-16022009-165641
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic Armazenamento e recuperação da informação
Processamento automatizado de dados
Processamento de linguagem natural
Radiografia torácica
Radiologia
Sistemas computadorizados de registros médicos
Sistemas de informação
Automatic data processing
Information storage and retrieval
Information systems
Medical records systems computerized
Natural language processing
Radiography thoracic
Radiology
spellingShingle Armazenamento e recuperação da informação
Processamento automatizado de dados
Processamento de linguagem natural
Radiografia torácica
Radiologia
Sistemas computadorizados de registros médicos
Sistemas de informação
Automatic data processing
Information storage and retrieval
Information systems
Medical records systems computerized
Natural language processing
Radiography thoracic
Radiology
André Coutinho Castilla
Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural
description O registro eletrônico do paciente (REP) está sendo gradativamente implantado no meio médico hospitalar. Grande parte das informações essenciais do REP está armazenada na forma de texto narrativo livre, dificultando operações de procura, análise e comparação de dados. O processamento de linguagem natural (PLN) refere-se a um conjunto de técnicas computacionais, cujo objetivo é a análise de texto através de conhecimentos léxicos, gramaticais e semânticos. O presente projeto propõe a criação de uma ferramenta computacional de investigação clínicoepidemiológica aplicada a textos narrativos médicos. Como metodologia propomos a utilização do processador de linguagem natural especializado em medicina MEDLEE desenvolvido para textos em Inglês. Para que seu uso seja possível textos médicos em Português são traduzidos ao Inglês automaticamente. A tradução automatizada (TA) é realizada utilizando o aplicativo baseado em regras SYSTRAN especialmente configurado para processar textos médicos através da incorporação de terminologias especializadas. O resultado desta seqüência de TA e PLN são informações conceituais que serão investigadas à procura de achados clínicos pré-definidos, atrvés de inferência lógica sobre uma ontologia. O objetivo experimental desta tese foi conduzir um estudo de recuperação de informações em um conjunto de 12.869 relatórios de radiografias torácicas à procura de vinte e dois achados clínicos e radiológicas. A sensibilidade e especificidade médias obtidas em comparação com referência formada pela opinião de três médicos radiologistas foram de 0,91 e 0,99 respectivamente. Os resultados obtidos indicam a viabilidade da procura de achados clínicos em relatórios de radiografias torácicas através desta metodologia de acoplamento da TA e PLN. Conseqüentemente em trabalhos futuros poderá ser ampliado o número de achados investigados, estendida a metodologia para textos de outras modalidades, bem como de outros idiomas === The Electronic Medical Record (EMR) is gradually replacing paper storage on clinical care settings. Most of essential information contained on EMR is stored as free narrative text, imposing several difficulties on automated data extraction and retrieval. Natural language processing (NLP) refers to computational linguistics tools, whose main objective is text analysis using lexical, grammatical and semantic knowledge. This project describes the creation of a computational tool for clinical and epidemiologic queries on narrative medical texts. The proposed methodology uses the specialized natural language processor MEDLEE developed for English language. To use this processor on Portuguese medical texts chest x-ray reports were Machine Translated into English. The machine translation (MT) was performed by SYSTRAN software, a rule based system customized with a specialized lexicon developed for this project. The result of serial coupling of MT an NLP is tagged text which needs further investigation for extracting clinical findings, whish was done by logical inference upon an ontolgy. The experimental objective of this thesis project was to investigate twenty-two clinical and radiological findings on 12.869 chest x-rays reports. Estimated sensitivity and specificity were 0.91 and 0.99 respectively. The gold standard reference was formed by the opinion of three radiologists. The obtained results indicate the viability of extracting clinical findings from chest x-ray reports using the proposed methodology through coupling MT and NLP. Consequently on future works the number of investigated conditions could be expanded. It is also possible to use this methodology on other medical texts, and on texts of other languages
author2 Sergio Shiguemi Furuie
author_facet Sergio Shiguemi Furuie
André Coutinho Castilla
author André Coutinho Castilla
author_sort André Coutinho Castilla
title Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural
title_short Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural
title_full Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural
title_fullStr Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural
title_full_unstemmed Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural
title_sort instrumento de investigação clínico-epidemiológica em cardiologia fundamentado no processamento de linguagem natural
publisher Universidade de São Paulo
publishDate 2007
url http://www.teses.usp.br/teses/disponiveis/5/5131/tde-16022009-165641/
work_keys_str_mv AT andrecoutinhocastilla instrumentodeinvestigacaoclinicoepidemiologicaemcardiologiafundamentadonoprocessamentodelinguagemnatural
AT andrecoutinhocastilla atoolforclinicalandepidemiologicalinvestigationincardiologybasedonnaturallanguageprocessing
_version_ 1718890045238149120
spelling ndltd-IBICT-oai-teses.usp.br-tde-16022009-1656412019-01-21T22:03:00Z Instrumento de investigação clínico-epidemiológica em Cardiologia fundamentado no processamento de linguagem natural A tool for clinical and epidemiological investigation in cardiology based on natural language processing André Coutinho Castilla Sergio Shiguemi Furuie Claudio Campi de Castro Ramon Alfredo Moreno Lincoln de Assis Moura Junior Luciano Silva Armazenamento e recuperação da informação Processamento automatizado de dados Processamento de linguagem natural Radiografia torácica Radiologia Sistemas computadorizados de registros médicos Sistemas de informação Automatic data processing Information storage and retrieval Information systems Medical records systems computerized Natural language processing Radiography thoracic Radiology O registro eletrônico do paciente (REP) está sendo gradativamente implantado no meio médico hospitalar. Grande parte das informações essenciais do REP está armazenada na forma de texto narrativo livre, dificultando operações de procura, análise e comparação de dados. O processamento de linguagem natural (PLN) refere-se a um conjunto de técnicas computacionais, cujo objetivo é a análise de texto através de conhecimentos léxicos, gramaticais e semânticos. O presente projeto propõe a criação de uma ferramenta computacional de investigação clínicoepidemiológica aplicada a textos narrativos médicos. Como metodologia propomos a utilização do processador de linguagem natural especializado em medicina MEDLEE desenvolvido para textos em Inglês. Para que seu uso seja possível textos médicos em Português são traduzidos ao Inglês automaticamente. A tradução automatizada (TA) é realizada utilizando o aplicativo baseado em regras SYSTRAN especialmente configurado para processar textos médicos através da incorporação de terminologias especializadas. O resultado desta seqüência de TA e PLN são informações conceituais que serão investigadas à procura de achados clínicos pré-definidos, atrvés de inferência lógica sobre uma ontologia. O objetivo experimental desta tese foi conduzir um estudo de recuperação de informações em um conjunto de 12.869 relatórios de radiografias torácicas à procura de vinte e dois achados clínicos e radiológicas. A sensibilidade e especificidade médias obtidas em comparação com referência formada pela opinião de três médicos radiologistas foram de 0,91 e 0,99 respectivamente. Os resultados obtidos indicam a viabilidade da procura de achados clínicos em relatórios de radiografias torácicas através desta metodologia de acoplamento da TA e PLN. Conseqüentemente em trabalhos futuros poderá ser ampliado o número de achados investigados, estendida a metodologia para textos de outras modalidades, bem como de outros idiomas The Electronic Medical Record (EMR) is gradually replacing paper storage on clinical care settings. Most of essential information contained on EMR is stored as free narrative text, imposing several difficulties on automated data extraction and retrieval. Natural language processing (NLP) refers to computational linguistics tools, whose main objective is text analysis using lexical, grammatical and semantic knowledge. This project describes the creation of a computational tool for clinical and epidemiologic queries on narrative medical texts. The proposed methodology uses the specialized natural language processor MEDLEE developed for English language. To use this processor on Portuguese medical texts chest x-ray reports were Machine Translated into English. The machine translation (MT) was performed by SYSTRAN software, a rule based system customized with a specialized lexicon developed for this project. The result of serial coupling of MT an NLP is tagged text which needs further investigation for extracting clinical findings, whish was done by logical inference upon an ontolgy. The experimental objective of this thesis project was to investigate twenty-two clinical and radiological findings on 12.869 chest x-rays reports. Estimated sensitivity and specificity were 0.91 and 0.99 respectively. The gold standard reference was formed by the opinion of three radiologists. The obtained results indicate the viability of extracting clinical findings from chest x-ray reports using the proposed methodology through coupling MT and NLP. Consequently on future works the number of investigated conditions could be expanded. It is also possible to use this methodology on other medical texts, and on texts of other languages 2007-09-13 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://www.teses.usp.br/teses/disponiveis/5/5131/tde-16022009-165641/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Cardiologia USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP