SES : sistema de extração semântica de informações

Entre as áreas que mais se desenvolvem na informática nos últimos anos estão aquelas relacionadas ao crescimento da rede Internet, que interliga milhões de usuários de todo o mundo. Esta rede disponibiliza aos usuários uma a enorme variedade e quantidade de informações, principalmente dados armazena...

Full description

Bibliographic Details
Main Author: Scarinci, Rui Gureghian
Other Authors: Oliveira, Jose Palazzo Moreira de
Format: Others
Language:Portuguese
Published: 2010
Subjects:
Online Access:http://hdl.handle.net/10183/18398
id ndltd-IBICT-oai-www.lume.ufrgs.br-10183-18398
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic Armazenamento : Dados
Recuperacao : Informacao
Banco : Dados temporais
Extração semântica
Information management
Information validate
Temporal databases
Knowledge based systems
Knowledge database discovery (KDD)
Information extraction - IE
Information retrieval - IR
spellingShingle Armazenamento : Dados
Recuperacao : Informacao
Banco : Dados temporais
Extração semântica
Information management
Information validate
Temporal databases
Knowledge based systems
Knowledge database discovery (KDD)
Information extraction - IE
Information retrieval - IR
Scarinci, Rui Gureghian
SES : sistema de extração semântica de informações
description Entre as áreas que mais se desenvolvem na informática nos últimos anos estão aquelas relacionadas ao crescimento da rede Internet, que interliga milhões de usuários de todo o mundo. Esta rede disponibiliza aos usuários uma a enorme variedade e quantidade de informações, principalmente dados armazenados de forma não estruturada ou semi estruturada. Contudo, tal volume e heterogeneidade acaba dificultando a manipulação dos dados recuperados a partir da Internet. Este problema motivou o desenvolvimento deste trabalho. Mesmo com o auxílio de várias ferramentas de pesquisa na Internet, buscando realizar pesquisas sobre assuntos específicos, o usuário ainda tem que manipular em seu computador pessoal uma grande quantidade de informação, pois estas ferramentas não realizam um processo de seleção detalhado. Ou seja, são recuperados muitos dados não interessantes ao usuário. Existe, também, uma grande diversidade de assuntos e padrões de transferência e armazenamento da informação criando os mais heterogêneos ambientes de pesquisa e consulta de dados. Esta heterogeneidade faz com que o usuário da rede deva conhecer todo um conjunto de padrões e ferramentas a fim de obter a informação desejada. No entanto, a maior dificuldade de manipulação esta ligada aos formatos de armazenamento não estruturados ou pouco estruturados, como, por exemplo: arquivos textos, Mails (correspondência eletrônica) e artigos de News (jornais eletrônicos). Nestes formatos, o entendimento do documento exige a leitura do mesmo pelo usuário, o que muitas vezes acarreta em um gasto de tempo desnecessário, pois o documento, por exemplo, pode não ser de interesse deste ou, então, ser de interesse, mas sua leitura completa só seria útil posteriormente. Várias informações, como chamadas de trabalhos para congressos, preços de produtos e estatísticas econômicas, entre outras, apresentam validade temporal. Outras informações são atualizadas periodicamente. Muitas dessas características temporais são explicitas, outras estão implícitas no meio de outros tipos de dados. Isto torna muito difícil a recuperação de tal tipo de informação, gerando, várias vezes, a utilização de informações desatualizadas, ou a perda de oportunidades. Desta forma, o grande volume de dados em arquivos pessoais obtidos a partir da Internet criou uma complexa tarefa de gerenciamento dos mesmos em conseqüência da natureza não estruturada dos documentos recuperados e da complexidade da análise do tempo de validade inerente a estes dados. Com o objetivo de satisfazer as necessidades de seleção e conseqüente manipulação das informações existentes a nível local (computador pessoal), neste trabalho, é descrito um sistema para extração e sumarização destes dados, utilizando conceitos de IE (Information Extraction) e Sistemas Baseados em Conhecimento. Os dados processados são parcialmente estruturados ou não estruturados, sendo manipulados por um extrator configurado a partir de bases de conhecimento geradas pelo usuário do sistema. O objetivo final desta dissertação é a implementação do Sistema de Extração Semântica de Informações, o qual permite a classificação dos dados extraídos em classes significativas para o usuário e a determinação da validade temporal destes dados a partir da geração de uma base de dados estruturada. === One of the most challenging area in Computer Science is related to Internet technology. This network offers to the users a large variety and amount of information, mainly, data storage in unstructured or semi-structured formats. However, the vast data volume and heterogeneity transforms the retrieved data manipulation a very arduous work. This problem was the prime motivation of this work. As with many tools for data retrieval and specific searching, the user has to manipulate in his personal computer an increasing amount of information, because these tools do not realize a precise data selection process. Many retrieval data are not interesting for the user. There are, also, a big diversity of subjects and standards in information transmission and storage, creating the most heterogeneous environments in data searching and retrieval. Due to this heterogeneity, the user has to know many data standards and searching tools to obtain the requested information. However, the fundamental problem for data manipulation is the partially or fully unstructured data formats, as text, mail and news data structures. For files in these formats, the user has to read each of the files to filter the relevant information, originating a loss of time, because the document could be not interesting for the user, or if it is interesting, its complete reading may be unnecessary at the moment. Some information as call-for-papers, product prices, economic statistics and others, has associated a temporal validity. Other information are updated periodically. Some of these temporal characteristics are explicit, others are implicitly embedded in other data types. As it is very difficult to retrieve the temporal data automatically, which generate, many times, the use of invalid information, as a result, some opportunities are lost. On this paper a system for extraction and summarizing of data is described. The main objective is to satisfy the user's selection needs and consequently information manipulation stored in a personal computer. To achieve this goal we are employed the concepts of Information Extraction (IE) and Knowledge Based Systems. The input data manipulation is done by an extraction procedure configured by a user who defined knowledge base. The objective of this paper is to develop a System of Semantic Extraction of Information which classifies the data extracted in meaningful classes for the user and to deduce the temporal validity of this data. This goal was achieved by the generation of a structured temporal data base.
author2 Oliveira, Jose Palazzo Moreira de
author_facet Oliveira, Jose Palazzo Moreira de
Scarinci, Rui Gureghian
author Scarinci, Rui Gureghian
author_sort Scarinci, Rui Gureghian
title SES : sistema de extração semântica de informações
title_short SES : sistema de extração semântica de informações
title_full SES : sistema de extração semântica de informações
title_fullStr SES : sistema de extração semântica de informações
title_full_unstemmed SES : sistema de extração semântica de informações
title_sort ses : sistema de extração semântica de informações
publishDate 2010
url http://hdl.handle.net/10183/18398
work_keys_str_mv AT scarinciruigureghian sessistemadeextracaosemanticadeinformacoes
AT scarinciruigureghian systemofsemanticextractionofinformation
_version_ 1718938664012087296
spelling ndltd-IBICT-oai-www.lume.ufrgs.br-10183-183982019-01-22T01:34:53Z SES : sistema de extração semântica de informações System of semantic extraction of information Scarinci, Rui Gureghian Oliveira, Jose Palazzo Moreira de Armazenamento : Dados Recuperacao : Informacao Banco : Dados temporais Extração semântica Information management Information validate Temporal databases Knowledge based systems Knowledge database discovery (KDD) Information extraction - IE Information retrieval - IR Entre as áreas que mais se desenvolvem na informática nos últimos anos estão aquelas relacionadas ao crescimento da rede Internet, que interliga milhões de usuários de todo o mundo. Esta rede disponibiliza aos usuários uma a enorme variedade e quantidade de informações, principalmente dados armazenados de forma não estruturada ou semi estruturada. Contudo, tal volume e heterogeneidade acaba dificultando a manipulação dos dados recuperados a partir da Internet. Este problema motivou o desenvolvimento deste trabalho. Mesmo com o auxílio de várias ferramentas de pesquisa na Internet, buscando realizar pesquisas sobre assuntos específicos, o usuário ainda tem que manipular em seu computador pessoal uma grande quantidade de informação, pois estas ferramentas não realizam um processo de seleção detalhado. Ou seja, são recuperados muitos dados não interessantes ao usuário. Existe, também, uma grande diversidade de assuntos e padrões de transferência e armazenamento da informação criando os mais heterogêneos ambientes de pesquisa e consulta de dados. Esta heterogeneidade faz com que o usuário da rede deva conhecer todo um conjunto de padrões e ferramentas a fim de obter a informação desejada. No entanto, a maior dificuldade de manipulação esta ligada aos formatos de armazenamento não estruturados ou pouco estruturados, como, por exemplo: arquivos textos, Mails (correspondência eletrônica) e artigos de News (jornais eletrônicos). Nestes formatos, o entendimento do documento exige a leitura do mesmo pelo usuário, o que muitas vezes acarreta em um gasto de tempo desnecessário, pois o documento, por exemplo, pode não ser de interesse deste ou, então, ser de interesse, mas sua leitura completa só seria útil posteriormente. Várias informações, como chamadas de trabalhos para congressos, preços de produtos e estatísticas econômicas, entre outras, apresentam validade temporal. Outras informações são atualizadas periodicamente. Muitas dessas características temporais são explicitas, outras estão implícitas no meio de outros tipos de dados. Isto torna muito difícil a recuperação de tal tipo de informação, gerando, várias vezes, a utilização de informações desatualizadas, ou a perda de oportunidades. Desta forma, o grande volume de dados em arquivos pessoais obtidos a partir da Internet criou uma complexa tarefa de gerenciamento dos mesmos em conseqüência da natureza não estruturada dos documentos recuperados e da complexidade da análise do tempo de validade inerente a estes dados. Com o objetivo de satisfazer as necessidades de seleção e conseqüente manipulação das informações existentes a nível local (computador pessoal), neste trabalho, é descrito um sistema para extração e sumarização destes dados, utilizando conceitos de IE (Information Extraction) e Sistemas Baseados em Conhecimento. Os dados processados são parcialmente estruturados ou não estruturados, sendo manipulados por um extrator configurado a partir de bases de conhecimento geradas pelo usuário do sistema. O objetivo final desta dissertação é a implementação do Sistema de Extração Semântica de Informações, o qual permite a classificação dos dados extraídos em classes significativas para o usuário e a determinação da validade temporal destes dados a partir da geração de uma base de dados estruturada. One of the most challenging area in Computer Science is related to Internet technology. This network offers to the users a large variety and amount of information, mainly, data storage in unstructured or semi-structured formats. However, the vast data volume and heterogeneity transforms the retrieved data manipulation a very arduous work. This problem was the prime motivation of this work. As with many tools for data retrieval and specific searching, the user has to manipulate in his personal computer an increasing amount of information, because these tools do not realize a precise data selection process. Many retrieval data are not interesting for the user. There are, also, a big diversity of subjects and standards in information transmission and storage, creating the most heterogeneous environments in data searching and retrieval. Due to this heterogeneity, the user has to know many data standards and searching tools to obtain the requested information. However, the fundamental problem for data manipulation is the partially or fully unstructured data formats, as text, mail and news data structures. For files in these formats, the user has to read each of the files to filter the relevant information, originating a loss of time, because the document could be not interesting for the user, or if it is interesting, its complete reading may be unnecessary at the moment. Some information as call-for-papers, product prices, economic statistics and others, has associated a temporal validity. Other information are updated periodically. Some of these temporal characteristics are explicit, others are implicitly embedded in other data types. As it is very difficult to retrieve the temporal data automatically, which generate, many times, the use of invalid information, as a result, some opportunities are lost. On this paper a system for extraction and summarizing of data is described. The main objective is to satisfy the user's selection needs and consequently information manipulation stored in a personal computer. To achieve this goal we are employed the concepts of Information Extraction (IE) and Knowledge Based Systems. The input data manipulation is done by an extraction procedure configured by a user who defined knowledge base. The objective of this paper is to develop a System of Semantic Extraction of Information which classifies the data extracted in meaningful classes for the user and to deduce the temporal validity of this data. This goal was achieved by the generation of a structured temporal data base. 2010-01-29T04:15:37Z 1997 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/10183/18398 000194294 por info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS