[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS

[pt] O objetivo deste trabalho é apresentar subsídios para a elaboração automática, a partir de corpus, de ontologias específicas quanto ao domínio. Para tanto, assumo que determinadas relações semânticas, como a hiperonímia, podem estar sistematicamente expressas em textos por meio de determina...

Full description

Bibliographic Details
Main Author: MARIA CLAUDIA DE FREITAS
Other Authors: VIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL
Language:pt
Published: MAXWELL 2007
Subjects:
Online Access:https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@1
https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@2
http://doi.org/10.17771/PUCRio.acad.9826
id ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-9826
record_format oai_dc
collection NDLTD
language pt
sources NDLTD
topic [pt] ONTOLOGIA
[en] ONTOLOGY
[pt] LEXICO
[en] LEXICON
[pt] TAXONOMIA
[en] TAXONOMY
[pt] HIERARQUIA LEXICAL
[en] LEXICAL HIERARCHY
[pt] NOMES PROPRIOS
[en] PROPER NOUNS
spellingShingle [pt] ONTOLOGIA
[en] ONTOLOGY
[pt] LEXICO
[en] LEXICON
[pt] TAXONOMIA
[en] TAXONOMY
[pt] HIERARQUIA LEXICAL
[en] LEXICAL HIERARCHY
[pt] NOMES PROPRIOS
[en] PROPER NOUNS
MARIA CLAUDIA DE FREITAS
[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS
description [pt] O objetivo deste trabalho é apresentar subsídios para a elaboração automática, a partir de corpus, de ontologias específicas quanto ao domínio. Para tanto, assumo que determinadas relações semânticas, como a hiperonímia, podem estar sistematicamente expressas em textos por meio de determinados padrões léxico-sintáticos. Tomando como ponto de partida alguns desses padrões, descritos originalmente em Hearst (1992, 1998), (i) identifico novos padrões para a expressão da relação de hiperonímia; (ii) adapto e refino três padrões já existentes (Hearst, 1992), tendo em vista especificidades da língua portuguesa; (iii) faço um cruzamento entre as informações extraídas com os padrões, a fim de gerar inferências. A perspectiva teórica subjacente é inspirada por reflexões wittgensteinianas sobre o significado, e se mostrou produtiva na medida em que legitima os dados vindos do corpus e as relações de significado que nele aparecem. O modelo de ontologia proposto caracteriza-se principalmente por: (i) não conter categorias pré-definidas, já que categorias são construtos humanos, abstrações que refletem uma perspectiva particular do mundo. A idéia de sustentar a ontologia em corpus busca deslocar o espaço de discussão sobre quais seriam as categorias relevantes de um domínio: as categorias que emergem do corpus refletiriam o conhecimento implícito do domínio em questão; (ii) não conter definições criadas a priori, sendo o significado de cada item decorrente das relações entre as palavras. A metodologia - extração das relações por meio de regras e posterior cruzamento para a realização de inferências - foi aplicada em um corpus do domínio saúde e um corpus genérico. Os resultados positivos indicam que sua utilização pode ser uma importante aliada na elaboração de ontologias e, também, uma ferramenta de auxílio a lexicógrafos e a sistemas de classificação semântica de nomes próprios. Em termos gerais, a metodologia apresenta como principais vantagens (i) a facilidade na automação do processo, minimizando a intervenção humana; (ii) facilidade na categorização de domínios especializados; (iii) maior dinamicidade, pois o fato de o corpus poder ser constantemente atualizado faz com que esteja menos sujeito a falhas. === [en] The main goal of this work is to present an automated method for building domain-specific corpus-based ontologies. The assumption is that semantic relationships, such as hypernym, can be systematically expressed through lexicalsyntactic patterns. Starting with some of these patterns, originally described in Hearst (1992), I (i) identify new patterns that express hypernym; (ii) adapt three other patterns (Hearst, 1992), considering specificities of the Portuguese language; and (iii) intersect these results, in order to produce inferences. The theoretical approach is inspired by the wittgensteinian ideas about meaning. The resulting ontology´s most prominent features are: (i) the fact that it does not have a priori categories, since categories are human constructs, abstractions that reflect a particular world view. Instead of discussing what should be the main categories in a domain, sustaining the ontology on corpora assumes that the corpus reflects the implicit knowledge of a given domain; and (ii) the fact that it does not have a priori definitions: the meaning of a word is derived from its relations with other words. The method - automatic extraction of semantic relations through rules, and the intersection of this information in order to produce inferences - was applied to two corpora: a health domain corpus and a generic corpus. The positive results show that the method can be very useful in ontology building and it can also be a valuable tool for lexicographers and named entity recognition systems. The main advantages of the method are (i) the simplicity of automating the process of ontology building; (ii) the ease of categorizing specialized domains, and (iii) its dynamicity, since the possibility of constantly updating the corpus makes it less subject to errors.
author2 VIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL
author_facet VIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL
MARIA CLAUDIA DE FREITAS
author MARIA CLAUDIA DE FREITAS
author_sort MARIA CLAUDIA DE FREITAS
title [en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS
title_short [en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS
title_full [en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS
title_fullStr [en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS
title_full_unstemmed [en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS
title_sort [en] automatic building of domain ontologies: discussion and results
publisher MAXWELL
publishDate 2007
url https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@1
https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@2
http://doi.org/10.17771/PUCRio.acad.9826
work_keys_str_mv AT mariaclaudiadefreitas enautomaticbuildingofdomainontologiesdiscussionandresults
AT mariaclaudiadefreitas ptelaboracaoautomaticadeontologiasdedominiodiscussaoeresultados
_version_ 1719214304737099776
spelling ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-98262019-06-28T04:17:14Z[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS[pt] ELABORAÇÃO AUTOMÁTICA DE ONTOLOGIAS DE DOMÍNIO: DISCUSSÃO E RESULTADOSMARIA CLAUDIA DE FREITAS[pt] ONTOLOGIA[en] ONTOLOGY[pt] LEXICO[en] LEXICON[pt] TAXONOMIA[en] TAXONOMY[pt] HIERARQUIA LEXICAL[en] LEXICAL HIERARCHY[pt] NOMES PROPRIOS[en] PROPER NOUNS[pt] O objetivo deste trabalho é apresentar subsídios para a elaboração automática, a partir de corpus, de ontologias específicas quanto ao domínio. Para tanto, assumo que determinadas relações semânticas, como a hiperonímia, podem estar sistematicamente expressas em textos por meio de determinados padrões léxico-sintáticos. Tomando como ponto de partida alguns desses padrões, descritos originalmente em Hearst (1992, 1998), (i) identifico novos padrões para a expressão da relação de hiperonímia; (ii) adapto e refino três padrões já existentes (Hearst, 1992), tendo em vista especificidades da língua portuguesa; (iii) faço um cruzamento entre as informações extraídas com os padrões, a fim de gerar inferências. A perspectiva teórica subjacente é inspirada por reflexões wittgensteinianas sobre o significado, e se mostrou produtiva na medida em que legitima os dados vindos do corpus e as relações de significado que nele aparecem. O modelo de ontologia proposto caracteriza-se principalmente por: (i) não conter categorias pré-definidas, já que categorias são construtos humanos, abstrações que refletem uma perspectiva particular do mundo. A idéia de sustentar a ontologia em corpus busca deslocar o espaço de discussão sobre quais seriam as categorias relevantes de um domínio: as categorias que emergem do corpus refletiriam o conhecimento implícito do domínio em questão; (ii) não conter definições criadas a priori, sendo o significado de cada item decorrente das relações entre as palavras. A metodologia - extração das relações por meio de regras e posterior cruzamento para a realização de inferências - foi aplicada em um corpus do domínio saúde e um corpus genérico. Os resultados positivos indicam que sua utilização pode ser uma importante aliada na elaboração de ontologias e, também, uma ferramenta de auxílio a lexicógrafos e a sistemas de classificação semântica de nomes próprios. Em termos gerais, a metodologia apresenta como principais vantagens (i) a facilidade na automação do processo, minimizando a intervenção humana; (ii) facilidade na categorização de domínios especializados; (iii) maior dinamicidade, pois o fato de o corpus poder ser constantemente atualizado faz com que esteja menos sujeito a falhas.[en] The main goal of this work is to present an automated method for building domain-specific corpus-based ontologies. The assumption is that semantic relationships, such as hypernym, can be systematically expressed through lexicalsyntactic patterns. Starting with some of these patterns, originally described in Hearst (1992), I (i) identify new patterns that express hypernym; (ii) adapt three other patterns (Hearst, 1992), considering specificities of the Portuguese language; and (iii) intersect these results, in order to produce inferences. The theoretical approach is inspired by the wittgensteinian ideas about meaning. The resulting ontology´s most prominent features are: (i) the fact that it does not have a priori categories, since categories are human constructs, abstractions that reflect a particular world view. Instead of discussing what should be the main categories in a domain, sustaining the ontology on corpora assumes that the corpus reflects the implicit knowledge of a given domain; and (ii) the fact that it does not have a priori definitions: the meaning of a word is derived from its relations with other words. The method - automatic extraction of semantic relations through rules, and the intersection of this information in order to produce inferences - was applied to two corpora: a health domain corpus and a generic corpus. The positive results show that the method can be very useful in ontology building and it can also be a valuable tool for lexicographers and named entity recognition systems. The main advantages of the method are (i) the simplicity of automating the process of ontology building; (ii) the ease of categorizing specialized domains, and (iii) its dynamicity, since the possibility of constantly updating the corpus makes it less subject to errors.MAXWELLVIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL2007-04-25TEXTOhttps://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@1https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@2http://doi.org/10.17771/PUCRio.acad.9826pt