[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS
[pt] O objetivo deste trabalho é apresentar subsídios para a elaboração automática, a partir de corpus, de ontologias específicas quanto ao domínio. Para tanto, assumo que determinadas relações semânticas, como a hiperonímia, podem estar sistematicamente expressas em textos por meio de determina...
Main Author: | |
---|---|
Other Authors: | |
Language: | pt |
Published: |
MAXWELL
2007
|
Subjects: | |
Online Access: | https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@1 https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@2 http://doi.org/10.17771/PUCRio.acad.9826 |
id |
ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-9826 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
pt |
sources |
NDLTD |
topic |
[pt] ONTOLOGIA [en] ONTOLOGY [pt] LEXICO [en] LEXICON [pt] TAXONOMIA [en] TAXONOMY [pt] HIERARQUIA LEXICAL [en] LEXICAL HIERARCHY [pt] NOMES PROPRIOS [en] PROPER NOUNS |
spellingShingle |
[pt] ONTOLOGIA [en] ONTOLOGY [pt] LEXICO [en] LEXICON [pt] TAXONOMIA [en] TAXONOMY [pt] HIERARQUIA LEXICAL [en] LEXICAL HIERARCHY [pt] NOMES PROPRIOS [en] PROPER NOUNS MARIA CLAUDIA DE FREITAS [en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS |
description |
[pt] O objetivo deste trabalho é apresentar subsídios para a
elaboração
automática, a partir de corpus, de ontologias específicas
quanto ao domínio. Para
tanto, assumo que determinadas relações semânticas, como a
hiperonímia, podem
estar sistematicamente expressas em textos por meio de
determinados padrões
léxico-sintáticos. Tomando como ponto de partida alguns
desses padrões,
descritos originalmente em Hearst (1992, 1998), (i)
identifico novos padrões para
a expressão da relação de hiperonímia; (ii) adapto e
refino três padrões já
existentes (Hearst, 1992), tendo em vista especificidades
da língua portuguesa;
(iii) faço um cruzamento entre as informações extraídas
com os padrões, a fim de
gerar inferências. A perspectiva teórica subjacente é
inspirada por reflexões
wittgensteinianas sobre o significado, e se mostrou
produtiva na medida em que
legitima os dados vindos do corpus e as relações de
significado que nele
aparecem. O modelo de ontologia proposto caracteriza-se
principalmente por: (i)
não conter categorias pré-definidas, já que categorias são
construtos humanos,
abstrações que refletem uma perspectiva particular do
mundo. A idéia de sustentar
a ontologia em corpus busca deslocar o espaço de discussão
sobre quais seriam as
categorias relevantes de um domínio: as categorias que
emergem do corpus
refletiriam o conhecimento implícito do domínio em
questão; (ii) não conter
definições criadas a priori, sendo o significado de cada
item decorrente das
relações entre as palavras. A metodologia - extração das
relações por meio de
regras e posterior cruzamento para a realização de
inferências - foi aplicada em
um corpus do domínio saúde e um corpus genérico. Os
resultados positivos
indicam que sua utilização pode ser uma importante aliada
na elaboração de
ontologias e, também, uma ferramenta de auxílio a
lexicógrafos e a sistemas de
classificação semântica de nomes próprios. Em termos
gerais, a metodologia
apresenta como principais vantagens (i) a facilidade na
automação do processo,
minimizando a intervenção humana; (ii) facilidade na
categorização de domínios especializados; (iii) maior
dinamicidade, pois o fato de o corpus poder ser
constantemente atualizado faz com que esteja menos sujeito
a falhas. === [en] The main goal of this work is to present an automated
method for building
domain-specific corpus-based ontologies. The assumption is
that semantic
relationships, such as hypernym, can be systematically
expressed through lexicalsyntactic
patterns. Starting with some of these patterns, originally
described in Hearst
(1992), I (i) identify new patterns that express hypernym;
(ii) adapt three other
patterns (Hearst, 1992), considering specificities of the
Portuguese language; and (iii)
intersect these results, in order to produce inferences.
The theoretical approach is
inspired by the wittgensteinian ideas about meaning. The
resulting ontology´s most
prominent features are: (i) the fact that it does not have
a priori categories, since
categories are human constructs, abstractions that reflect
a particular world view.
Instead of discussing what should be the main categories
in a domain, sustaining the
ontology on corpora assumes that the corpus reflects the
implicit knowledge of a
given domain; and (ii) the fact that it does not have a
priori definitions: the meaning of
a word is derived from its relations with other words. The
method - automatic
extraction of semantic relations through rules, and the
intersection of this information
in order to produce inferences - was applied to two
corpora: a health domain corpus
and a generic corpus. The positive results show that the
method can be very useful in
ontology building and it can also be a valuable tool for
lexicographers and named
entity recognition systems. The main advantages of the
method are (i) the simplicity
of automating the process of ontology building; (ii) the
ease of categorizing
specialized domains, and (iii) its dynamicity, since the
possibility of constantly
updating the corpus makes it less subject to errors. |
author2 |
VIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL |
author_facet |
VIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL MARIA CLAUDIA DE FREITAS |
author |
MARIA CLAUDIA DE FREITAS |
author_sort |
MARIA CLAUDIA DE FREITAS |
title |
[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS |
title_short |
[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS |
title_full |
[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS |
title_fullStr |
[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS |
title_full_unstemmed |
[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS |
title_sort |
[en] automatic building of domain ontologies: discussion and results |
publisher |
MAXWELL |
publishDate |
2007 |
url |
https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@1 https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@2 http://doi.org/10.17771/PUCRio.acad.9826 |
work_keys_str_mv |
AT mariaclaudiadefreitas enautomaticbuildingofdomainontologiesdiscussionandresults AT mariaclaudiadefreitas ptelaboracaoautomaticadeontologiasdedominiodiscussaoeresultados |
_version_ |
1719214304737099776 |
spelling |
ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-98262019-06-28T04:17:14Z[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS[pt] ELABORAÇÃO AUTOMÁTICA DE ONTOLOGIAS DE DOMÍNIO: DISCUSSÃO E RESULTADOSMARIA CLAUDIA DE FREITAS[pt] ONTOLOGIA[en] ONTOLOGY[pt] LEXICO[en] LEXICON[pt] TAXONOMIA[en] TAXONOMY[pt] HIERARQUIA LEXICAL[en] LEXICAL HIERARCHY[pt] NOMES PROPRIOS[en] PROPER NOUNS[pt] O objetivo deste trabalho é apresentar subsídios para a elaboração automática, a partir de corpus, de ontologias específicas quanto ao domínio. Para tanto, assumo que determinadas relações semânticas, como a hiperonímia, podem estar sistematicamente expressas em textos por meio de determinados padrões léxico-sintáticos. Tomando como ponto de partida alguns desses padrões, descritos originalmente em Hearst (1992, 1998), (i) identifico novos padrões para a expressão da relação de hiperonímia; (ii) adapto e refino três padrões já existentes (Hearst, 1992), tendo em vista especificidades da língua portuguesa; (iii) faço um cruzamento entre as informações extraídas com os padrões, a fim de gerar inferências. A perspectiva teórica subjacente é inspirada por reflexões wittgensteinianas sobre o significado, e se mostrou produtiva na medida em que legitima os dados vindos do corpus e as relações de significado que nele aparecem. O modelo de ontologia proposto caracteriza-se principalmente por: (i) não conter categorias pré-definidas, já que categorias são construtos humanos, abstrações que refletem uma perspectiva particular do mundo. A idéia de sustentar a ontologia em corpus busca deslocar o espaço de discussão sobre quais seriam as categorias relevantes de um domínio: as categorias que emergem do corpus refletiriam o conhecimento implícito do domínio em questão; (ii) não conter definições criadas a priori, sendo o significado de cada item decorrente das relações entre as palavras. A metodologia - extração das relações por meio de regras e posterior cruzamento para a realização de inferências - foi aplicada em um corpus do domínio saúde e um corpus genérico. Os resultados positivos indicam que sua utilização pode ser uma importante aliada na elaboração de ontologias e, também, uma ferramenta de auxílio a lexicógrafos e a sistemas de classificação semântica de nomes próprios. Em termos gerais, a metodologia apresenta como principais vantagens (i) a facilidade na automação do processo, minimizando a intervenção humana; (ii) facilidade na categorização de domínios especializados; (iii) maior dinamicidade, pois o fato de o corpus poder ser constantemente atualizado faz com que esteja menos sujeito a falhas.[en] The main goal of this work is to present an automated method for building domain-specific corpus-based ontologies. The assumption is that semantic relationships, such as hypernym, can be systematically expressed through lexicalsyntactic patterns. Starting with some of these patterns, originally described in Hearst (1992), I (i) identify new patterns that express hypernym; (ii) adapt three other patterns (Hearst, 1992), considering specificities of the Portuguese language; and (iii) intersect these results, in order to produce inferences. The theoretical approach is inspired by the wittgensteinian ideas about meaning. The resulting ontology´s most prominent features are: (i) the fact that it does not have a priori categories, since categories are human constructs, abstractions that reflect a particular world view. Instead of discussing what should be the main categories in a domain, sustaining the ontology on corpora assumes that the corpus reflects the implicit knowledge of a given domain; and (ii) the fact that it does not have a priori definitions: the meaning of a word is derived from its relations with other words. The method - automatic extraction of semantic relations through rules, and the intersection of this information in order to produce inferences - was applied to two corpora: a health domain corpus and a generic corpus. The positive results show that the method can be very useful in ontology building and it can also be a valuable tool for lexicographers and named entity recognition systems. The main advantages of the method are (i) the simplicity of automating the process of ontology building; (ii) the ease of categorizing specialized domains, and (iii) its dynamicity, since the possibility of constantly updating the corpus makes it less subject to errors.MAXWELLVIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL2007-04-25TEXTOhttps://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@1https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9826@2http://doi.org/10.17771/PUCRio.acad.9826pt |