Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain
Este artigo apresenta o processo de anonimização automática de entidades mencionadas num novo corpo paralelo pesquisável do domínio jurídico-financeiro para o par de línguas português-inglês. O corpo resulta de memórias de tradução utilizadas em tradução profissional. Contém cerca de 40.000 pares de...
Main Authors: | , |
---|---|
Format: | Article |
Language: | English |
Published: |
University of Oslo
2015-03-01
|
Series: | Oslo Studies in Language |
Online Access: | https://journals.uio.no/osla/article/view/1460 |
id |
doaj-c710c48224774f488ebc3a1a105500e0 |
---|---|
record_format |
Article |
spelling |
doaj-c710c48224774f488ebc3a1a105500e02020-11-25T01:19:18ZengUniversity of OsloOslo Studies in Language1890-96392015-03-017110.5617/osla.1460Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial DomainEckhard BickAnabela BarreiroEste artigo apresenta o processo de anonimização automática de entidades mencionadas num novo corpo paralelo pesquisável do domínio jurídico-financeiro para o par de línguas português-inglês. O corpo resulta de memórias de tradução utilizadas em tradução profissional. Contém cerca de 40.000 pares de frases alinhadas, ou seja, frases que são traduções umas das outras. A anotação das entidades mencionadas foi feita com regras especiais da Gramática de Restrições otimizadas para o domínio jurídico-financeiro, que permitiram alcançar uma abrangência balanceada em termos de precisão de quase 90% para as entidades mencionadas candidatas (pessoa, organização, endereço e identificadores pessoais) e uma abrangência consideravelmente superior com modificações heurísticas e otimizadas para a produção. O corpo destina-se a estudos de tradução e à linguística computacional (tradução automática estatística) e será publicamente pesquisável, permitindo ao seu utilizador procurar uma palavra ou expressão e devolvendo os resultados da pesquisa em contexto na língua da busca e na sua tradução.https://journals.uio.no/osla/article/view/1460 |
collection |
DOAJ |
language |
English |
format |
Article |
sources |
DOAJ |
author |
Eckhard Bick Anabela Barreiro |
spellingShingle |
Eckhard Bick Anabela Barreiro Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain Oslo Studies in Language |
author_facet |
Eckhard Bick Anabela Barreiro |
author_sort |
Eckhard Bick |
title |
Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain |
title_short |
Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain |
title_full |
Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain |
title_fullStr |
Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain |
title_full_unstemmed |
Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain |
title_sort |
automatic anonymisation of a new portuguese-english parallel corpus in the legal-financial domain |
publisher |
University of Oslo |
series |
Oslo Studies in Language |
issn |
1890-9639 |
publishDate |
2015-03-01 |
description |
Este artigo apresenta o processo de anonimização automática de entidades mencionadas num novo corpo paralelo pesquisável do domínio jurídico-financeiro para o par de línguas português-inglês. O corpo resulta de memórias de tradução utilizadas em tradução profissional. Contém cerca de 40.000 pares de frases alinhadas, ou seja, frases que são traduções umas das outras. A anotação das entidades mencionadas foi feita com regras especiais da Gramática de Restrições otimizadas para o domínio jurídico-financeiro, que permitiram alcançar uma abrangência balanceada em termos de precisão de quase 90% para as entidades mencionadas candidatas (pessoa, organização, endereço e identificadores pessoais) e uma abrangência consideravelmente superior com modificações heurísticas e otimizadas para a produção. O corpo destina-se a estudos de tradução e à linguística computacional (tradução automática estatística) e será publicamente pesquisável, permitindo ao seu utilizador procurar uma palavra ou expressão e devolvendo os resultados da pesquisa em contexto na língua da busca e na sua tradução. |
url |
https://journals.uio.no/osla/article/view/1460 |
work_keys_str_mv |
AT eckhardbick automaticanonymisationofanewportugueseenglishparallelcorpusinthelegalfinancialdomain AT anabelabarreiro automaticanonymisationofanewportugueseenglishparallelcorpusinthelegalfinancialdomain |
_version_ |
1725139030736109568 |