Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain

Este artigo apresenta o processo de anonimização automática de entidades mencionadas num novo corpo paralelo pesquisável do domínio jurídico-financeiro para o par de línguas português-inglês. O corpo resulta de memórias de tradução utilizadas em tradução profissional. Contém cerca de 40.000 pares de...

Full description

Bibliographic Details
Main Authors:	Eckhard Bick, Anabela Barreiro
Format:	Article
Language:	English
Published:	University of Oslo 2015-03-01
Series:	Oslo Studies in Language
Online Access:	https://journals.uio.no/osla/article/view/1460

id	doaj-c710c48224774f488ebc3a1a105500e0
record_format	Article
spelling	doaj-c710c48224774f488ebc3a1a105500e02020-11-25T01:19:18ZengUniversity of OsloOslo Studies in Language1890-96392015-03-017110.5617/osla.1460Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial DomainEckhard BickAnabela BarreiroEste artigo apresenta o processo de anonimização automática de entidades mencionadas num novo corpo paralelo pesquisável do domínio jurídico-financeiro para o par de línguas português-inglês. O corpo resulta de memórias de tradução utilizadas em tradução profissional. Contém cerca de 40.000 pares de frases alinhadas, ou seja, frases que são traduções umas das outras. A anotação das entidades mencionadas foi feita com regras especiais da Gramática de Restrições otimizadas para o domínio jurídico-financeiro, que permitiram alcançar uma abrangência balanceada em termos de precisão de quase 90% para as entidades mencionadas candidatas (pessoa, organização, endereço e identificadores pessoais) e uma abrangência consideravelmente superior com modificações heurísticas e otimizadas para a produção. O corpo destina-se a estudos de tradução e à linguística computacional (tradução automática estatística) e será publicamente pesquisável, permitindo ao seu utilizador procurar uma palavra ou expressão e devolvendo os resultados da pesquisa em contexto na língua da busca e na sua tradução.https://journals.uio.no/osla/article/view/1460
collection	DOAJ
language	English
format	Article
sources	DOAJ
author	Eckhard Bick Anabela Barreiro
spellingShingle	Eckhard Bick Anabela Barreiro Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain Oslo Studies in Language
author_facet	Eckhard Bick Anabela Barreiro
author_sort	Eckhard Bick
title	Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain
title_short	Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain
title_full	Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain
title_fullStr	Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain
title_full_unstemmed	Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain
title_sort	automatic anonymisation of a new portuguese-english parallel corpus in the legal-financial domain
publisher	University of Oslo
series	Oslo Studies in Language
issn	1890-9639
publishDate	2015-03-01
description	Este artigo apresenta o processo de anonimização automática de entidades mencionadas num novo corpo paralelo pesquisável do domínio jurídico-financeiro para o par de línguas português-inglês. O corpo resulta de memórias de tradução utilizadas em tradução profissional. Contém cerca de 40.000 pares de frases alinhadas, ou seja, frases que são traduções umas das outras. A anotação das entidades mencionadas foi feita com regras especiais da Gramática de Restrições otimizadas para o domínio jurídico-financeiro, que permitiram alcançar uma abrangência balanceada em termos de precisão de quase 90% para as entidades mencionadas candidatas (pessoa, organização, endereço e identificadores pessoais) e uma abrangência consideravelmente superior com modificações heurísticas e otimizadas para a produção. O corpo destina-se a estudos de tradução e à linguística computacional (tradução automática estatística) e será publicamente pesquisável, permitindo ao seu utilizador procurar uma palavra ou expressão e devolvendo os resultados da pesquisa em contexto na língua da busca e na sua tradução.
url	https://journals.uio.no/osla/article/view/1460
work_keys_str_mv	AT eckhardbick automaticanonymisationofanewportugueseenglishparallelcorpusinthelegalfinancialdomain AT anabelabarreiro automaticanonymisationofanewportugueseenglishparallelcorpusinthelegalfinancialdomain
_version_	1725139030736109568

Automatic Anonymisation of a new Portuguese-English Parallel Corpus in the Legal-Financial Domain

Similar Items