Uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão

Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Estudos da Tradução, Florianópolis, 2013. === Made available in DSpace on 2014-08-06T17:22:31Z (GMT). No. of bitstreams: 1 326306.pdf: 10379029 bytes, checksum: 5aa65bff66aad532...

Full description

Bibliographic Details
Main Author:	Fleuri, Lilian Jurkevicz
Other Authors:	Universidade Federal de Santa Catarina
Format:	Others
Language:	Portuguese
Published:	2014
Subjects:	Tradução e interpretação Linguistica - Processamento de dados Processamento de textos (Computação)
Online Access:	https://repositorio.ufsc.br/xmlui/handle/123456789/122789

id	ndltd-IBICT-oai-repositorio.ufsc.br-123456789-122789
record_format	oai_dc
collection	NDLTD
language	Portuguese
format	Others
sources	NDLTD
topic	Tradução e interpretação Linguistica - Processamento de dados Processamento de textos (Computação)
spellingShingle	Tradução e interpretação Linguistica - Processamento de dados Processamento de textos (Computação) Fleuri, Lilian Jurkevicz Uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão
description	Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Estudos da Tradução, Florianópolis, 2013. === Made available in DSpace on 2014-08-06T17:22:31Z (GMT). No. of bitstreams: 1 326306.pdf: 10379029 bytes, checksum: 5aa65bff66aad532aefa8422854a97c0 (MD5) Previous issue date: 2013 === Localizando-se no contexto de pesquisa do projeto CORDIALL (Corpus Discursivo para Análises Linguísticas e Literárias) (UFMG) e do Grupo de Pesquisa TRACOR (Grupo de Pesquisa em Tradução e Corpora) (UFSC), esta tese apresenta uma proposta metodológica de compilação de corpus, pautada no perfil e nas necessidades emergentes em 20 dissertações de mestrado produzidas entre 2003 e 2010 em Estudos da Tradução, utilizando simultaneamente o arcabouço metodológico de corpus e teórico da Linguística Sistêmico-Funcional. Nesta tese a Linguística de Corpus oferece os fundamentos teórico-metodológicos, no que tange à Metodologia de Corpus(Barnbrook, 1996 Kennedy, 1998; Bowker, 2001; Mason, 2008) e os Estudos da Tradução Baseados em Corpus (ETBC) oferecem os fundamentos teórico-metodológicos voltados aos Estudos da Tradução (cf. Baker, 1995; Olohan, 2004; Vasconcellos, 2009; Assis, 2012; Feitosa, 2005; Fernandes, 2006). Para o desenvolvimento da pesquisa, são adotados procedimentos metodológicos para: a coleta e a descrição dos métodos das 20 pesquisas analisadas; a criação de uma proposta metodológica, por meio de Templates em Processadores de Texto, como o MS Word, e Aplicativos de Planilhas, como o MS Excel; e o teste destes Templates em um Estudo Piloto. A análise do perfil metodológico das 20 dissertações identifica que a maioria das dissertações passa pelos seguintes processos de compilação de corpus: (i) preparação do corpus para um alinhamento semiautomático; (ii) alinhamento das unidades desalinhadas; (iii) anotação do corpus e revisão da anotação e (iv) quantificação dos dados. A análise dessas dissertações evidencia, entretanto, algumas inconsistências metodológicas nos processos de compilação do corpus, o que pode comprometer a eficiência e a continuidade da pesquisa, tais como: (a) ausência de padronização metodológica que implica desperdício de tempo de pesquisa na fase de compilação do corpus; (b) excesso de etapas metodológicas para a execução de um único procedimento; (c) demasiadas transições de um programa a outro durante a fase de compilação do corpus e (d) produção de inúmeros documentos. Com base nos resultados dessas análises, propõe-se um método mais eficiente, que implica em: (a) agilizar os processos de compilação de corpora paralelos bilíngues de pequena dimensão, (b) reduzir o número das etapas em cada processo, (c) reduzir o número dos programas utilizados; (d) reduzir o número da geração de diferentes documentos e (e) flexibilizar o modo de anotação do corpus. O modelo metodológico desenvolvido em um Template no processador de texto e outro em um aplicativo de planilha. Esses Templates são testados em um Estudo Piloto e seus resultados comparados ao método de compilação adotado em Fleuri (2006), tendo utilizado ambos o mesmo corpus. Os resultados desse Estudo apontam para a produtividade e viabilidade da proposta metodológica, que mostra ser capaz de agilizar o processo (i) de preparação do corpus para o alinhamento, (ii) de correção das unidades desalinhadas no corpus paralelo, (iii) de quantificação dos dados, assim como, ser capaz de flexibilizar o código de anotação do corpus e de organizar a exposição em tabela e gráficos dos elementos anotados e dos dados quantificados. O Estudo Piloto, em comparação a Fleuri (2006), mostrou ter reduzido a ¼ o tempo total de compilação, a metade o número de etapas totais executadas, a 1/5 o número de programas utilizados e a menos da metade o número de documentos gerado.<br> === Abstract : Within the context of research in the project CORDIALL and TRACOR developed at UFMG and UFSC (Brazil), this PhD thesis presents a methodological proposal for corpus compilation, based on the profiles and the needs of 20 Master's thesis in the interface with Translation Studies, Corpus Linguistics, and Systemic-Functional Linguistics, developed in Brazil between 2003 and 2010. The methodological and theoretical concepts that conduces this thesis are presented by the Corpus-Based Method presented in Corpus Linguistics (Barnbrook, 1996 Kennedy, 1998; Bowker, 2001; Mason, 2008), and the Corpus-Based Translation Studies (cf. Baker, 1995; Olohan, 2004; Vasconcellos., 2009; Assis, 2012; Feitosa, 2005; Fernandes, 2006). The methods followed in this research consist in: colecting and describing the 20 MA thesis mencioned before; studying their methods; creating a fast and economic methodological proposal for corpora compiling, using programming features of Word Processor and Spreadsheet Application; and testing this method in an Pilot Study. The analysis of the methodological profile of these 20 Master thesis identifies that their parallel bilingual small corpus compilation processes are the following: (i) corpus preparation for a semi-automatic alignment; (ii) alignment; (iii) corpus annotation and annotation edition; and (iv) data quantification. Nevertheless, the analysis points to methodological inconsistencies in the processes of corpus compilation, which can impair the investigation itself or the continuation of it in further studies. The inconsistencies concern the: (i) high amount of time spent on the compilation processes; (ii) high number of stages involved in just one process; (iii) high number of transitions between different software; and (iv) high production of documents. Based on these results, this Thesis proposes to solve such inconsistencies by creating an efficiate method of corpus compilation, that aims to: (i) fasten the compilation processes; (ii) reduce the number of stages involved in each process; (iii) reduce the number of software accessed during the corpus compilation; (iv) reduce the number of production of different documents; and plus (v) to turn the corpus annotation more flexible. The proposal is developed on MS Office software (MS Word and MS Excel). Templates with Macros and Formula are created and tested in a Pilot Study, whose results are compared with the corpus compilation results in Fleuri (2006). The methodological proposal reveals to fasten the process of (i) corpus preparation for the alignment; (ii) alignment; (iii) data quantification; and to make the corpus annotation more flexible and the data display more organized (in tables and graphics). The Pilot Study, comparing to Fleuri (2006), reduced to ¼ the total time involved in the corpus compilation; to ½ the total number of stages involved in the corpus compilation; to 1/5 the total number of transitions among different software and to less than ½ the number of document produced.
author2	Universidade Federal de Santa Catarina
author_facet	Universidade Federal de Santa Catarina Fleuri, Lilian Jurkevicz
author	Fleuri, Lilian Jurkevicz
author_sort	Fleuri, Lilian Jurkevicz
title	Uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão
title_short	Uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão
title_full	Uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão
title_fullStr	Uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão
title_full_unstemmed	Uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão
title_sort	uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão
publishDate	2014
url	https://repositorio.ufsc.br/xmlui/handle/123456789/122789
work_keys_str_mv	AT fleurililianjurkevicz umapropostametodologicaparacompilacaodecorpusparalelobilingueedepequenadimensao
_version_	1718824688404135936
spelling	ndltd-IBICT-oai-repositorio.ufsc.br-123456789-1227892019-01-21T16:25:31Z Uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão Fleuri, Lilian Jurkevicz Universidade Federal de Santa Catarina Vasconcellos, Maria Lúcia Barbosa de Fernandes, Lincoln Paulo Tradução e interpretação Linguistica - Processamento de dados Processamento de textos (Computação) Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Estudos da Tradução, Florianópolis, 2013. Made available in DSpace on 2014-08-06T17:22:31Z (GMT). No. of bitstreams: 1 326306.pdf: 10379029 bytes, checksum: 5aa65bff66aad532aefa8422854a97c0 (MD5) Previous issue date: 2013 Localizando-se no contexto de pesquisa do projeto CORDIALL (Corpus Discursivo para Análises Linguísticas e Literárias) (UFMG) e do Grupo de Pesquisa TRACOR (Grupo de Pesquisa em Tradução e Corpora) (UFSC), esta tese apresenta uma proposta metodológica de compilação de corpus, pautada no perfil e nas necessidades emergentes em 20 dissertações de mestrado produzidas entre 2003 e 2010 em Estudos da Tradução, utilizando simultaneamente o arcabouço metodológico de corpus e teórico da Linguística Sistêmico-Funcional. Nesta tese a Linguística de Corpus oferece os fundamentos teórico-metodológicos, no que tange à Metodologia de Corpus(Barnbrook, 1996 Kennedy, 1998; Bowker, 2001; Mason, 2008) e os Estudos da Tradução Baseados em Corpus (ETBC) oferecem os fundamentos teórico-metodológicos voltados aos Estudos da Tradução (cf. Baker, 1995; Olohan, 2004; Vasconcellos, 2009; Assis, 2012; Feitosa, 2005; Fernandes, 2006). Para o desenvolvimento da pesquisa, são adotados procedimentos metodológicos para: a coleta e a descrição dos métodos das 20 pesquisas analisadas; a criação de uma proposta metodológica, por meio de Templates em Processadores de Texto, como o MS Word, e Aplicativos de Planilhas, como o MS Excel; e o teste destes Templates em um Estudo Piloto. A análise do perfil metodológico das 20 dissertações identifica que a maioria das dissertações passa pelos seguintes processos de compilação de corpus: (i) preparação do corpus para um alinhamento semiautomático; (ii) alinhamento das unidades desalinhadas; (iii) anotação do corpus e revisão da anotação e (iv) quantificação dos dados. A análise dessas dissertações evidencia, entretanto, algumas inconsistências metodológicas nos processos de compilação do corpus, o que pode comprometer a eficiência e a continuidade da pesquisa, tais como: (a) ausência de padronização metodológica que implica desperdício de tempo de pesquisa na fase de compilação do corpus; (b) excesso de etapas metodológicas para a execução de um único procedimento; (c) demasiadas transições de um programa a outro durante a fase de compilação do corpus e (d) produção de inúmeros documentos. Com base nos resultados dessas análises, propõe-se um método mais eficiente, que implica em: (a) agilizar os processos de compilação de corpora paralelos bilíngues de pequena dimensão, (b) reduzir o número das etapas em cada processo, (c) reduzir o número dos programas utilizados; (d) reduzir o número da geração de diferentes documentos e (e) flexibilizar o modo de anotação do corpus. O modelo metodológico desenvolvido em um Template no processador de texto e outro em um aplicativo de planilha. Esses Templates são testados em um Estudo Piloto e seus resultados comparados ao método de compilação adotado em Fleuri (2006), tendo utilizado ambos o mesmo corpus. Os resultados desse Estudo apontam para a produtividade e viabilidade da proposta metodológica, que mostra ser capaz de agilizar o processo (i) de preparação do corpus para o alinhamento, (ii) de correção das unidades desalinhadas no corpus paralelo, (iii) de quantificação dos dados, assim como, ser capaz de flexibilizar o código de anotação do corpus e de organizar a exposição em tabela e gráficos dos elementos anotados e dos dados quantificados. O Estudo Piloto, em comparação a Fleuri (2006), mostrou ter reduzido a ¼ o tempo total de compilação, a metade o número de etapas totais executadas, a 1/5 o número de programas utilizados e a menos da metade o número de documentos gerado.<br> Abstract : Within the context of research in the project CORDIALL and TRACOR developed at UFMG and UFSC (Brazil), this PhD thesis presents a methodological proposal for corpus compilation, based on the profiles and the needs of 20 Master's thesis in the interface with Translation Studies, Corpus Linguistics, and Systemic-Functional Linguistics, developed in Brazil between 2003 and 2010. The methodological and theoretical concepts that conduces this thesis are presented by the Corpus-Based Method presented in Corpus Linguistics (Barnbrook, 1996 Kennedy, 1998; Bowker, 2001; Mason, 2008), and the Corpus-Based Translation Studies (cf. Baker, 1995; Olohan, 2004; Vasconcellos., 2009; Assis, 2012; Feitosa, 2005; Fernandes, 2006). The methods followed in this research consist in: colecting and describing the 20 MA thesis mencioned before; studying their methods; creating a fast and economic methodological proposal for corpora compiling, using programming features of Word Processor and Spreadsheet Application; and testing this method in an Pilot Study. The analysis of the methodological profile of these 20 Master thesis identifies that their parallel bilingual small corpus compilation processes are the following: (i) corpus preparation for a semi-automatic alignment; (ii) alignment; (iii) corpus annotation and annotation edition; and (iv) data quantification. Nevertheless, the analysis points to methodological inconsistencies in the processes of corpus compilation, which can impair the investigation itself or the continuation of it in further studies. The inconsistencies concern the: (i) high amount of time spent on the compilation processes; (ii) high number of stages involved in just one process; (iii) high number of transitions between different software; and (iv) high production of documents. Based on these results, this Thesis proposes to solve such inconsistencies by creating an efficiate method of corpus compilation, that aims to: (i) fasten the compilation processes; (ii) reduce the number of stages involved in each process; (iii) reduce the number of software accessed during the corpus compilation; (iv) reduce the number of production of different documents; and plus (v) to turn the corpus annotation more flexible. The proposal is developed on MS Office software (MS Word and MS Excel). Templates with Macros and Formula are created and tested in a Pilot Study, whose results are compared with the corpus compilation results in Fleuri (2006). The methodological proposal reveals to fasten the process of (i) corpus preparation for the alignment; (ii) alignment; (iii) data quantification; and to make the corpus annotation more flexible and the data display more organized (in tables and graphics). The Pilot Study, comparing to Fleuri (2006), reduced to ¼ the total time involved in the corpus compilation; to ½ the total number of stages involved in the corpus compilation; to 1/5 the total number of transitions among different software and to less than ½ the number of document produced. 2014-08-06T17:22:31Z 2014-08-06T17:22:31Z 2013 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis https://repositorio.ufsc.br/xmlui/handle/123456789/122789 326306 por info:eu-repo/semantics/openAccess 425 p.\| il., grafs. reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina instacron:UFSC

Uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão

Similar Items