Summary: | Esta tese trata do problema da escrita de artigos científicos em inglês como língua estrangeira. Do ponto de vista teórico, foram investigados métodos e técnicas de duas áreas da Inteligência Artificial - Lingüística Computacional e Raciocínio Baseado em Casos -, em busca de soluções para a construção de ferramentas de software que diminuíssem os problemas de interferência da língua materna e de falta de coesão e coerência nos textos escritos por estudantes da área de física experimental, principalmente. Do ponto de vista prático, foram desenvolvidas duas ferramentas de auxilio a escrita. Uma primeira, chamada Ferramenta de Referência, foi implementada utilizando-se o método de análise de corpus para a geração de uma Base de Expressões que contém as colocações do tipo expressões padrão, comumente encontradas em textos científicos de artigos e livros de subáreas de física e informática. O acesso às colocações pode ser feito de três maneiras: através de componentes e sub-componentes da estrutura esquemática de artigos da área de pesquisa experimental, através de palavras-chave pertencentes a este gênero, e pelos padrões retóricos mais comuns que este gênero utiliza. Uma ferramenta de aquisição de conhecimento esta acoplada a Ferramenta de Referência, permitindo extensibilidade, fácil personalização, e transporte (portability) para novos domínios. Testes com alunos de pós-graduação em um curso de Escrita Cientifica no IFQSC-USP comprovaram a eficácia da ferramenta, urna vez que seu uso auxiliou na superação do bloqueio inicial em se produzir um primeiro rascunho de texto, e forneceu input adequado para a escrita de textos coesos. Como se observou também, que esta ferramenta é adequada para usuários com boa recepção da língua inglesa e alguma experiência em escrita cientifica, uma nova ferramenta foi implementada para urna classe de usuários que possuem problemas mais severos quanto à coesão e interferência da língua materna. Ela foi denominada Ferramenta de Suporte, e para sua implementação utilizou-se, alem do método de analise de corpus, a abordagem baseada em casos para modelar as fases da escrita. A análise de corpus nesta segunda ferramenta foi mais detalhada, ficando assim restrita a Seção Introdutória de Artigos Experimentais. Esta análise identificou trinta estratégias retóricas encontradas em artigos científicos, geralmente realizadas por três ou quatro mensagens (denominação para os tipos diferentes de informações) tomadas de um conjunto de quarenta e cinco tipos. A base de casos da implementação atual da ferramenta conta com cinqüenta e quatro instancias de introduções autenticas das revistas Physical Review Letters e Thin Solid Films, um número ainda pequeno que deve ser aumentado para que uma avaliação quantitativa do método de busca seja realizada. Uma ferramenta para auxiliar o engenheiro de conhecimento na aquisição de novos casos e vários filtros para automatizar o processo de edição dos casos foi implementada, tornando o processo de geração de novos casos semi-automático. Os trabalhos futuros com relação a esta segunda ferramenta devem tratar principalmente do acréscimo de casos na base, da avaliação da precisão e revogação da busca, e de testes com usuários, que, com certeza, contribuirão para o aperfeiçoamento de ferramentas construídas nestas bases
===
This thesis considers the problem of writing scientific papers in English as a foreign language. From the theoretical point of view, techniques from two areas of Artificial Intelligence, namely Computational Linguistics and Case-based Reasoning, were investigated in the search for possible solutions to minimize mother tongue interference and lack of cohesion and coherence in student\" texts, especially in experimental physics. Two writing tools were then developed. The first one, named Reference Version, employed corpus analysis for creating a sentences base containing collocations frequently used in scientific writing. Such collocations could be accessed in one of three ways: according to the components and subcomponents of the schematic structure of a scientific paper, by searching keywords and communicative goals. An acquisition mode was also implemented so that the tool can be customized easily thus allowing portability to other domains and possible extensions within a given domain. Experiments in a technical writing course at IFQSC-USP for graduate student\" have demonstrated the efficacy of the tool. It was particularly useful in helping students to overcome the initial block in the preparation of a first draft and also in providing contextualized linguistic input for producing a cohesive text. It was also observed that this first tool was only helpful for students possessing reasonable reception of the English language and some experience in scientific writing. A new, more sophisticated tool was then proposed and implemented. It is named Support Version and utilizes corpus analysis and the case-based approach as a framework for modeling the different stages of the writing process. Because a more detailed analysis had to be performed, the tool was restricted to the Introductory Section of papers on experimental physics. In this analysis 30 rhetorical strategies were identified which were generally realized linguistically using 3 or 4 rhetorical messages from a set of 45 types of message. The implemented cases base has 54 introductions from the Physical Review Letters and Thin Solid Films journals, which has been shown to be a far too small number for reasonable recall and precision figures to be obtained. A scheme has been incorporated into the tool for adaptations to be made in the cases recovered, by making use of revision rules. In future the tool may be extended in a straightforward way to other parts of a scientific paper or to other areas of research with a semi-automatic edition process of new cases that has been built into the Support tool. This certainly opens the way for customization, which will greatly facilitate the assessment of the tool according to usability criteria
|