Summary: | Made available in DSpace on 2014-06-12T16:01:25Z (GMT). No. of bitstreams: 2
arquivo8978_1.pdf: 3995285 bytes, checksum: 490145b3e695854355d762413cd768c2 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior === Com o grande crescimento da Web, foram criados inúmeros mecanismos para interação
entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento
é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob
uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares,
dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs
e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada
duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do
conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que
podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se
impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com
isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa.
Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa
grande quantidade de blogs. Para lidar com esse problema a área de recuperação de
informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar
textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É
importante destacar que para facilitar o acesso aos documentos, existe necessidade de
indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de
software conhecido como web crawlers. Especificamente no contexto de blogs, os web
crawlers são chamados de blog crawlers.
Diante desse cenário, este trabalho propõe um framework centrado na arquitetura
para construção de blog crawlers. Por um lado, utilizar um framework centrado na
arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação
genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade
na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo
principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de
extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de
pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também
são disponibilizados, como por exemplo serviço para recomendação de tag.
Para validar a proposta foram criados três estudos de caso. Além disto, os principais
algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma
análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e
quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a
eficiência dos principais algoritmos propostos
|