Summary: | A Web é a aplicação mais popular da Internet e, desde sua criação, gerou mudanças de diversas maneiras na vida das pessoas. Esse é um dos motivos que a transformou em objeto de estudo de diversas pesquisas de cunho social, tecnológico econômico e político. A metodologia descrita nesta dissertação pode ser entendida como uma extensão do projeto TIC Web, que foi desenvolvido como parceria entre o NIC.br, o escritório do W3C Brasil e o instituto InWeb para estudar características de qualidade da Web Brasileira. Nesse sentido, a presente metodologia possui o objetivo de automatizar análises de domínios e sites Web, principalmente com base nos resultados sobre a Web Governamental Brasileira obtidos pelo TIC Web. Ou seja, o presente trabalho se foca na definição e aplicação de metodologia baseada em técnicas de aprendizado de máquina para a automatização das análises de domínios Web, visando praticidade na execução da categorização de sites Web segundo critérios relacionados à qualidade percebida por seus usuários. Os tópicos aqui discutidos compreendem: a importância dos padrões abertos e elementos de desempenho para a determinação da qualidade de um site; fundamentos de aprendizado de máquina; o detalhamento das ferramentas utilizadas para coletar e extrair informações dos sites, bem como dos atributos e indicadores por elas adquiridos; a metodologia proposta, incluindo a descrição de diversos algoritmos utilizados; e, um caso de uso demonstrando sua aplicabilidade. Além disso, propõe-se como parte da metodologia de análise a utilização dos resultados de seus resultados para realizar a avaliação de sites segundo sua qualidade percebida. === The World Wide Web is the most popular application throughout the Internet and, since its creation, it has changed people\'s lives in lots of ways, hence, it has become subject to several social, technological, economical and political researches. The methodology described in the present text may be unterstood as an extension of the TIC Web project, which was developed by a partnership among NIC.br, Brazilian W3C office and the InWeb institute in order to study some quality related issues about the Brazilian Web. Accordingly, the methodology presented in this work aims to automate analyses of Web domains and sites, mainly based on the results over the Brazilian Governmental Web obtained by TIC Web. In other words, the present project focus on the definition and use of a methodology dependent on machine learning in order to automate the analyses of extracted data, having the goal of easing the classification of Web sites according to the quality perceived by their users. Some of the discussed topics are as follows: the importance of Open Standards and performance features to defy the quality of a site; basics of machine learning; details of the tool applied to extract Web sites data, as well as its acquired parameters and indicators; the proposed methodology, including the description of applied algorithms; and a use case evincing its applicability. Additionally, it is proposed, as part of the methodology, the utilization of the results obtained by the domain analysis to evaluate other websites in accordance to their perceived quality.
|