Summary: | O crescente aumento no volume de dados complexos tem se tornado um desafio para pesquisadores. Séries temporais são um tipo de dados complexos que tem tido um crescimento em sua relevância, devido a sua importância para o monitoramento e acompanhamento de safras agrícolas. Assim, a mineração de informação a partir de grandes volumes de séries temporais para o apoio a tomada de decisões tem se tornado uma atividade valiosa. Uma das atividades importantes na mineração em séries temporais é a descoberta de padrões frequentes. Entretanto, a complexidade dessa atividade requer métodos rápidos e eficientes. Nesse contexto, esta dissertação de mestrado apresenta propostas para novos algoritmos e métodos para minerar e indexar séries temporais. Uma das propostas dessa dissertação é o índice Telesto, que utiliza uma estrutura baseada em árvores de sufixo generalizada para recuperar séries temporais em uma base de dados de séries temporais de modo rápido e eficiente. Outra proposta dessa dissertação é o algoritmo TrieMotif, que se baseia em uma trie para eliminar comparações desnecessárias entre subsequências, agilizando o processo de mineração de padrões frequentes em séries temporais. Os algoritmos propostos foram utilizados para a análise de dados climáticos e agrometeorológicos. Os resultados apresentados nessa dissertação de mestrado mostram que os algoritmos são escaláveis, podendo ser utilizados para grandes volumes de dados
===
Dealing with large volumes of complex data is a challenging task that has motivated many researchers around the world. Time series is a type of complex data that is growing in importance due to the increasing demand of sensors for surveillance and monitoring. Thus, mining information from large volumes of time series to support decision making is a valuable activity nowadays. This Master dissertation goes in this direction, as it proposes new algorithms and methods to mine and index time series. The novelty of the TrieMotif, a new algorithm to mine frequent patterns (motifs) from time series employing a trie structure that allows clever comparison between the sequences, as well as the Telesto index structure based on suffix trees area presented and discussed in the context of agrometeorological and climatological data, being the two main contributions of this work. The dissertation shows that the proposed algorithms are scalable, being suitable to big data, and when compared to the competitors they always presented the best results
|