Estratégias para apoiar a detecção de estruturas em visualizações multidimensionais perceptualmente sobrecarregadas

A disponibilização de técnicas efetivas para a Visualização Exploratória e Mineração Visual de conjuntos de dados volumosos e de alta dimensionalidade ainda representa um grande desafio para os pesquisadores. Apesar das muitas contribuições e dos avanços recentes, técnicas convencionais de visua...

Full description

Bibliographic Details
Main Author: Almir Olivette Artero
Other Authors: Maria Cristina Ferreira de Oliveira
Language:Portuguese
Published: Universidade de São Paulo 2005
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112014-164313/
Description
Summary:A disponibilização de técnicas efetivas para a Visualização Exploratória e Mineração Visual de conjuntos de dados volumosos e de alta dimensionalidade ainda representa um grande desafio para os pesquisadores. Apesar das muitas contribuições e dos avanços recentes, técnicas convencionais de visualização direta - em que cada elemento do conjunto de dados é mapeado em um elemento visual na tela - ainda são bastante limitadas nesse contexto. Neste trabalho técnicas de visualização exploratória foram revisitadas, e são enriquecidas com algumas estratégias que permitem gerar representações visuais mais efetivas para apoiar processos interativos de exploração de grandes conjuntos de dados de alta dimensionalidade. As técnicas introduzidas apresentam baixa complexidade computacional, de modo a não prejudicar ou inviabilizar a interação do usuário com as visualizações, na busca de padrões como agrupamentos e regiões de alta densidade nos dados, e podem ser caracterizadas como quatro contribuições distintas: (i) primeiramente, é apresentada uma nova técnica de visualização multi-dimensional, denominada VizJD, que projeta os dados em três dimensões espaciais e assim ameniza o efeito indesejado da excessiva sobreposição dos marcadores, típica de estratégias bidimensionais, como o RadViz e Star Coordinates, oferecendo uma alternativa de baixo custo para a projeção de dados multidimensionais no espaço 3D; (ii) técnicas de visualização direta, como Coordenadas Paralelas, RadViz e o próprio VizJD, são enriquecidas com informações de frequência e densidade computadas a partir dos dados, as quais são mapeadas visualmente buscando reduzir o efeito prejudicial de uma excessiva sobreposição dos marcadores, atenuar os efeitos indesejados da presença de ruído nos dados e ainda realçar a presença de padrões nos dados; (iii) é introduzido um procedimento interativo para apoiar a identificação de agrupamentos nos dados, o qual é apoiado nas visualizações enriquecidas com informação de frequência e densidade introduzidas anteriormente: (iv) finalmente, é apresentada uma estratégia simples para configurar a disposição dos atributos de dados mapeados na visualização, a qual resulta em visualizações de melhor qualidade e mais informativas no caso de dados de alta dimensionalidade. As propostas apresentadas são comparadas a trabalhos relacionados existentes na literatura, e avaliadas por meio de sua aplicação a vários conjuntos de dados reais e sintéticos, de vários tamanhos e dimensionalidades. Os resultados indicam que, apesar das estratégias propostas não eliminarem os problemas associados à oclusão e congestionamento visual na visualização de grandes conjuntos de dados, elas oferecem soluções efetivas e de baixo custo que ampliam a escalabilidade visual de técnicas tradicionais, viabilizando tarefas de exploração e mineração que seriam impossíveis, ou muito dificultadas, sem esses recursos. === The lack of effective techniques for Exploratory Visualization and Visual Mining of very large high-dimensional data sets still represents a major challenge to be addressed by researchers in the field. Despite the many contributions and recent advances, conventional direct visualization techniques - in which each item in the data set is individually mapped into a visual element in the screen - are still highly limited in this context. In this work we revisit direct exploratory visualization techniques, and propose several enhancements to support the creation of more effective visual representations to assist interactive exploration of large high-dimensional data sets. Four contributions are introduced: (i) first, a new multi-dimensional visualization technique that projects data in three spatial dimensions, called Viz3D, is presented; this technique reduces the excessive marker overlapping anc concentration that is typical of two-dimensional visualizations such as RadViz and Star Coordinates and offers a low cost 3D projection technique; (ii) direct visualization techniques, such as Parallel Coordinates, RadViz and VizJD itself, are enhanced with frequency and density information, computed from the data set and mapped into the data visual representations; the goals of this mapping are to reduce the harmful effeets of excessive marker overlapping, to reduce the artifaets due to the presence of noise in the data, and to highlight the presence of patterns in data; (iii) the visualizations enhanced with frequency and density information provide the basis for a new interactive approach to assist users in identifying and extracting cluslers in data sets; (iv) finallv, a new and simple strategy is introduced to configure the layout of multiple data attributes mapped into a visualization that results in better and more informative visualizations of high dimensional data. The proposed techniques are compared with related work from the literature, and illustrated with their application to several real and synthetic data sets of varying size and dimensionality. Results indicate that, although the new techniques do not completely eliminate the problems associated with occlusion and overlapping, they offer effective low cost solutions that increase the visual scalability of the techniques, enabling users to conduct visual exploration tasks that would not be possible otherwise.