A computer-assisted approach to supporting taxonomical classification of freshwater green microalga images

The taxonomical identification of freshwater green microalgae is highly relevant problem in Phycology. In particular, the taxonomical identification of samples from the Selenastraceae family of algae is considered particularly problematic with many known inconsistencies. Biologists manually insp...

Full description

Bibliographic Details
Main Author: Vinicius Ruela Pereira Borges
Other Authors: Maria Cristina Ferreira de Oliveira
Language:English
Published: Universidade de São Paulo 2016
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022017-163412/
Description
Summary:The taxonomical identification of freshwater green microalgae is highly relevant problem in Phycology. In particular, the taxonomical identification of samples from the Selenastraceae family of algae is considered particularly problematic with many known inconsistencies. Biologists manually inspect and analyze microscope images of alga strains, and typically carry out several complex and time-consuming procedures that demand considerable expert knowledge. Such practical limitations motivated this investigation on the applicability of image processing, pattern recognition and visual data mining techniques to support the biologists in tasks of species identification. This thesis describes methodologies for the classification of green alga images, considering both traditional automated classification processes and also a user-assisted incremental classification process supported by Neighbor Joining tree visualizations. In this process, users can interact with the visualizations to introduce their knowledge into the classification process, e.g. by selecting suitable training sets and evaluate the results, thus steering the classification process. In order for visualization and classification to be feasible, accurate features must be obtained from the images capable of distinguishing between the different species of algae. As morphological shape properties are a fundamental property in identifying species, suitable segmentation and shape feature extraction strategies have been developed. This was particularly challenging, as different alga species share common morphological characteristics. Two segmentation methodologies are introduced, in which one relies on the level set method and the other is based on the region growing principle. Although the contour-based approach is capable of handling the uneven conditions of green alga images, its computation is time-consuming and not suitable for real time applications. A specialized formulation of the region-based methodology is proposed that considers the specific characteristics of the green alga images handled. This second formulation was shown to be more efficient than the level set approach and generates highly accurate segmentations. Once accurate alga segmentation is achieved, two descriptors are proposed that capture alga shape properties, and also an effective general shape descriptor that computes quantitative measures from two signatures associated to the shape properties. Experimental results are described that indicate that the proposed solutions can be useful to biologists conducting alga identification tasks once it reduces their effort and attains satisfactory discrimination among species. === A identificação taxonômica de algas verdes de água doce é um problema de extrema relevância na Ficologia. Identificar espécies de algas da família Selenastraceae é uma tarefa complexa devido às inconsistências existentes em sua taxonomia, reconhecida como problemática. Os biólogos analisam manualmente imagens de microscópio de cepas de algas e realizam diversos procedimentos demorados que necessitamde conhecimento sólido. Tais limitaçõesmotivaramo estudo da aplicabilidade de técnicas de processamento de imagens, reconhecimento de padrões e mineração visual de dados para apoiar os biólogos em tarefas de identificação de espécies de algas. Esta tese descreve metodologias computacionais para a classificação de imagens de algas verdes, nas abordagens tradicional e baseada em classificação visual incremental com participação do usuário. Nesta última, os usuários interagem com visualizações baseadas em árvores filogenéticas para utilizar seu conhecimento no processo de classificação, como por exemplo, na seleção de instâncias relevantes para o conjunto de treinamento de um classificador, como também na avaliação dos resultados. De forma a viabilizar o uso de classificadores e técnicas de visualização, vetores de características devem ser obtidos das imagens de algas verdes. Neste trabalho, utiliza-se extração de características de forma, uma vez que a taxonomia da família Selenastraceae considera primordialmente as características morfológicas na identificação das espécies. No entanto, a obtenção de características representativas requer que as algas sejam precisamente segmentadas das imagens. Esta é, de fato, uma tarefa altamente desafiadora considerando a baixa qualidade das imagens e a maneira pelas quais as algas se organizam nas imagens. Duas metodologias de segmentação foram introduzidas: uma baseada no método Level Set e outra baseada no algoritmo de crescimento de regiões. A primeira se mostrou robusta e consegue identificar com alta precisão as algas nas imagens, mas seu tempo de execução é alto. A outra apresenta maior precisão e é mais rápida, uma vez que as técnicas de pré-processamento são especializadas para as imagens de algas verdes. Uma vez segmentadas as algas, dois descritores para caracterizar as imagens foram propostos: um baseado em características geométricas básicas e outro que utiliza medidas quantitativas calculadas a partir das assinaturas de forma. Resultados experimentais indicaram que as soluções propostas têm um bom potencial para serem utilizadas em tarefas de identificação taxonômica de algas verdes, uma vez que reduz o esforço nos procedimentos manuais e obtém-se classificações satisfatórias.