Machine learning techniques applied in human recognition using RGB-D videos
Orientador : Prof. Dr. Leandro dos Santos Coelho === Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa: Curitiba, 22/11/2017 === Inclui referências : f. 84-95 === Resumo: De acordo com certas particularidades e difi...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Inglês |
Published: |
2017
|
Subjects: | |
Online Access: | http://hdl.handle.net/1884/52576 |
id |
ndltd-IBICT-oai-dspace.c3sl.ufpr.br-1884-52576 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Inglês |
format |
Others
|
sources |
NDLTD |
topic |
Engenharia elétrica |
spellingShingle |
Engenharia elétrica Boaretto, Marco Antonio Reichert Machine learning techniques applied in human recognition using RGB-D videos |
description |
Orientador : Prof. Dr. Leandro dos Santos Coelho === Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa: Curitiba, 22/11/2017 === Inclui referências : f. 84-95 === Resumo: De acordo com certas particularidades e dificuldades em lidar com imagens 2D, como por exemplo iluminação e obstrução de objetos, uma melhor opção para o problema em questão é utilizar imagens três dimensões (3D) ou Red, Green and Blue - Depth (RGB-D) como comumente são chamadas. Imagens RGB-D são invariantes a luz pelo fato da maioria dos seus dispositivos de aquisição utilizarem infravermelho ou sensores de laser time-of-flight. O Kinect da Microsoft® que foi desenvolvido em parceria com a PrimeSense é uma ferramenta incrível para aquisição de imagens RGB-D de baixa resolução, suas aplicações variam de jogos a imagens médicas. Como o Kinect possui um custo acessível, vem sendo muito utilizado em pesquisas de diversas áreas que fazem uso de visão computacional e classificação de imagens. Diversas base de dados para classificação de imagens RGB-D já foram desenvolvidas com o Kinect, como por exemplo a base de dados multimodal de atividade humana (MHAD) desenvolvido pelo laboratório de tele imersão da Universidade de Califórnia em parceria com o Centro de Ciências de Imagem da Universidade John Hopkins, na qual contem imagens de 10 pessoas desenvolvendo 11 atividades: pulando no lugar (pular), polichinelo (polichinelo), curvando o corpo para frente até o chão (curvar), socando (socar), acenando com as duas mãos (acenando2), acenando com a mão direita (acenando), batendo palmas (palmas), arremessando uma bola (arremessar), sentar e ficar de pé (sentar+levantar), sentando (sentar), ficando de pé (levantar). O principal objetivo da dissertação consiste em comparar duas abordagens de aprendizado de máquina, (i) usando um proposto comitê de máquina com Support Vector Machines (SVM), K-Nearest Neighbors (KNN), Extreme Gradient Boosting (XGBoost) e Artificial Neural Networks (ANN) combinado com três diferentes técnicas de redução de dimensionalidade Principal Component Analysis (PCA), Factor Analysis (FA) e Nonnegative Matrix Factorization (NMF) e (ii) de uma abordagem de aprendizado profundo usando uma proposta arquitetura de Convolutional Neural Network (CNN) chamada de BOANet, usando o MHAD como base de dados. A contribuição do projeto consiste em um sistema de reconhecimento de atividade humana que usa o Kinect para reconhecimento de imagens RGB-D e algoritmos de aprendizado de máquina para construir um modelo classificador. As abordagens propostas tiveram sua performance comparada com valores de referência de recentes trabalhos com o MHAD da literatura. Ambas abordagens tiveram ótima performance obtendo resultados melhores do que a maioria dos valores referência da literatura, a abordagem (i) conseguiu atingir um valor de 99.93% de precisão de classificação e a (ii) 99.05%. Palavras-chave: RGB-D, Kinect, Aprendizado de máquina, Aprendizado profundo, Reconhecimento de Atividade Humana. === Abstract: Given the particularities and issues on dealing with two Dimensions (2D) images, as illumination and object occlusion, one better option to counteract this matter is to work with three Dimensions (3D) images or Red, Green and Blue - Depth (RGBD) as they are usually called. RGB-D images are invariant of illumination since mostly of its acquisition devices use infra-red or time-of-flight laser sensors. The Microsoft® Kinect developed in partnership with PrimeSense is an amazing tool for RGB-D low resolution image acquisition, which its applications vary from gaming to medical imagery. Since Kinect has an accessible cost, it has been widely used in researches on many areas that use computer vision and image classification. Several datasets have already been developed with the Kinect for RGB-D image classification, as for example the Berkeley's Multimodal Human Activity Database (MHAD) from the Tele immersion Laboratory of University of California and the Center for Imaging Science of Johns Hopkins University, which contain images of 10 subjects performing 11 activities: jumping in place (jump), jumping jacks (jack), bending-hands up all the way down (bend), punching (punch), waving two hands (wave2), waving right hand (wave1), clapping hands (clap), throwing a ball (throw), sit down and stand up (sit +stand), sit down (sit), stand up (stand). The main goal of this dissertation is to compare different machine learning approaches, (i) using a proposed ensemble learning technique with Support Vector Machines (SVM), K-Nearest Neighbors (kNN), Extreme Gradient Boosting (XGBoost) and Artificial Neural Networks (ANN) combined with three different dimensionality reduction techniques Principal Component Analysis (PCA), Factor Analysis (FA) and Nonnegative Matrix Factorization (NMF) and (ii) from the Deep Learning (DL) approach using a proposed convolutional neural network (CNN) architecture known as BOANet, using the MHAD as Dataset. The contribution of the project consists on a human activity recognition system (HAR) that uses Kinect for RGB-D image recognition and machine learning algorithm to build the model classifier. The proposed approaches have its performance compared with reference values from recent works with the MHAD of the literature. Both approaches got remarkable performance having better results than most of the reference values from the literature, the (i) approach achieved 99.93% of classification accuracy and (ii) achieved 99.05% of classification accuracy. Key-words: RGB-D, Kinect, Machine Learning, Deep Learning, Human Activity Recognition. |
author2 |
Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica |
author_facet |
Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica Boaretto, Marco Antonio Reichert |
author |
Boaretto, Marco Antonio Reichert |
author_sort |
Boaretto, Marco Antonio Reichert |
title |
Machine learning techniques applied in human recognition using RGB-D videos |
title_short |
Machine learning techniques applied in human recognition using RGB-D videos |
title_full |
Machine learning techniques applied in human recognition using RGB-D videos |
title_fullStr |
Machine learning techniques applied in human recognition using RGB-D videos |
title_full_unstemmed |
Machine learning techniques applied in human recognition using RGB-D videos |
title_sort |
machine learning techniques applied in human recognition using rgb-d videos |
publishDate |
2017 |
url |
http://hdl.handle.net/1884/52576 |
work_keys_str_mv |
AT boarettomarcoantonioreichert machinelearningtechniquesappliedinhumanrecognitionusingrgbdvideos |
_version_ |
1718645390353367040 |
spelling |
ndltd-IBICT-oai-dspace.c3sl.ufpr.br-1884-525762018-05-23T18:22:37Z Machine learning techniques applied in human recognition using RGB-D videos Boaretto, Marco Antonio Reichert Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica Coelho, Leandro dos Santos Engenharia elétrica Orientador : Prof. Dr. Leandro dos Santos Coelho Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa: Curitiba, 22/11/2017 Inclui referências : f. 84-95 Resumo: De acordo com certas particularidades e dificuldades em lidar com imagens 2D, como por exemplo iluminação e obstrução de objetos, uma melhor opção para o problema em questão é utilizar imagens três dimensões (3D) ou Red, Green and Blue - Depth (RGB-D) como comumente são chamadas. Imagens RGB-D são invariantes a luz pelo fato da maioria dos seus dispositivos de aquisição utilizarem infravermelho ou sensores de laser time-of-flight. O Kinect da Microsoft® que foi desenvolvido em parceria com a PrimeSense é uma ferramenta incrível para aquisição de imagens RGB-D de baixa resolução, suas aplicações variam de jogos a imagens médicas. Como o Kinect possui um custo acessível, vem sendo muito utilizado em pesquisas de diversas áreas que fazem uso de visão computacional e classificação de imagens. Diversas base de dados para classificação de imagens RGB-D já foram desenvolvidas com o Kinect, como por exemplo a base de dados multimodal de atividade humana (MHAD) desenvolvido pelo laboratório de tele imersão da Universidade de Califórnia em parceria com o Centro de Ciências de Imagem da Universidade John Hopkins, na qual contem imagens de 10 pessoas desenvolvendo 11 atividades: pulando no lugar (pular), polichinelo (polichinelo), curvando o corpo para frente até o chão (curvar), socando (socar), acenando com as duas mãos (acenando2), acenando com a mão direita (acenando), batendo palmas (palmas), arremessando uma bola (arremessar), sentar e ficar de pé (sentar+levantar), sentando (sentar), ficando de pé (levantar). O principal objetivo da dissertação consiste em comparar duas abordagens de aprendizado de máquina, (i) usando um proposto comitê de máquina com Support Vector Machines (SVM), K-Nearest Neighbors (KNN), Extreme Gradient Boosting (XGBoost) e Artificial Neural Networks (ANN) combinado com três diferentes técnicas de redução de dimensionalidade Principal Component Analysis (PCA), Factor Analysis (FA) e Nonnegative Matrix Factorization (NMF) e (ii) de uma abordagem de aprendizado profundo usando uma proposta arquitetura de Convolutional Neural Network (CNN) chamada de BOANet, usando o MHAD como base de dados. A contribuição do projeto consiste em um sistema de reconhecimento de atividade humana que usa o Kinect para reconhecimento de imagens RGB-D e algoritmos de aprendizado de máquina para construir um modelo classificador. As abordagens propostas tiveram sua performance comparada com valores de referência de recentes trabalhos com o MHAD da literatura. Ambas abordagens tiveram ótima performance obtendo resultados melhores do que a maioria dos valores referência da literatura, a abordagem (i) conseguiu atingir um valor de 99.93% de precisão de classificação e a (ii) 99.05%. Palavras-chave: RGB-D, Kinect, Aprendizado de máquina, Aprendizado profundo, Reconhecimento de Atividade Humana. Abstract: Given the particularities and issues on dealing with two Dimensions (2D) images, as illumination and object occlusion, one better option to counteract this matter is to work with three Dimensions (3D) images or Red, Green and Blue - Depth (RGBD) as they are usually called. RGB-D images are invariant of illumination since mostly of its acquisition devices use infra-red or time-of-flight laser sensors. The Microsoft® Kinect developed in partnership with PrimeSense is an amazing tool for RGB-D low resolution image acquisition, which its applications vary from gaming to medical imagery. Since Kinect has an accessible cost, it has been widely used in researches on many areas that use computer vision and image classification. Several datasets have already been developed with the Kinect for RGB-D image classification, as for example the Berkeley's Multimodal Human Activity Database (MHAD) from the Tele immersion Laboratory of University of California and the Center for Imaging Science of Johns Hopkins University, which contain images of 10 subjects performing 11 activities: jumping in place (jump), jumping jacks (jack), bending-hands up all the way down (bend), punching (punch), waving two hands (wave2), waving right hand (wave1), clapping hands (clap), throwing a ball (throw), sit down and stand up (sit +stand), sit down (sit), stand up (stand). The main goal of this dissertation is to compare different machine learning approaches, (i) using a proposed ensemble learning technique with Support Vector Machines (SVM), K-Nearest Neighbors (kNN), Extreme Gradient Boosting (XGBoost) and Artificial Neural Networks (ANN) combined with three different dimensionality reduction techniques Principal Component Analysis (PCA), Factor Analysis (FA) and Nonnegative Matrix Factorization (NMF) and (ii) from the Deep Learning (DL) approach using a proposed convolutional neural network (CNN) architecture known as BOANet, using the MHAD as Dataset. The contribution of the project consists on a human activity recognition system (HAR) that uses Kinect for RGB-D image recognition and machine learning algorithm to build the model classifier. The proposed approaches have its performance compared with reference values from recent works with the MHAD of the literature. Both approaches got remarkable performance having better results than most of the reference values from the literature, the (i) approach achieved 99.93% of classification accuracy and (ii) achieved 99.05% of classification accuracy. Key-words: RGB-D, Kinect, Machine Learning, Deep Learning, Human Activity Recognition. 2017-12-22T18:23:55Z 2017-12-22T18:23:55Z 2017 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/1884/52576 Inglês Disponível em formato digital info:eu-repo/semantics/openAccess 97 f. : il. algumas color., gráfs., tabs. application/pdf reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná instacron:UFPR |