Método para execução de redes neurais convolucionais em FPGA.

Redes Neurais Convolucionais têm sido utilizadas com sucesso para reconhecimento de padrões em imagens. Porém, o seu alto custo computacional e a grande quantidade de parâmetros envolvidos dificultam a execução em tempo real deste tipo de rede neural artificial em aplicações embarcadas, onde o poder...

Full description

Bibliographic Details
Main Author: Sousa, Mark Cappello Ferreira de
Other Authors: Hernandez, Emílio Del Moral
Format: Others
Language:pt
Published: Biblioteca Digitais de Teses e Dissertações da USP 2019
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/3/3140/tde-14082019-110912/
id ndltd-usp.br-oai-teses.usp.br-tde-14082019-110912
record_format oai_dc
spelling ndltd-usp.br-oai-teses.usp.br-tde-14082019-1109122019-08-23T04:44:36Z Método para execução de redes neurais convolucionais em FPGA. A method for execution of convolutional neural networks in FPGA. Sousa, Mark Cappello Ferreira de AlexNet AlexNet Convolutional neural networks Embedded pattern recognition FPGA FPGA Image recognition Reconhecimento de imagem Reconhecimento embarcado de padrões Redes neurais Sistema-em-um-chip System-on-chip Redes Neurais Convolucionais têm sido utilizadas com sucesso para reconhecimento de padrões em imagens. Porém, o seu alto custo computacional e a grande quantidade de parâmetros envolvidos dificultam a execução em tempo real deste tipo de rede neural artificial em aplicações embarcadas, onde o poder de processamento e a capacidade de armazenamento de dados são restritos. Este trabalho estudou e desenvolveu um método para execução em tempo real em FPGAs de uma Rede Neural Convolucional treinada, aproveitando o poder de processamento paralelo deste tipo de dispositivo. O foco deste trabalho consistiu na execução das camadas convolucionais, pois estas camadas podem contribuir com até 99% da carga computacional de toda a rede. Nos experimentos, um dispositivo FPGA foi utilizado conjugado com um processador ARM dual-core em um mesmo substrato de silício. Apenas o dispositivo FPGA foi utilizado para executar as camadas convolucionais da Rede Neural Convolucional AlexNet. O método estudado neste trabalho foca na distribuição eficiente dos recursos do FPGA por meio do balanceamento do pipeline formado pelas camadas convolucionais, uso de buffers para redução e reutilização de memória para armazenamento dos dados intermediários (gerados e consumidos pelas camadas convolucionais) e uso de precisão numérica de 8 bits para armazenamento dos kernels e aumento da vazão de leitura dos mesmos. Com o método desenvolvido, foi possível executar todas as cinco camadas convolucionais da AlexNet em 3,9 ms, com a frequência máxima de operação de 76,9 MHz. Também foi possível armazenar todos os parâmetros das camadas convolucionais na memória interna do FPGA, eliminando possíveis gargalos de acesso à memória externa. Convolutional Neural Networks have been used successfully for pattern recognition in images. However, their high computational cost and the large number of parameters involved make it difficult to perform this type of artificial neural network in real time in embedded applications, where the processing power and the data storage capacity are restricted. This work studied and developed methods for real-time execution in FPGAs of a trained convolutional neural network, taking advantage of the parallel processing power of this type of device. The focus of this work was the execution of convolutional layers, since these layers can contribute up to 99% of the computational load of the entire network. In the experiments, an FPGA device was used in conjunction with a dual-core ARM processor on the same silicon substrate. The FPGA was used to perform convolutional layers of the AlexNet Convolutional Neural Network. The methods studied in this work focus on the efficient distribution of the FPGA resources through the balancing of the pipeline formed by the convolutional layers, the use of buffers for the reduction and reuse of memory for the storage of intermediate data (generated and consumed by the convolutional layers) and 8 bits for storage of the kernels and increase of the flow of reading of them. With the developed methods, it was possible to execute all five AlexNet convolutional layers in 3.9 ms with the maximum operating frequency of 76.9 MHz. It was also possible to store all the parameters of the convolutional layers in the internal memory of the FPGA, eliminating possible external access memory bottlenecks. Biblioteca Digitais de Teses e Dissertações da USP Hernandez, Emílio Del Moral 2019-04-26 Dissertação de Mestrado application/pdf http://www.teses.usp.br/teses/disponiveis/3/3140/tde-14082019-110912/ pt Liberar o conteúdo para acesso público.
collection NDLTD
language pt
format Others
sources NDLTD
topic AlexNet
AlexNet
Convolutional neural networks
Embedded pattern recognition
FPGA
FPGA
Image recognition
Reconhecimento de imagem
Reconhecimento embarcado de padrões
Redes neurais
Sistema-em-um-chip
System-on-chip
spellingShingle AlexNet
AlexNet
Convolutional neural networks
Embedded pattern recognition
FPGA
FPGA
Image recognition
Reconhecimento de imagem
Reconhecimento embarcado de padrões
Redes neurais
Sistema-em-um-chip
System-on-chip
Sousa, Mark Cappello Ferreira de
Método para execução de redes neurais convolucionais em FPGA.
description Redes Neurais Convolucionais têm sido utilizadas com sucesso para reconhecimento de padrões em imagens. Porém, o seu alto custo computacional e a grande quantidade de parâmetros envolvidos dificultam a execução em tempo real deste tipo de rede neural artificial em aplicações embarcadas, onde o poder de processamento e a capacidade de armazenamento de dados são restritos. Este trabalho estudou e desenvolveu um método para execução em tempo real em FPGAs de uma Rede Neural Convolucional treinada, aproveitando o poder de processamento paralelo deste tipo de dispositivo. O foco deste trabalho consistiu na execução das camadas convolucionais, pois estas camadas podem contribuir com até 99% da carga computacional de toda a rede. Nos experimentos, um dispositivo FPGA foi utilizado conjugado com um processador ARM dual-core em um mesmo substrato de silício. Apenas o dispositivo FPGA foi utilizado para executar as camadas convolucionais da Rede Neural Convolucional AlexNet. O método estudado neste trabalho foca na distribuição eficiente dos recursos do FPGA por meio do balanceamento do pipeline formado pelas camadas convolucionais, uso de buffers para redução e reutilização de memória para armazenamento dos dados intermediários (gerados e consumidos pelas camadas convolucionais) e uso de precisão numérica de 8 bits para armazenamento dos kernels e aumento da vazão de leitura dos mesmos. Com o método desenvolvido, foi possível executar todas as cinco camadas convolucionais da AlexNet em 3,9 ms, com a frequência máxima de operação de 76,9 MHz. Também foi possível armazenar todos os parâmetros das camadas convolucionais na memória interna do FPGA, eliminando possíveis gargalos de acesso à memória externa. === Convolutional Neural Networks have been used successfully for pattern recognition in images. However, their high computational cost and the large number of parameters involved make it difficult to perform this type of artificial neural network in real time in embedded applications, where the processing power and the data storage capacity are restricted. This work studied and developed methods for real-time execution in FPGAs of a trained convolutional neural network, taking advantage of the parallel processing power of this type of device. The focus of this work was the execution of convolutional layers, since these layers can contribute up to 99% of the computational load of the entire network. In the experiments, an FPGA device was used in conjunction with a dual-core ARM processor on the same silicon substrate. The FPGA was used to perform convolutional layers of the AlexNet Convolutional Neural Network. The methods studied in this work focus on the efficient distribution of the FPGA resources through the balancing of the pipeline formed by the convolutional layers, the use of buffers for the reduction and reuse of memory for the storage of intermediate data (generated and consumed by the convolutional layers) and 8 bits for storage of the kernels and increase of the flow of reading of them. With the developed methods, it was possible to execute all five AlexNet convolutional layers in 3.9 ms with the maximum operating frequency of 76.9 MHz. It was also possible to store all the parameters of the convolutional layers in the internal memory of the FPGA, eliminating possible external access memory bottlenecks.
author2 Hernandez, Emílio Del Moral
author_facet Hernandez, Emílio Del Moral
Sousa, Mark Cappello Ferreira de
author Sousa, Mark Cappello Ferreira de
author_sort Sousa, Mark Cappello Ferreira de
title Método para execução de redes neurais convolucionais em FPGA.
title_short Método para execução de redes neurais convolucionais em FPGA.
title_full Método para execução de redes neurais convolucionais em FPGA.
title_fullStr Método para execução de redes neurais convolucionais em FPGA.
title_full_unstemmed Método para execução de redes neurais convolucionais em FPGA.
title_sort método para execução de redes neurais convolucionais em fpga.
publisher Biblioteca Digitais de Teses e Dissertações da USP
publishDate 2019
url http://www.teses.usp.br/teses/disponiveis/3/3140/tde-14082019-110912/
work_keys_str_mv AT sousamarkcappelloferreirade metodoparaexecucaoderedesneuraisconvolucionaisemfpga
AT sousamarkcappelloferreirade amethodforexecutionofconvolutionalneuralnetworksinfpga
_version_ 1719236767474778112