Método para execução de redes neurais convolucionais em FPGA.
Redes Neurais Convolucionais têm sido utilizadas com sucesso para reconhecimento de padrões em imagens. Porém, o seu alto custo computacional e a grande quantidade de parâmetros envolvidos dificultam a execução em tempo real deste tipo de rede neural artificial em aplicações embarcadas, onde o poder...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | pt |
Published: |
Biblioteca Digitais de Teses e Dissertações da USP
2019
|
Subjects: | |
Online Access: | http://www.teses.usp.br/teses/disponiveis/3/3140/tde-14082019-110912/ |
id |
ndltd-usp.br-oai-teses.usp.br-tde-14082019-110912 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-usp.br-oai-teses.usp.br-tde-14082019-1109122019-08-23T04:44:36Z Método para execução de redes neurais convolucionais em FPGA. A method for execution of convolutional neural networks in FPGA. Sousa, Mark Cappello Ferreira de AlexNet AlexNet Convolutional neural networks Embedded pattern recognition FPGA FPGA Image recognition Reconhecimento de imagem Reconhecimento embarcado de padrões Redes neurais Sistema-em-um-chip System-on-chip Redes Neurais Convolucionais têm sido utilizadas com sucesso para reconhecimento de padrões em imagens. Porém, o seu alto custo computacional e a grande quantidade de parâmetros envolvidos dificultam a execução em tempo real deste tipo de rede neural artificial em aplicações embarcadas, onde o poder de processamento e a capacidade de armazenamento de dados são restritos. Este trabalho estudou e desenvolveu um método para execução em tempo real em FPGAs de uma Rede Neural Convolucional treinada, aproveitando o poder de processamento paralelo deste tipo de dispositivo. O foco deste trabalho consistiu na execução das camadas convolucionais, pois estas camadas podem contribuir com até 99% da carga computacional de toda a rede. Nos experimentos, um dispositivo FPGA foi utilizado conjugado com um processador ARM dual-core em um mesmo substrato de silício. Apenas o dispositivo FPGA foi utilizado para executar as camadas convolucionais da Rede Neural Convolucional AlexNet. O método estudado neste trabalho foca na distribuição eficiente dos recursos do FPGA por meio do balanceamento do pipeline formado pelas camadas convolucionais, uso de buffers para redução e reutilização de memória para armazenamento dos dados intermediários (gerados e consumidos pelas camadas convolucionais) e uso de precisão numérica de 8 bits para armazenamento dos kernels e aumento da vazão de leitura dos mesmos. Com o método desenvolvido, foi possível executar todas as cinco camadas convolucionais da AlexNet em 3,9 ms, com a frequência máxima de operação de 76,9 MHz. Também foi possível armazenar todos os parâmetros das camadas convolucionais na memória interna do FPGA, eliminando possíveis gargalos de acesso à memória externa. Convolutional Neural Networks have been used successfully for pattern recognition in images. However, their high computational cost and the large number of parameters involved make it difficult to perform this type of artificial neural network in real time in embedded applications, where the processing power and the data storage capacity are restricted. This work studied and developed methods for real-time execution in FPGAs of a trained convolutional neural network, taking advantage of the parallel processing power of this type of device. The focus of this work was the execution of convolutional layers, since these layers can contribute up to 99% of the computational load of the entire network. In the experiments, an FPGA device was used in conjunction with a dual-core ARM processor on the same silicon substrate. The FPGA was used to perform convolutional layers of the AlexNet Convolutional Neural Network. The methods studied in this work focus on the efficient distribution of the FPGA resources through the balancing of the pipeline formed by the convolutional layers, the use of buffers for the reduction and reuse of memory for the storage of intermediate data (generated and consumed by the convolutional layers) and 8 bits for storage of the kernels and increase of the flow of reading of them. With the developed methods, it was possible to execute all five AlexNet convolutional layers in 3.9 ms with the maximum operating frequency of 76.9 MHz. It was also possible to store all the parameters of the convolutional layers in the internal memory of the FPGA, eliminating possible external access memory bottlenecks. Biblioteca Digitais de Teses e Dissertações da USP Hernandez, Emílio Del Moral 2019-04-26 Dissertação de Mestrado application/pdf http://www.teses.usp.br/teses/disponiveis/3/3140/tde-14082019-110912/ pt Liberar o conteúdo para acesso público. |
collection |
NDLTD |
language |
pt |
format |
Others
|
sources |
NDLTD |
topic |
AlexNet AlexNet Convolutional neural networks Embedded pattern recognition FPGA FPGA Image recognition Reconhecimento de imagem Reconhecimento embarcado de padrões Redes neurais Sistema-em-um-chip System-on-chip |
spellingShingle |
AlexNet AlexNet Convolutional neural networks Embedded pattern recognition FPGA FPGA Image recognition Reconhecimento de imagem Reconhecimento embarcado de padrões Redes neurais Sistema-em-um-chip System-on-chip Sousa, Mark Cappello Ferreira de Método para execução de redes neurais convolucionais em FPGA. |
description |
Redes Neurais Convolucionais têm sido utilizadas com sucesso para reconhecimento de padrões em imagens. Porém, o seu alto custo computacional e a grande quantidade de parâmetros envolvidos dificultam a execução em tempo real deste tipo de rede neural artificial em aplicações embarcadas, onde o poder de processamento e a capacidade de armazenamento de dados são restritos. Este trabalho estudou e desenvolveu um método para execução em tempo real em FPGAs de uma Rede Neural Convolucional treinada, aproveitando o poder de processamento paralelo deste tipo de dispositivo. O foco deste trabalho consistiu na execução das camadas convolucionais, pois estas camadas podem contribuir com até 99% da carga computacional de toda a rede. Nos experimentos, um dispositivo FPGA foi utilizado conjugado com um processador ARM dual-core em um mesmo substrato de silício. Apenas o dispositivo FPGA foi utilizado para executar as camadas convolucionais da Rede Neural Convolucional AlexNet. O método estudado neste trabalho foca na distribuição eficiente dos recursos do FPGA por meio do balanceamento do pipeline formado pelas camadas convolucionais, uso de buffers para redução e reutilização de memória para armazenamento dos dados intermediários (gerados e consumidos pelas camadas convolucionais) e uso de precisão numérica de 8 bits para armazenamento dos kernels e aumento da vazão de leitura dos mesmos. Com o método desenvolvido, foi possível executar todas as cinco camadas convolucionais da AlexNet em 3,9 ms, com a frequência máxima de operação de 76,9 MHz. Também foi possível armazenar todos os parâmetros das camadas convolucionais na memória interna do FPGA, eliminando possíveis gargalos de acesso à memória externa. === Convolutional Neural Networks have been used successfully for pattern recognition in images. However, their high computational cost and the large number of parameters involved make it difficult to perform this type of artificial neural network in real time in embedded applications, where the processing power and the data storage capacity are restricted. This work studied and developed methods for real-time execution in FPGAs of a trained convolutional neural network, taking advantage of the parallel processing power of this type of device. The focus of this work was the execution of convolutional layers, since these layers can contribute up to 99% of the computational load of the entire network. In the experiments, an FPGA device was used in conjunction with a dual-core ARM processor on the same silicon substrate. The FPGA was used to perform convolutional layers of the AlexNet Convolutional Neural Network. The methods studied in this work focus on the efficient distribution of the FPGA resources through the balancing of the pipeline formed by the convolutional layers, the use of buffers for the reduction and reuse of memory for the storage of intermediate data (generated and consumed by the convolutional layers) and 8 bits for storage of the kernels and increase of the flow of reading of them. With the developed methods, it was possible to execute all five AlexNet convolutional layers in 3.9 ms with the maximum operating frequency of 76.9 MHz. It was also possible to store all the parameters of the convolutional layers in the internal memory of the FPGA, eliminating possible external access memory bottlenecks. |
author2 |
Hernandez, Emílio Del Moral |
author_facet |
Hernandez, Emílio Del Moral Sousa, Mark Cappello Ferreira de |
author |
Sousa, Mark Cappello Ferreira de |
author_sort |
Sousa, Mark Cappello Ferreira de |
title |
Método para execução de redes neurais convolucionais em FPGA. |
title_short |
Método para execução de redes neurais convolucionais em FPGA. |
title_full |
Método para execução de redes neurais convolucionais em FPGA. |
title_fullStr |
Método para execução de redes neurais convolucionais em FPGA. |
title_full_unstemmed |
Método para execução de redes neurais convolucionais em FPGA. |
title_sort |
método para execução de redes neurais convolucionais em fpga. |
publisher |
Biblioteca Digitais de Teses e Dissertações da USP |
publishDate |
2019 |
url |
http://www.teses.usp.br/teses/disponiveis/3/3140/tde-14082019-110912/ |
work_keys_str_mv |
AT sousamarkcappelloferreirade metodoparaexecucaoderedesneuraisconvolucionaisemfpga AT sousamarkcappelloferreirade amethodforexecutionofconvolutionalneuralnetworksinfpga |
_version_ |
1719236767474778112 |