Extracting Information From PDF Invoices Using Deep Learning

Manually extracting information from invoices can be time-consuming, especially when managing large amounts of documents. Finding a way to automatically extract this information could help businesses save resources. This thesis investigates the information extraction of semi-structured data from PDF...

Full description

Bibliographic Details
Main Author: Leon, Diego
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-304475
Description
Summary:Manually extracting information from invoices can be time-consuming, especially when managing large amounts of documents. Finding a way to automatically extract this information could help businesses save resources. This thesis investigates the information extraction of semi-structured data from PDF invoices using deep learning methods and comparing them to a rule-based model built as a baseline for comparison. More specifically, an object detection approach based on the Faster R-CNN model is compared with a Natural Language Processing (NLP) approach based on BERT. These models were trained to extract 4 different fields, with a dataset consisting of 899 PDF invoices. These models were tested on how well they extracted each field, and their results were then compared. The NLP approach achieved the highest overall F1 score of 0.911 and attained the highest score in all fields except one. In second place came the rule-based approach, with an overall F1 score of 0.830. In last place came the object detection approach with an overall F1 score of 0.815. It is concluded that the NLP approach is best suited for the task of information extraction from PDF invoices. Because of the small dataset and Faster R-CNN requiring large amounts of data and long training, the object detection approach did not reach its full potential. However, further research is needed to prove if it could outperformthe NLP approach with those improvements.  === Manuell extrahering av information från fakturor kan vara tidskrävande, särskilt om det gäller stora mängder dokument. Att hitta ett sätt att automatiskt extrahera viktig information kan hjälpa företag att spara resurser. Denna avhandling undersöker informationsutvinning av semistrukturerad data från PDF-fakturor med djupinlärningsmetoder och jämför dem med en regelbaserad modell byggd som en basmetod för jämförelse. Mer specifikt jämförs en metod för objektdetektering baserad på Faster R-CNN modellen med en språkbehandlings-metod baserad på BERT. Dessa modeller tränades för att extrahera fyra olika fält, med ett dataset bestående av 899 PDF-fakturor. Modellerna testades på hur väl de extraherade varje fält. NLP-metoden uppnådde den högsta totala F1 resultatet på 0,911 och hade bäst poängen i alla fält utom ett. På andra plats kom den regelbaserade metoden med F1 resultatet 0,830. På sista plats kom objektdetekteringsmetoden med F1 resultatet 0,815. Som slutsats är NLP-metoden bäst lämpad för att extrahera information från PDF- fakturor. På grund av den lilla mängden data som användes så nådde inte objektdetekteringsmetoden sin fulla potential eftersom Faster R-CNN kräver stora mängder data och längre träning. Däremot krävs ytterligare forskning för att bevisa om den kan överträffa NLP-metoden med dessa förbättringar.