Named Entity Recognition för Klassificering av Rubriker i Fakturor

Fakturor är en viktig källa av information för företag. Två exempel på viktiga fält i en faktura kan vara, hur mycket pengar som ska betalas och faktura id. På grund av olika format och innehåll i fakturor som skiljer sig åt är extraktionen av information från dessa fakturor ofta en manuell process...

Full description

Bibliographic Details
Main Authors: Karlsson, Ludvig, Gyllström, Benjamin
Format: Others
Language:Swedish
Published: 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:hb:diva-26863
id ndltd-UPSALLA1-oai-DiVA.org-hb-26863
record_format oai_dc
collection NDLTD
language Swedish
format Others
sources NDLTD
topic Named Entity Recognition
Machine Learning
Invoice
Natural Language Processing
Header.
Named Entity Recognition
Maskininlärning
Faktura
Naturlig Språkbehandling
Rubrik.
Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Named Entity Recognition
Machine Learning
Invoice
Natural Language Processing
Header.
Named Entity Recognition
Maskininlärning
Faktura
Naturlig Språkbehandling
Rubrik.
Computer and Information Sciences
Data- och informationsvetenskap
Karlsson, Ludvig
Gyllström, Benjamin
Named Entity Recognition för Klassificering av Rubriker i Fakturor
description Fakturor är en viktig källa av information för företag. Två exempel på viktiga fält i en faktura kan vara, hur mycket pengar som ska betalas och faktura id. På grund av olika format och innehåll i fakturor som skiljer sig åt är extraktionen av information från dessa fakturor ofta en manuell process som kräver mycket tid. För att kunna spara viktig information från semi-strukturerade dokument som fakturor så måste vissa företag lägga ner mycket manuellt arbete. Detta arbete inkluderar att behöva förstå fakturan och därefter veta vilket innehåll som är av intresse för företaget. Detta arbete kan ta mycket tid och därför hade en automatisering av denna process varit av stort intresse. I denna forskningen används named entity recognition för att lösa problemet. De frågor som forskningen besvarar är: Hur effektiv named entity recognition är för klassificering av rubriker i fakturor, samt hur mycket effektiviteten kan öka vid komplettering av ytterligare komponenter. Named entity recognition används för att kategorisera entiteter som i detta fallet är rubriker för fält i fakturor. Modellen som skapas ska avgöra om rubriker i fakturan kan kategoriseras under någon av kategorierna: Invoice number, invoice date, due date, customer number, total amount, vat code, vat amount eller currency. Forskningen försöker endast göra en proof of concept för att se om denna algoritm kan användas för att minska tiden av manuellt arbete. Produktionsmodellen som skapas evalueras med måttet f1-score. Den får med denna metod resultatet 79 av 100. Detta resultatet antyder på att named entity recognition kan användas i ett verkligt scenario för att identifiera rubriker av intresse i en faktura. Men för att få så bra resultat som möjligt så bör modellen kombineras med en lösning som identifierar fält med hjälp av dess data. === Invoices are an important source of information for businesses. Two examples of important fields in an invoice could be the amount of money to be paid and the invoice Id. Due to the different formats and content of invoices, the extraction of information from these is often a manual and time consuming process. In order to save important information from semi-structured documents such as invoices, some companies have to put in a lot of manual work. This work includes understanding the invoice and then knowing what content is of interest to the company. This work can take a lot of time and therefore an automation of this process would be of great interest. In this research named entity recognition is used to solve the mentioned problem. The topics for this research are: How effective named entity recognition is for classification of headers in invoices, as well as how much the efficiency can be improved by complementing with further components. Named entity recognition is used to categorize entities. In this case the entities are the headings of the invoice. The model that is created must determine whether headings in the invoice can be categorized under one of the following categories: Invoice number, invoice date, due date, customer number, total amount, vat code, vat amount or currency. This research tries to make a proof of concept to discover if this algorithm can be used to reduce the time spent on manual work. The production model that is created is evaluated with the f1-score measurement. With this method, it gets a result of 79 out of 100. This result indicates that named entity recognition can be used by companies in real-world scenarios to identify headings in invoices. But to get the best results possible, the model should also be combined with a solution that identifies fields using its corresponding data. 
author Karlsson, Ludvig
Gyllström, Benjamin
author_facet Karlsson, Ludvig
Gyllström, Benjamin
author_sort Karlsson, Ludvig
title Named Entity Recognition för Klassificering av Rubriker i Fakturor
title_short Named Entity Recognition för Klassificering av Rubriker i Fakturor
title_full Named Entity Recognition för Klassificering av Rubriker i Fakturor
title_fullStr Named Entity Recognition för Klassificering av Rubriker i Fakturor
title_full_unstemmed Named Entity Recognition för Klassificering av Rubriker i Fakturor
title_sort named entity recognition för klassificering av rubriker i fakturor
publishDate 2021
url http://urn.kb.se/resolve?urn=urn:nbn:se:hb:diva-26863
work_keys_str_mv AT karlssonludvig namedentityrecognitionforklassificeringavrubrikerifakturor
AT gyllstrombenjamin namedentityrecognitionforklassificeringavrubrikerifakturor
AT karlssonludvig classificationofinvoiceheadersusingnamedentityrecognition
AT gyllstrombenjamin classificationofinvoiceheadersusingnamedentityrecognition
_version_ 1719493181395959808
spelling ndltd-UPSALLA1-oai-DiVA.org-hb-268632021-11-10T05:42:36ZNamed Entity Recognition för Klassificering av Rubriker i FakturorsweClassification of Invoice Headers using Named Entity RecognitionKarlsson, LudvigGyllström, Benjamin2021Named Entity RecognitionMachine LearningInvoiceNatural Language ProcessingHeader.Named Entity RecognitionMaskininlärningFakturaNaturlig SpråkbehandlingRubrik.Computer and Information SciencesData- och informationsvetenskapFakturor är en viktig källa av information för företag. Två exempel på viktiga fält i en faktura kan vara, hur mycket pengar som ska betalas och faktura id. På grund av olika format och innehåll i fakturor som skiljer sig åt är extraktionen av information från dessa fakturor ofta en manuell process som kräver mycket tid. För att kunna spara viktig information från semi-strukturerade dokument som fakturor så måste vissa företag lägga ner mycket manuellt arbete. Detta arbete inkluderar att behöva förstå fakturan och därefter veta vilket innehåll som är av intresse för företaget. Detta arbete kan ta mycket tid och därför hade en automatisering av denna process varit av stort intresse. I denna forskningen används named entity recognition för att lösa problemet. De frågor som forskningen besvarar är: Hur effektiv named entity recognition är för klassificering av rubriker i fakturor, samt hur mycket effektiviteten kan öka vid komplettering av ytterligare komponenter. Named entity recognition används för att kategorisera entiteter som i detta fallet är rubriker för fält i fakturor. Modellen som skapas ska avgöra om rubriker i fakturan kan kategoriseras under någon av kategorierna: Invoice number, invoice date, due date, customer number, total amount, vat code, vat amount eller currency. Forskningen försöker endast göra en proof of concept för att se om denna algoritm kan användas för att minska tiden av manuellt arbete. Produktionsmodellen som skapas evalueras med måttet f1-score. Den får med denna metod resultatet 79 av 100. Detta resultatet antyder på att named entity recognition kan användas i ett verkligt scenario för att identifiera rubriker av intresse i en faktura. Men för att få så bra resultat som möjligt så bör modellen kombineras med en lösning som identifierar fält med hjälp av dess data. Invoices are an important source of information for businesses. Two examples of important fields in an invoice could be the amount of money to be paid and the invoice Id. Due to the different formats and content of invoices, the extraction of information from these is often a manual and time consuming process. In order to save important information from semi-structured documents such as invoices, some companies have to put in a lot of manual work. This work includes understanding the invoice and then knowing what content is of interest to the company. This work can take a lot of time and therefore an automation of this process would be of great interest. In this research named entity recognition is used to solve the mentioned problem. The topics for this research are: How effective named entity recognition is for classification of headers in invoices, as well as how much the efficiency can be improved by complementing with further components. Named entity recognition is used to categorize entities. In this case the entities are the headings of the invoice. The model that is created must determine whether headings in the invoice can be categorized under one of the following categories: Invoice number, invoice date, due date, customer number, total amount, vat code, vat amount or currency. This research tries to make a proof of concept to discover if this algorithm can be used to reduce the time spent on manual work. The production model that is created is evaluated with the f1-score measurement. With this method, it gets a result of 79 out of 100. This result indicates that named entity recognition can be used by companies in real-world scenarios to identify headings in invoices. But to get the best results possible, the model should also be combined with a solution that identifies fields using its corresponding data.  Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:hb:diva-26863application/pdfinfo:eu-repo/semantics/openAccess