OCR algoritmers noggrannhet och snabbhet vid identifieringen av text på olika typer av bakgrund : En jämförelse mellan OCR - algoritmerna Tesseract och Google ML-Kit

SyfteOCR, optical character recognition, algoritmer kan implementeras på olika sätt, de påverkar även resultatet både beroende på vilken implementation som används och vilket dataset som det används på. Därför är det viktigt att testa de olika OCR algoritmerna på just det dataset som är tänkt att an...

Full description

Bibliographic Details
Main Author: Sahiti, Ylli
Format: Others
Language:Swedish
Published: Jönköping University, JTH, Avdelningen för datateknik och informatik 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:hj:diva-53789
id ndltd-UPSALLA1-oai-DiVA.org-hj-53789
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-hj-537892021-06-29T05:31:02ZOCR algoritmers noggrannhet och snabbhet vid identifieringen av text på olika typer av bakgrund : En jämförelse mellan OCR - algoritmerna Tesseract och Google ML-KitsweThe accuracy and speed of OCR algorithms in identifying text on different types of backgroundsSahiti, YlliJönköping University, JTH, Avdelningen för datateknik och informatik2021Other Engineering and TechnologiesAnnan teknikSyfteOCR, optical character recognition, algoritmer kan implementeras på olika sätt, de påverkar även resultatet både beroende på vilken implementation som används och vilket dataset som det används på. Därför är det viktigt att testa de olika OCR algoritmerna på just det dataset som är tänkt att användas för att få ett förutsägbart resultat. Metod60 bilder är tagna på innehållsförteckningar tryckta på svenska livsmedelsprodukter med tre olika bakgrundsytor, aluminium, konvexa ytor och mjukplast. Två OCR algoritmer, ML Kit och Tesseract, har jämförts med avseende på precision och hastighet i syfte att hitta svårigheter för de respektive algoritmerna. ResultatBåda undersökta OCR algoritmerna hade störst svårighet att identifiera tecken i bilder med reflektion. ML Kit hade färre problem med lågupplösta bilder, Tesseract hade anmärkningsvärt större problem med lågupplösta bilder. För ändamålet som studien avser så är ML Kit det bästa valet. BegränsningarEnbart två OCR algoritmer jämförs i studien. Livsmedelsprodukter med tre olika bakgrundsytor har studerats, aluminium, konvex yta och mjukplast. Endast precision samt hastighet har jämförts. Precisionen har jämförts i antalet rätt ord samt hur nära en prediktering är från att vara helt rätt (Levenshtein algoritm). Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:hj:diva-53789application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language Swedish
format Others
sources NDLTD
topic Other Engineering and Technologies
Annan teknik
spellingShingle Other Engineering and Technologies
Annan teknik
Sahiti, Ylli
OCR algoritmers noggrannhet och snabbhet vid identifieringen av text på olika typer av bakgrund : En jämförelse mellan OCR - algoritmerna Tesseract och Google ML-Kit
description SyfteOCR, optical character recognition, algoritmer kan implementeras på olika sätt, de påverkar även resultatet både beroende på vilken implementation som används och vilket dataset som det används på. Därför är det viktigt att testa de olika OCR algoritmerna på just det dataset som är tänkt att användas för att få ett förutsägbart resultat. Metod60 bilder är tagna på innehållsförteckningar tryckta på svenska livsmedelsprodukter med tre olika bakgrundsytor, aluminium, konvexa ytor och mjukplast. Två OCR algoritmer, ML Kit och Tesseract, har jämförts med avseende på precision och hastighet i syfte att hitta svårigheter för de respektive algoritmerna. ResultatBåda undersökta OCR algoritmerna hade störst svårighet att identifiera tecken i bilder med reflektion. ML Kit hade färre problem med lågupplösta bilder, Tesseract hade anmärkningsvärt större problem med lågupplösta bilder. För ändamålet som studien avser så är ML Kit det bästa valet. BegränsningarEnbart två OCR algoritmer jämförs i studien. Livsmedelsprodukter med tre olika bakgrundsytor har studerats, aluminium, konvex yta och mjukplast. Endast precision samt hastighet har jämförts. Precisionen har jämförts i antalet rätt ord samt hur nära en prediktering är från att vara helt rätt (Levenshtein algoritm).
author Sahiti, Ylli
author_facet Sahiti, Ylli
author_sort Sahiti, Ylli
title OCR algoritmers noggrannhet och snabbhet vid identifieringen av text på olika typer av bakgrund : En jämförelse mellan OCR - algoritmerna Tesseract och Google ML-Kit
title_short OCR algoritmers noggrannhet och snabbhet vid identifieringen av text på olika typer av bakgrund : En jämförelse mellan OCR - algoritmerna Tesseract och Google ML-Kit
title_full OCR algoritmers noggrannhet och snabbhet vid identifieringen av text på olika typer av bakgrund : En jämförelse mellan OCR - algoritmerna Tesseract och Google ML-Kit
title_fullStr OCR algoritmers noggrannhet och snabbhet vid identifieringen av text på olika typer av bakgrund : En jämförelse mellan OCR - algoritmerna Tesseract och Google ML-Kit
title_full_unstemmed OCR algoritmers noggrannhet och snabbhet vid identifieringen av text på olika typer av bakgrund : En jämförelse mellan OCR - algoritmerna Tesseract och Google ML-Kit
title_sort ocr algoritmers noggrannhet och snabbhet vid identifieringen av text på olika typer av bakgrund : en jämförelse mellan ocr - algoritmerna tesseract och google ml-kit
publisher Jönköping University, JTH, Avdelningen för datateknik och informatik
publishDate 2021
url http://urn.kb.se/resolve?urn=urn:nbn:se:hj:diva-53789
work_keys_str_mv AT sahitiylli ocralgoritmersnoggrannhetochsnabbhetvididentifieringenavtextpaolikatyperavbakgrundenjamforelsemellanocralgoritmernatesseractochgooglemlkit
AT sahitiylli theaccuracyandspeedofocralgorithmsinidentifyingtextondifferenttypesofbackgrounds
_version_ 1719414497267941376