Algoritm för automatiserad generering av metadata

Sveriges Radio stores their data in large archives which makes it hard to retrieve specific information. The sheer size of the archives makes retrieving information about a specific event difficult and causes a big problem. To solve this problem a more consistent use of metadata is needed. This resu...

Full description

Bibliographic Details
Main Authors: Karlsson, Fredrik, Berg, Fredrik
Format: Others
Language:Swedish
Published: KTH, Skolan för teknik och hälsa (STH) 2015
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-168915
id ndltd-UPSALLA1-oai-DiVA.org-kth-168915
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1689152018-01-12T05:11:12ZAlgoritm för automatiserad generering av metadatasweKarlsson, FredrikBerg, FredrikKTH, Skolan för teknik och hälsa (STH)KTH, Data- och elektroteknik2015Metadatanyckelordtextutvinningnaturliga språkalgoritmer.Other Computer and Information ScienceAnnan data- och informationsvetenskapSveriges Radio stores their data in large archives which makes it hard to retrieve specific information. The sheer size of the archives makes retrieving information about a specific event difficult and causes a big problem. To solve this problem a more consistent use of metadata is needed. This resulted in an investigation about metadata and keyword genera-tion.The appointed task was to automatically generate keywords from transcribed radio shows. This included an investigation of which systems and algorithms that can be used to generate keywords, based on previous works. An application was also developed which suggests keywords based on a text to a user. This application was tested and compared to other al-ready existing software, as well as different methods/techniques based on both linguistic and statistic algorithms. The resulting analysis displayed that the developed application generated many accurate keywords, but also a large amount of keywords in general. The comparison also showed that the recall for the developed algorithm got better results than the already existing software, which in turn produced a better precision in their keywords. Sveriges Radio sparar sin data i stora arkiv vilket gör det svårt att hitta specifik information. På grund av denna storlek blir uppgiften att hitta specifik information om händelser ett stort problem. För att lösa problemet krävs en mer konsekvent användning av metadata, därför har en undersökning om metadata och nyckelordsgenerering gjorts.Arbetet gick ut på att utveckla en algoritm som automatisk kan generera nyckelord från transkriberade radioprogram. Det ingick också i arbetet att göra en undersökning av tidigare arbeten för att se vilka system och algoritmer som kan användas för att generera nyckelord. Dessutom utvecklades en applikation som generar färdiga nyckelord som förslag till en användare. Denna applikation jämfördes och utvärderades med redan existerande program. Metoderna som använts bygger på både lingvistiska och statistiska algoritmer. En analys av resultaten gjordes och visade att den utvecklade applikationen genererade många precisa nyckelord, men även till antalet stora mängder nyckelord. Jämförelsen med ett redan existe-rande program visade att täckningen var bättre för den utvecklade applikationen, samtidigt som precisionen var bättre för det redan existerande programmet. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-168915TRITA-STH ; 023application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language Swedish
format Others
sources NDLTD
topic Metadata
nyckelord
textutvinning
naturliga språk
algoritmer.
Other Computer and Information Science
Annan data- och informationsvetenskap
spellingShingle Metadata
nyckelord
textutvinning
naturliga språk
algoritmer.
Other Computer and Information Science
Annan data- och informationsvetenskap
Karlsson, Fredrik
Berg, Fredrik
Algoritm för automatiserad generering av metadata
description Sveriges Radio stores their data in large archives which makes it hard to retrieve specific information. The sheer size of the archives makes retrieving information about a specific event difficult and causes a big problem. To solve this problem a more consistent use of metadata is needed. This resulted in an investigation about metadata and keyword genera-tion.The appointed task was to automatically generate keywords from transcribed radio shows. This included an investigation of which systems and algorithms that can be used to generate keywords, based on previous works. An application was also developed which suggests keywords based on a text to a user. This application was tested and compared to other al-ready existing software, as well as different methods/techniques based on both linguistic and statistic algorithms. The resulting analysis displayed that the developed application generated many accurate keywords, but also a large amount of keywords in general. The comparison also showed that the recall for the developed algorithm got better results than the already existing software, which in turn produced a better precision in their keywords. === Sveriges Radio sparar sin data i stora arkiv vilket gör det svårt att hitta specifik information. På grund av denna storlek blir uppgiften att hitta specifik information om händelser ett stort problem. För att lösa problemet krävs en mer konsekvent användning av metadata, därför har en undersökning om metadata och nyckelordsgenerering gjorts.Arbetet gick ut på att utveckla en algoritm som automatisk kan generera nyckelord från transkriberade radioprogram. Det ingick också i arbetet att göra en undersökning av tidigare arbeten för att se vilka system och algoritmer som kan användas för att generera nyckelord. Dessutom utvecklades en applikation som generar färdiga nyckelord som förslag till en användare. Denna applikation jämfördes och utvärderades med redan existerande program. Metoderna som använts bygger på både lingvistiska och statistiska algoritmer. En analys av resultaten gjordes och visade att den utvecklade applikationen genererade många precisa nyckelord, men även till antalet stora mängder nyckelord. Jämförelsen med ett redan existe-rande program visade att täckningen var bättre för den utvecklade applikationen, samtidigt som precisionen var bättre för det redan existerande programmet.
author Karlsson, Fredrik
Berg, Fredrik
author_facet Karlsson, Fredrik
Berg, Fredrik
author_sort Karlsson, Fredrik
title Algoritm för automatiserad generering av metadata
title_short Algoritm för automatiserad generering av metadata
title_full Algoritm för automatiserad generering av metadata
title_fullStr Algoritm för automatiserad generering av metadata
title_full_unstemmed Algoritm för automatiserad generering av metadata
title_sort algoritm för automatiserad generering av metadata
publisher KTH, Skolan för teknik och hälsa (STH)
publishDate 2015
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-168915
work_keys_str_mv AT karlssonfredrik algoritmforautomatiseradgenereringavmetadata
AT bergfredrik algoritmforautomatiseradgenereringavmetadata
_version_ 1718605868657803264