Algoritm för automatiserad generering av metadata
Sveriges Radio stores their data in large archives which makes it hard to retrieve specific information. The sheer size of the archives makes retrieving information about a specific event difficult and causes a big problem. To solve this problem a more consistent use of metadata is needed. This resu...
Main Authors: | , |
---|---|
Format: | Others |
Language: | Swedish |
Published: |
KTH, Skolan för teknik och hälsa (STH)
2015
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-168915 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-168915 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-1689152018-01-12T05:11:12ZAlgoritm för automatiserad generering av metadatasweKarlsson, FredrikBerg, FredrikKTH, Skolan för teknik och hälsa (STH)KTH, Data- och elektroteknik2015Metadatanyckelordtextutvinningnaturliga språkalgoritmer.Other Computer and Information ScienceAnnan data- och informationsvetenskapSveriges Radio stores their data in large archives which makes it hard to retrieve specific information. The sheer size of the archives makes retrieving information about a specific event difficult and causes a big problem. To solve this problem a more consistent use of metadata is needed. This resulted in an investigation about metadata and keyword genera-tion.The appointed task was to automatically generate keywords from transcribed radio shows. This included an investigation of which systems and algorithms that can be used to generate keywords, based on previous works. An application was also developed which suggests keywords based on a text to a user. This application was tested and compared to other al-ready existing software, as well as different methods/techniques based on both linguistic and statistic algorithms. The resulting analysis displayed that the developed application generated many accurate keywords, but also a large amount of keywords in general. The comparison also showed that the recall for the developed algorithm got better results than the already existing software, which in turn produced a better precision in their keywords. Sveriges Radio sparar sin data i stora arkiv vilket gör det svårt att hitta specifik information. På grund av denna storlek blir uppgiften att hitta specifik information om händelser ett stort problem. För att lösa problemet krävs en mer konsekvent användning av metadata, därför har en undersökning om metadata och nyckelordsgenerering gjorts.Arbetet gick ut på att utveckla en algoritm som automatisk kan generera nyckelord från transkriberade radioprogram. Det ingick också i arbetet att göra en undersökning av tidigare arbeten för att se vilka system och algoritmer som kan användas för att generera nyckelord. Dessutom utvecklades en applikation som generar färdiga nyckelord som förslag till en användare. Denna applikation jämfördes och utvärderades med redan existerande program. Metoderna som använts bygger på både lingvistiska och statistiska algoritmer. En analys av resultaten gjordes och visade att den utvecklade applikationen genererade många precisa nyckelord, men även till antalet stora mängder nyckelord. Jämförelsen med ett redan existe-rande program visade att täckningen var bättre för den utvecklade applikationen, samtidigt som precisionen var bättre för det redan existerande programmet. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-168915TRITA-STH ; 023application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
Swedish |
format |
Others
|
sources |
NDLTD |
topic |
Metadata nyckelord textutvinning naturliga språk algoritmer. Other Computer and Information Science Annan data- och informationsvetenskap |
spellingShingle |
Metadata nyckelord textutvinning naturliga språk algoritmer. Other Computer and Information Science Annan data- och informationsvetenskap Karlsson, Fredrik Berg, Fredrik Algoritm för automatiserad generering av metadata |
description |
Sveriges Radio stores their data in large archives which makes it hard to retrieve specific information. The sheer size of the archives makes retrieving information about a specific event difficult and causes a big problem. To solve this problem a more consistent use of metadata is needed. This resulted in an investigation about metadata and keyword genera-tion.The appointed task was to automatically generate keywords from transcribed radio shows. This included an investigation of which systems and algorithms that can be used to generate keywords, based on previous works. An application was also developed which suggests keywords based on a text to a user. This application was tested and compared to other al-ready existing software, as well as different methods/techniques based on both linguistic and statistic algorithms. The resulting analysis displayed that the developed application generated many accurate keywords, but also a large amount of keywords in general. The comparison also showed that the recall for the developed algorithm got better results than the already existing software, which in turn produced a better precision in their keywords. === Sveriges Radio sparar sin data i stora arkiv vilket gör det svårt att hitta specifik information. På grund av denna storlek blir uppgiften att hitta specifik information om händelser ett stort problem. För att lösa problemet krävs en mer konsekvent användning av metadata, därför har en undersökning om metadata och nyckelordsgenerering gjorts.Arbetet gick ut på att utveckla en algoritm som automatisk kan generera nyckelord från transkriberade radioprogram. Det ingick också i arbetet att göra en undersökning av tidigare arbeten för att se vilka system och algoritmer som kan användas för att generera nyckelord. Dessutom utvecklades en applikation som generar färdiga nyckelord som förslag till en användare. Denna applikation jämfördes och utvärderades med redan existerande program. Metoderna som använts bygger på både lingvistiska och statistiska algoritmer. En analys av resultaten gjordes och visade att den utvecklade applikationen genererade många precisa nyckelord, men även till antalet stora mängder nyckelord. Jämförelsen med ett redan existe-rande program visade att täckningen var bättre för den utvecklade applikationen, samtidigt som precisionen var bättre för det redan existerande programmet. |
author |
Karlsson, Fredrik Berg, Fredrik |
author_facet |
Karlsson, Fredrik Berg, Fredrik |
author_sort |
Karlsson, Fredrik |
title |
Algoritm för automatiserad generering av metadata |
title_short |
Algoritm för automatiserad generering av metadata |
title_full |
Algoritm för automatiserad generering av metadata |
title_fullStr |
Algoritm för automatiserad generering av metadata |
title_full_unstemmed |
Algoritm för automatiserad generering av metadata |
title_sort |
algoritm för automatiserad generering av metadata |
publisher |
KTH, Skolan för teknik och hälsa (STH) |
publishDate |
2015 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-168915 |
work_keys_str_mv |
AT karlssonfredrik algoritmforautomatiseradgenereringavmetadata AT bergfredrik algoritmforautomatiseradgenereringavmetadata |
_version_ |
1718605868657803264 |