Dealing with unstructured data : A study about information quality and measurement

Many organizations have realized that the growing amount of unstructured text may contain information that can be used for different purposes, such as making decisions. Organizations can by using so-called text mining tools, extract information from text documents. For example within military and in...

Full description

Bibliographic Details
Main Author: Vikholm, Oskar
Format: Others
Language:English
Published: Uppsala universitet, Institutionen för informatik och media 2015
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-255214
id ndltd-UPSALLA1-oai-DiVA.org-uu-255214
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-uu-2552142015-06-30T04:53:20ZDealing with unstructured data : A study about information quality and measurementengHantera ostrukturerad data : En studie om informationskvalitet och mätningVikholm, OskarUppsala universitet, Institutionen för informatik och media2015Data qualityentity extractioninformation extractioninformation qualityinformation quality measurementmeasurementrelationship extractiontext miningDatakvalitetentitetsextraheringinformationsextraheringinformationskvalitetmätning av informationskvalitetmätningrelationsextraheringtext miningMany organizations have realized that the growing amount of unstructured text may contain information that can be used for different purposes, such as making decisions. Organizations can by using so-called text mining tools, extract information from text documents. For example within military and intelligence activities it is important to go through reports and look for entities such as names of people, events, and the relationships in-between them when criminal or other interesting activities are being investigated and mapped. This study explores how information quality can be measured and what challenges it involves. It is done on the basis of Wang and Strong (1996) theory about how information quality can be measured. The theory is tested and discussed from empirical material that contains interviews from two case organizations. The study observed two important aspects to take into consideration when measuring information quality: context dependency and source criticism. Context dependency means that the context in which information quality should be measured in must be defined based on the consumer’s needs. Source criticism implies that it is important to take the original source into consideration, and how reliable it is. Further, data quality and information quality is often used interchangeably, which means that organizations needs to decide what they really want to measure. One of the major challenges in developing software for entity extraction is that the system needs to understand the structure of natural language, which is very complicated.  Många organisationer har insett att den växande mängden ostrukturerad text kan innehålla information som kan användas till flera ändamål såsom beslutsfattande. Genom att använda så kallade text-mining verktyg kan organisationer extrahera information från textdokument. Inom till exempel militär verksamhet och underrättelsetjänst är det viktigt att kunna gå igenom rapporter och leta efter exempelvis namn på personer, händelser och relationerna mellan dessa när brottslig eller annan intressant verksamhet undersöks och kartläggs. I studien undersöks hur informationskvalitet kan mätas och vilka utmaningar det medför. Det görs med utgångspunkt i Wang och Strongs (1996) teori om hur informationskvalité kan mätas. Teorin testas och diskuteras utifrån ett empiriskt material som består av intervjuer från två fall-organisationer. Studien uppmärksammar två viktiga aspekter att ta hänsyn till för att mäta informationskvalitét; kontextberoende och källkritik. Kontextberoendet innebär att det sammanhang inom vilket informationskvalitét mäts måste definieras utifrån konsumentens behov. Källkritik innebär att det är viktigt att ta hänsyn informationens ursprungliga källa och hur trovärdig den är. Vidare är det viktigt att organisationer bestämmer om det är data eller informationskvalitét som ska mätas eftersom dessa två begrepp ofta blandas ihop. En av de stora utmaningarna med att utveckla mjukvaror för entitetsextrahering är att systemen ska förstå uppbyggnaden av det naturliga språket, vilket är väldigt komplicerat. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-255214application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Data quality
entity extraction
information extraction
information quality
information quality measurement
measurement
relationship extraction
text mining
Datakvalitet
entitetsextrahering
informationsextrahering
informationskvalitet
mätning av informationskvalitet
mätning
relationsextrahering
text mining
spellingShingle Data quality
entity extraction
information extraction
information quality
information quality measurement
measurement
relationship extraction
text mining
Datakvalitet
entitetsextrahering
informationsextrahering
informationskvalitet
mätning av informationskvalitet
mätning
relationsextrahering
text mining
Vikholm, Oskar
Dealing with unstructured data : A study about information quality and measurement
description Many organizations have realized that the growing amount of unstructured text may contain information that can be used for different purposes, such as making decisions. Organizations can by using so-called text mining tools, extract information from text documents. For example within military and intelligence activities it is important to go through reports and look for entities such as names of people, events, and the relationships in-between them when criminal or other interesting activities are being investigated and mapped. This study explores how information quality can be measured and what challenges it involves. It is done on the basis of Wang and Strong (1996) theory about how information quality can be measured. The theory is tested and discussed from empirical material that contains interviews from two case organizations. The study observed two important aspects to take into consideration when measuring information quality: context dependency and source criticism. Context dependency means that the context in which information quality should be measured in must be defined based on the consumer’s needs. Source criticism implies that it is important to take the original source into consideration, and how reliable it is. Further, data quality and information quality is often used interchangeably, which means that organizations needs to decide what they really want to measure. One of the major challenges in developing software for entity extraction is that the system needs to understand the structure of natural language, which is very complicated.  === Många organisationer har insett att den växande mängden ostrukturerad text kan innehålla information som kan användas till flera ändamål såsom beslutsfattande. Genom att använda så kallade text-mining verktyg kan organisationer extrahera information från textdokument. Inom till exempel militär verksamhet och underrättelsetjänst är det viktigt att kunna gå igenom rapporter och leta efter exempelvis namn på personer, händelser och relationerna mellan dessa när brottslig eller annan intressant verksamhet undersöks och kartläggs. I studien undersöks hur informationskvalitet kan mätas och vilka utmaningar det medför. Det görs med utgångspunkt i Wang och Strongs (1996) teori om hur informationskvalité kan mätas. Teorin testas och diskuteras utifrån ett empiriskt material som består av intervjuer från två fall-organisationer. Studien uppmärksammar två viktiga aspekter att ta hänsyn till för att mäta informationskvalitét; kontextberoende och källkritik. Kontextberoendet innebär att det sammanhang inom vilket informationskvalitét mäts måste definieras utifrån konsumentens behov. Källkritik innebär att det är viktigt att ta hänsyn informationens ursprungliga källa och hur trovärdig den är. Vidare är det viktigt att organisationer bestämmer om det är data eller informationskvalitét som ska mätas eftersom dessa två begrepp ofta blandas ihop. En av de stora utmaningarna med att utveckla mjukvaror för entitetsextrahering är att systemen ska förstå uppbyggnaden av det naturliga språket, vilket är väldigt komplicerat.
author Vikholm, Oskar
author_facet Vikholm, Oskar
author_sort Vikholm, Oskar
title Dealing with unstructured data : A study about information quality and measurement
title_short Dealing with unstructured data : A study about information quality and measurement
title_full Dealing with unstructured data : A study about information quality and measurement
title_fullStr Dealing with unstructured data : A study about information quality and measurement
title_full_unstemmed Dealing with unstructured data : A study about information quality and measurement
title_sort dealing with unstructured data : a study about information quality and measurement
publisher Uppsala universitet, Institutionen för informatik och media
publishDate 2015
url http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-255214
work_keys_str_mv AT vikholmoskar dealingwithunstructureddataastudyaboutinformationqualityandmeasurement
AT vikholmoskar hanteraostruktureraddataenstudieominformationskvalitetochmatning
_version_ 1716806806907387904