Indeksering av heterogene XML dokumenter ved hjelp av datatyper fra XML Schema

Denne masteroppgaven foreslår og undersøker en metode for hvordan informasjons-gjenfinning i heterogene XML dokumenter kan gjøres ved å differensiere indekserings-prosessen ut i fra datatyper angitt i tilhørende XML Schema. Målet er å tilby bedre søkemuligheter for informasjonssøkere ved å muliggjør...

Full description

Bibliographic Details
Main Author:	Myklebust, Trond Aksel
Format:	Others
Language:	Norwegian
Published:	Norges teknisk-naturvitenskapelige universitet, Institutt for datateknikk og informasjonsvitenskap 2006
Subjects:	ntnudaim MIT informatikk Informasjonsforvaltning
Online Access:	http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10772

id	ndltd-UPSALLA1-oai-DiVA.org-ntnu-10772
record_format	oai_dc
spelling	ndltd-UPSALLA1-oai-DiVA.org-ntnu-107722013-01-08T13:27:04ZIndeksering av heterogene XML dokumenter ved hjelp av datatyper fra XML SchemanorIndexing heterogeneous XML Documents using Data Types from XML SchemaMyklebust, Trond AkselNorges teknisk-naturvitenskapelige universitet, Institutt for datateknikk og informasjonsvitenskapInstitutt for datateknikk og informasjonsvitenskap2006ntnudaimMIT informatikkInformasjonsforvaltningDenne masteroppgaven foreslår og undersøker en metode for hvordan informasjons-gjenfinning i heterogene XML dokumenter kan gjøres ved å differensiere indekserings-prosessen ut i fra datatyper angitt i tilhørende XML Schema. Målet er å tilby bedre søkemuligheter for informasjonssøkere ved å muliggjøre spørringer som er uavhengige av elementnavn i en samling av forskjellig strukturerte dokumenter. Informasjonssøking foregår i dag primært i ustrukturerte dokumenter der betydningen av innholdet ikke er direkte kjent. Dette krever kompliserte og unøyaktige tolkninger av innholdet for å kunne trekke ut hva som er hva og hvordan dokumentene best mulig kan indekseres. En stadig økende mengde produsert informasjon og metadata gjør dette til en krevende prosess å utføre manuelt. Det trengs derfor nye metoder der innholdet blir beskrevet ved produksjonstidspunktet slik at en datamaskin automatisk kan forstå dokumentenes innhold. Semistrukturerte dokumentformater som XML inneholder støtte for spesifisering av slik informasjon og muliggjør differensiert indeksering av innholdet basert på annotert informasjon. Dette gjør mer detaljerte spørringer enn tidligere mulig men stiller nye krav til de metoder som brukes for å indeksere dokumentene. En av de største utfordringene er å lokalisere og tolke den informasjonen som øker kvaliteten på resultatet av et søk uten at noe informasjon forsvinner. Informasjonen eksisterer ikke i en flat tekstfil, men inneholder distinkte datatyper som må behandles individuelt. Dette krever nye metoder som muliggjør indeksering basert på denne informasjonen. I denne oppgaven presenteres et forslag til et system som indekserer XML dokumenter ved å tolke tilhørende XML Schema inneholdende annotasjoner av datatype og dataformat. Ved å bruke for hvert element denne informasjonen er ønsket at indekseringen gjøres ved å automatisk normalisere elementinnholdet ut i fra angitt format og datatype. Søk kan dermed optimaliseres basert på datatype uavhengig av om originalt format og dokumentstruktur er forskjellig. Testing av systemet er gjennomført for å finne ut hvordan eksisterende XML dokumenter støtter denne typen indeksering og eventuelle løsninger for hvordan det kan gjøres bedre. Utkommet fra arbeidet på oppgaven og hovedkonklusjonen er at den foreslåtte metoden fungerer godt som løsning på problemstillingen, gitt at de eksterne data som brukes er strukturert slik at datatyper kan defineres for innholdet. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10772Local ntnudaim:1379application/pdfinfo:eu-repo/semantics/openAccess
collection	NDLTD
language	Norwegian
format	Others
sources	NDLTD
topic	ntnudaim MIT informatikk Informasjonsforvaltning
spellingShingle	ntnudaim MIT informatikk Informasjonsforvaltning Myklebust, Trond Aksel Indeksering av heterogene XML dokumenter ved hjelp av datatyper fra XML Schema
description	Denne masteroppgaven foreslår og undersøker en metode for hvordan informasjons-gjenfinning i heterogene XML dokumenter kan gjøres ved å differensiere indekserings-prosessen ut i fra datatyper angitt i tilhørende XML Schema. Målet er å tilby bedre søkemuligheter for informasjonssøkere ved å muliggjøre spørringer som er uavhengige av elementnavn i en samling av forskjellig strukturerte dokumenter. Informasjonssøking foregår i dag primært i ustrukturerte dokumenter der betydningen av innholdet ikke er direkte kjent. Dette krever kompliserte og unøyaktige tolkninger av innholdet for å kunne trekke ut hva som er hva og hvordan dokumentene best mulig kan indekseres. En stadig økende mengde produsert informasjon og metadata gjør dette til en krevende prosess å utføre manuelt. Det trengs derfor nye metoder der innholdet blir beskrevet ved produksjonstidspunktet slik at en datamaskin automatisk kan forstå dokumentenes innhold. Semistrukturerte dokumentformater som XML inneholder støtte for spesifisering av slik informasjon og muliggjør differensiert indeksering av innholdet basert på annotert informasjon. Dette gjør mer detaljerte spørringer enn tidligere mulig men stiller nye krav til de metoder som brukes for å indeksere dokumentene. En av de største utfordringene er å lokalisere og tolke den informasjonen som øker kvaliteten på resultatet av et søk uten at noe informasjon forsvinner. Informasjonen eksisterer ikke i en flat tekstfil, men inneholder distinkte datatyper som må behandles individuelt. Dette krever nye metoder som muliggjør indeksering basert på denne informasjonen. I denne oppgaven presenteres et forslag til et system som indekserer XML dokumenter ved å tolke tilhørende XML Schema inneholdende annotasjoner av datatype og dataformat. Ved å bruke for hvert element denne informasjonen er ønsket at indekseringen gjøres ved å automatisk normalisere elementinnholdet ut i fra angitt format og datatype. Søk kan dermed optimaliseres basert på datatype uavhengig av om originalt format og dokumentstruktur er forskjellig. Testing av systemet er gjennomført for å finne ut hvordan eksisterende XML dokumenter støtter denne typen indeksering og eventuelle løsninger for hvordan det kan gjøres bedre. Utkommet fra arbeidet på oppgaven og hovedkonklusjonen er at den foreslåtte metoden fungerer godt som løsning på problemstillingen, gitt at de eksterne data som brukes er strukturert slik at datatyper kan defineres for innholdet.
author	Myklebust, Trond Aksel
author_facet	Myklebust, Trond Aksel
author_sort	Myklebust, Trond Aksel
title	Indeksering av heterogene XML dokumenter ved hjelp av datatyper fra XML Schema
title_short	Indeksering av heterogene XML dokumenter ved hjelp av datatyper fra XML Schema
title_full	Indeksering av heterogene XML dokumenter ved hjelp av datatyper fra XML Schema
title_fullStr	Indeksering av heterogene XML dokumenter ved hjelp av datatyper fra XML Schema
title_full_unstemmed	Indeksering av heterogene XML dokumenter ved hjelp av datatyper fra XML Schema
title_sort	indeksering av heterogene xml dokumenter ved hjelp av datatyper fra xml schema
publisher	Norges teknisk-naturvitenskapelige universitet, Institutt for datateknikk og informasjonsvitenskap
publishDate	2006
url	http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10772
work_keys_str_mv	AT myklebusttrondaksel indekseringavheterogenexmldokumentervedhjelpavdatatyperfraxmlschema AT myklebusttrondaksel indexingheterogeneousxmldocumentsusingdatatypesfromxmlschema
_version_	1716520457867362304

Indeksering av heterogene XML dokumenter ved hjelp av datatyper fra XML Schema

Similar Items