Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse

For å rangere dokumenter ved søking har det blitt investert store ressurser i å finne metoder som er effektive og gir gode resultater. Denne jobben blir mer komplisert og krevende i tråd med størrelsen på dokumentsamlingen man analyserer. Internett er en uoversiktlig samling dokumenter som vokser se...

Full description

Bibliographic Details
Main Author: Sandbakken, Glenn-Erik
Format: Others
Language:Norwegian
Published: Norges teknisk-naturvitenskapelige universitet, Institutt for datateknikk og informasjonsvitenskap 2005
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10221
id ndltd-UPSALLA1-oai-DiVA.org-ntnu-10221
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-ntnu-102212013-01-08T13:26:53ZLenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalysenorLink analysis Methods and Ranking of Document in Domains with few links : Ranking documents by using link analysis methods in domains with few links, and without using text relevance analysisSandbakken, Glenn-ErikNorges teknisk-naturvitenskapelige universitet, Institutt for datateknikk og informasjonsvitenskapInstitutt for datateknikk og informasjonsvitenskap2005ntnudaimSIF2 datateknikkProgram- og informasjonssystemerFor å rangere dokumenter ved søking har det blitt investert store ressurser i å finne metoder som er effektive og gir gode resultater. Denne jobben blir mer komplisert og krevende i tråd med størrelsen på dokumentsamlingen man analyserer. Internett er en uoversiktlig samling dokumenter som vokser seg større for hver dag. I det omfattende forsøket på å holde oversikt over denne samlingen har spesielt en metode som baserer seg på analyse av lenker mellom dokumenter vist seg å være et nyttig hjelpemiddel. Dette er mulig fordi størsteparten av dokumentene på Internett inneholder lenker, eller anbefalinger, til andre dokumenter. Det er interessant å se om det er mulig å ta i bruk disse vel etablerte og godt fungerende metodene for analyse av lenker som hjelpemiddel til rangering av dokumenter som ikke inneholder lenker. Denne oppgaven tar for seg mulige løsninger for hvordan man kan rangere dokumenter funnet i domener uten lenker, uten bruk av tekstrelevansanalyse. Mange forskjellige metoder blir foreslått. Felles for disse er at de bruker lenkeanalyseringsmetoder til å analysere simulerte lenker i domenet. For å simulere lenker i domenet regnes det ut likheter mellom alle par av dokumenter. Lenkeanalyseringsmetoden T-Rank brukes så til å beregne en viktighetsscore for hvert av dokumentene, som om domenet inneholdt lenker, basert på disse autogenererte ”likhets-lenkene”. Målet med oppgaven er å finne ut hvor godt likhetsberegninger mellom dokumenter kan fungere som en substitusjon for tradisjonelle lenker i domener uten egen lenkestruktur. Til å teste de forskjellige rangeringsmetodene brukes Googles rangering, for like søk i samme domene, som fasit. Resultatene av testingen viser at likhetsberegninger mellom dokumenter kan brukes som et nyttig hjelpemiddel til å rangere dokumenter i domener med få lenker hvor tradisjonell lenkeanalyse kommer til kort. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10221Local ntnudaim:1062application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language Norwegian
format Others
sources NDLTD
topic ntnudaim
SIF2 datateknikk
Program- og informasjonssystemer
spellingShingle ntnudaim
SIF2 datateknikk
Program- og informasjonssystemer
Sandbakken, Glenn-Erik
Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse
description For å rangere dokumenter ved søking har det blitt investert store ressurser i å finne metoder som er effektive og gir gode resultater. Denne jobben blir mer komplisert og krevende i tråd med størrelsen på dokumentsamlingen man analyserer. Internett er en uoversiktlig samling dokumenter som vokser seg større for hver dag. I det omfattende forsøket på å holde oversikt over denne samlingen har spesielt en metode som baserer seg på analyse av lenker mellom dokumenter vist seg å være et nyttig hjelpemiddel. Dette er mulig fordi størsteparten av dokumentene på Internett inneholder lenker, eller anbefalinger, til andre dokumenter. Det er interessant å se om det er mulig å ta i bruk disse vel etablerte og godt fungerende metodene for analyse av lenker som hjelpemiddel til rangering av dokumenter som ikke inneholder lenker. Denne oppgaven tar for seg mulige løsninger for hvordan man kan rangere dokumenter funnet i domener uten lenker, uten bruk av tekstrelevansanalyse. Mange forskjellige metoder blir foreslått. Felles for disse er at de bruker lenkeanalyseringsmetoder til å analysere simulerte lenker i domenet. For å simulere lenker i domenet regnes det ut likheter mellom alle par av dokumenter. Lenkeanalyseringsmetoden T-Rank brukes så til å beregne en viktighetsscore for hvert av dokumentene, som om domenet inneholdt lenker, basert på disse autogenererte ”likhets-lenkene”. Målet med oppgaven er å finne ut hvor godt likhetsberegninger mellom dokumenter kan fungere som en substitusjon for tradisjonelle lenker i domener uten egen lenkestruktur. Til å teste de forskjellige rangeringsmetodene brukes Googles rangering, for like søk i samme domene, som fasit. Resultatene av testingen viser at likhetsberegninger mellom dokumenter kan brukes som et nyttig hjelpemiddel til å rangere dokumenter i domener med få lenker hvor tradisjonell lenkeanalyse kommer til kort.
author Sandbakken, Glenn-Erik
author_facet Sandbakken, Glenn-Erik
author_sort Sandbakken, Glenn-Erik
title Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse
title_short Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse
title_full Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse
title_fullStr Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse
title_full_unstemmed Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse
title_sort lenkeanalysemetoder og rangering av dokumenter i domener med få lenker : rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse
publisher Norges teknisk-naturvitenskapelige universitet, Institutt for datateknikk og informasjonsvitenskap
publishDate 2005
url http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10221
work_keys_str_mv AT sandbakkenglennerik lenkeanalysemetoderograngeringavdokumenteridomenermedfalenkerrangeringavdokumentervedhjelpavlenkeanalysemetoderidomenermedfalenkerogutenbrukavtekstrelevansanalyse
AT sandbakkenglennerik linkanalysismethodsandrankingofdocumentindomainswithfewlinksrankingdocumentsbyusinglinkanalysismethodsindomainswithfewlinksandwithoutusingtextrelevanceanalysis
_version_ 1716520347648393216