Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse
For å rangere dokumenter ved søking har det blitt investert store ressurser i å finne metoder som er effektive og gir gode resultater. Denne jobben blir mer komplisert og krevende i tråd med størrelsen på dokumentsamlingen man analyserer. Internett er en uoversiktlig samling dokumenter som vokser se...
Main Author: | |
---|---|
Format: | Others |
Language: | Norwegian |
Published: |
Norges teknisk-naturvitenskapelige universitet, Institutt for datateknikk og informasjonsvitenskap
2005
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10221 |
id |
ndltd-UPSALLA1-oai-DiVA.org-ntnu-10221 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-ntnu-102212013-01-08T13:26:53ZLenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalysenorLink analysis Methods and Ranking of Document in Domains with few links : Ranking documents by using link analysis methods in domains with few links, and without using text relevance analysisSandbakken, Glenn-ErikNorges teknisk-naturvitenskapelige universitet, Institutt for datateknikk og informasjonsvitenskapInstitutt for datateknikk og informasjonsvitenskap2005ntnudaimSIF2 datateknikkProgram- og informasjonssystemerFor å rangere dokumenter ved søking har det blitt investert store ressurser i å finne metoder som er effektive og gir gode resultater. Denne jobben blir mer komplisert og krevende i tråd med størrelsen på dokumentsamlingen man analyserer. Internett er en uoversiktlig samling dokumenter som vokser seg større for hver dag. I det omfattende forsøket på å holde oversikt over denne samlingen har spesielt en metode som baserer seg på analyse av lenker mellom dokumenter vist seg å være et nyttig hjelpemiddel. Dette er mulig fordi størsteparten av dokumentene på Internett inneholder lenker, eller anbefalinger, til andre dokumenter. Det er interessant å se om det er mulig å ta i bruk disse vel etablerte og godt fungerende metodene for analyse av lenker som hjelpemiddel til rangering av dokumenter som ikke inneholder lenker. Denne oppgaven tar for seg mulige løsninger for hvordan man kan rangere dokumenter funnet i domener uten lenker, uten bruk av tekstrelevansanalyse. Mange forskjellige metoder blir foreslått. Felles for disse er at de bruker lenkeanalyseringsmetoder til å analysere simulerte lenker i domenet. For å simulere lenker i domenet regnes det ut likheter mellom alle par av dokumenter. Lenkeanalyseringsmetoden T-Rank brukes så til å beregne en viktighetsscore for hvert av dokumentene, som om domenet inneholdt lenker, basert på disse autogenererte likhets-lenkene. Målet med oppgaven er å finne ut hvor godt likhetsberegninger mellom dokumenter kan fungere som en substitusjon for tradisjonelle lenker i domener uten egen lenkestruktur. Til å teste de forskjellige rangeringsmetodene brukes Googles rangering, for like søk i samme domene, som fasit. Resultatene av testingen viser at likhetsberegninger mellom dokumenter kan brukes som et nyttig hjelpemiddel til å rangere dokumenter i domener med få lenker hvor tradisjonell lenkeanalyse kommer til kort. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10221Local ntnudaim:1062application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
Norwegian |
format |
Others
|
sources |
NDLTD |
topic |
ntnudaim SIF2 datateknikk Program- og informasjonssystemer |
spellingShingle |
ntnudaim SIF2 datateknikk Program- og informasjonssystemer Sandbakken, Glenn-Erik Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse |
description |
For å rangere dokumenter ved søking har det blitt investert store ressurser i å finne metoder som er effektive og gir gode resultater. Denne jobben blir mer komplisert og krevende i tråd med størrelsen på dokumentsamlingen man analyserer. Internett er en uoversiktlig samling dokumenter som vokser seg større for hver dag. I det omfattende forsøket på å holde oversikt over denne samlingen har spesielt en metode som baserer seg på analyse av lenker mellom dokumenter vist seg å være et nyttig hjelpemiddel. Dette er mulig fordi størsteparten av dokumentene på Internett inneholder lenker, eller anbefalinger, til andre dokumenter. Det er interessant å se om det er mulig å ta i bruk disse vel etablerte og godt fungerende metodene for analyse av lenker som hjelpemiddel til rangering av dokumenter som ikke inneholder lenker. Denne oppgaven tar for seg mulige løsninger for hvordan man kan rangere dokumenter funnet i domener uten lenker, uten bruk av tekstrelevansanalyse. Mange forskjellige metoder blir foreslått. Felles for disse er at de bruker lenkeanalyseringsmetoder til å analysere simulerte lenker i domenet. For å simulere lenker i domenet regnes det ut likheter mellom alle par av dokumenter. Lenkeanalyseringsmetoden T-Rank brukes så til å beregne en viktighetsscore for hvert av dokumentene, som om domenet inneholdt lenker, basert på disse autogenererte likhets-lenkene. Målet med oppgaven er å finne ut hvor godt likhetsberegninger mellom dokumenter kan fungere som en substitusjon for tradisjonelle lenker i domener uten egen lenkestruktur. Til å teste de forskjellige rangeringsmetodene brukes Googles rangering, for like søk i samme domene, som fasit. Resultatene av testingen viser at likhetsberegninger mellom dokumenter kan brukes som et nyttig hjelpemiddel til å rangere dokumenter i domener med få lenker hvor tradisjonell lenkeanalyse kommer til kort. |
author |
Sandbakken, Glenn-Erik |
author_facet |
Sandbakken, Glenn-Erik |
author_sort |
Sandbakken, Glenn-Erik |
title |
Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse |
title_short |
Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse |
title_full |
Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse |
title_fullStr |
Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse |
title_full_unstemmed |
Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker : Rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse |
title_sort |
lenkeanalysemetoder og rangering av dokumenter i domener med få lenker : rangering av dokumenter ved hjelp av lenkeanalysemetoder i domener med få lenker og uten bruk av tekstrelevansanalyse |
publisher |
Norges teknisk-naturvitenskapelige universitet, Institutt for datateknikk og informasjonsvitenskap |
publishDate |
2005 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10221 |
work_keys_str_mv |
AT sandbakkenglennerik lenkeanalysemetoderograngeringavdokumenteridomenermedfalenkerrangeringavdokumentervedhjelpavlenkeanalysemetoderidomenermedfalenkerogutenbrukavtekstrelevansanalyse AT sandbakkenglennerik linkanalysismethodsandrankingofdocumentindomainswithfewlinksrankingdocumentsbyusinglinkanalysismethodsindomainswithfewlinksandwithoutusingtextrelevanceanalysis |
_version_ |
1716520347648393216 |