Summary: | For å rangere dokumenter ved søking har det blitt investert store ressurser i å finne metoder som er effektive og gir gode resultater. Denne jobben blir mer komplisert og krevende i tråd med størrelsen på dokumentsamlingen man analyserer. Internett er en uoversiktlig samling dokumenter som vokser seg større for hver dag. I det omfattende forsøket på å holde oversikt over denne samlingen har spesielt en metode som baserer seg på analyse av lenker mellom dokumenter vist seg å være et nyttig hjelpemiddel. Dette er mulig fordi størsteparten av dokumentene på Internett inneholder lenker, eller anbefalinger, til andre dokumenter. Det er interessant å se om det er mulig å ta i bruk disse vel etablerte og godt fungerende metodene for analyse av lenker som hjelpemiddel til rangering av dokumenter som ikke inneholder lenker. Denne oppgaven tar for seg mulige løsninger for hvordan man kan rangere dokumenter funnet i domener uten lenker, uten bruk av tekstrelevansanalyse. Mange forskjellige metoder blir foreslått. Felles for disse er at de bruker lenkeanalyseringsmetoder til å analysere simulerte lenker i domenet. For å simulere lenker i domenet regnes det ut likheter mellom alle par av dokumenter. Lenkeanalyseringsmetoden T-Rank brukes så til å beregne en viktighetsscore for hvert av dokumentene, som om domenet inneholdt lenker, basert på disse autogenererte likhets-lenkene. Målet med oppgaven er å finne ut hvor godt likhetsberegninger mellom dokumenter kan fungere som en substitusjon for tradisjonelle lenker i domener uten egen lenkestruktur. Til å teste de forskjellige rangeringsmetodene brukes Googles rangering, for like søk i samme domene, som fasit. Resultatene av testingen viser at likhetsberegninger mellom dokumenter kan brukes som et nyttig hjelpemiddel til å rangere dokumenter i domener med få lenker hvor tradisjonell lenkeanalyse kommer til kort.
|