Automatic web page categorizationusing text classication methods

Over the last few years, the Web has virtually exploded with an enormous amount of web pages of dierent types of content. With the current size of Web, it has become cumbersome to try and manually index and categorize all of its content. Evidently, there is a need for automatic web page categorizati...

Full description

Bibliographic Details
Main Author: Eriksson, Tobias
Format: Others
Language:English
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2013
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-142424
id ndltd-UPSALLA1-oai-DiVA.org-kth-142424
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1424242018-01-12T05:12:36ZAutomatic web page categorizationusing text classication methodsengAutomatisk kategorisering av webbsidor medtextklassificeringsmetoderEriksson, TobiasKTH, Skolan för datavetenskap och kommunikation (CSC)2013Computer SciencesDatavetenskap (datalogi)Over the last few years, the Web has virtually exploded with an enormous amount of web pages of dierent types of content. With the current size of Web, it has become cumbersome to try and manually index and categorize all of its content. Evidently, there is a need for automatic web page categorization. This study explores the use of automatic text classication methods for categorization of web pages. The results in this paper is shown to be comparable to results in other papers on automatic web page categorization, however not as good as results on pure text classication. Under de senaste åren så har Webben exploderat i storlek, med miljontals webbsidor av vitt skilda innehåll. Den enorma storleken av Webben gör att det blir ohanterligt att manuellt indexera och kategorisera allt detta innehåll. Uppenbarligen behövs det automatiska metoder för att kategorisera webbsidor. Denna studie undersöker hur metoder för automatiskt textklassicering kan användas för kategorisering av hemsidor. De uppnådda resultatet i denna rapport är jämförbara med resultat i annan litteratur på samma område, men når ej upp till resultatet i studier på ren textklassicering. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-142424application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer Sciences
Datavetenskap (datalogi)
spellingShingle Computer Sciences
Datavetenskap (datalogi)
Eriksson, Tobias
Automatic web page categorizationusing text classication methods
description Over the last few years, the Web has virtually exploded with an enormous amount of web pages of dierent types of content. With the current size of Web, it has become cumbersome to try and manually index and categorize all of its content. Evidently, there is a need for automatic web page categorization. This study explores the use of automatic text classication methods for categorization of web pages. The results in this paper is shown to be comparable to results in other papers on automatic web page categorization, however not as good as results on pure text classication. === Under de senaste åren så har Webben exploderat i storlek, med miljontals webbsidor av vitt skilda innehåll. Den enorma storleken av Webben gör att det blir ohanterligt att manuellt indexera och kategorisera allt detta innehåll. Uppenbarligen behövs det automatiska metoder för att kategorisera webbsidor. Denna studie undersöker hur metoder för automatiskt textklassicering kan användas för kategorisering av hemsidor. De uppnådda resultatet i denna rapport är jämförbara med resultat i annan litteratur på samma område, men når ej upp till resultatet i studier på ren textklassicering.
author Eriksson, Tobias
author_facet Eriksson, Tobias
author_sort Eriksson, Tobias
title Automatic web page categorizationusing text classication methods
title_short Automatic web page categorizationusing text classication methods
title_full Automatic web page categorizationusing text classication methods
title_fullStr Automatic web page categorizationusing text classication methods
title_full_unstemmed Automatic web page categorizationusing text classication methods
title_sort automatic web page categorizationusing text classication methods
publisher KTH, Skolan för datavetenskap och kommunikation (CSC)
publishDate 2013
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-142424
work_keys_str_mv AT erikssontobias automaticwebpagecategorizationusingtextclassicationmethods
AT erikssontobias automatiskkategoriseringavwebbsidormedtextklassificeringsmetoder
_version_ 1718606348103450624