A simple and efficient algorithm for automatic classification of web pages

<p>Este artículo propone un simple pero eficiente clasificador de paginas Web basado en la frecuencia de termi- nos. La simplicidad esta dada por el uso de un conjunto pequeüo de terminos para describir cada clase, mientras que la eficiencia es alcanzada mediante embolsamiento. El uso de atrib...

Full description

Bibliographic Details
Main Authors: María del Cisne Garcia, Fausto Pasmay, Enrique V. Carrera
Format: Article
Language:English
Published: Universidad San Francisco de Quito 2009-04-01
Series:ACI Avances en Ciencias e Ingenierías
Subjects:
Online Access:http://revistas.usfq.edu.ec/index.php/avances/article/view/11
id doaj-92bf320eca0849e4bc8db23824c1b528
record_format Article
spelling doaj-92bf320eca0849e4bc8db23824c1b5282021-10-02T19:15:12ZengUniversidad San Francisco de QuitoACI Avances en Ciencias e Ingenierías1390-53842528-77882009-04-011110.18272/aci.v1i1.1111A simple and efficient algorithm for automatic classification of web pagesMaría del Cisne Garcia0Fausto Pasmay1Enrique V. Carrera2Universidad San Francisco de QuitoUniversidad San Francisco de QuitoUniversidad San Francisco de Quito<p>Este artículo propone un simple pero eficiente clasificador de paginas Web basado en la frecuencia de termi- nos. La simplicidad esta dada por el uso de un conjunto pequeüo de terminos para describir cada clase, mientras que la eficiencia es alcanzada mediante embolsamiento. El uso de atributos simples como la fre­cuencia de terminos tambien reduce la complejidad de los algoritmos de preprocesamiento y extracción de características. Sin embargo, un problema de usar propiedades dependientes de los terminos incluidos en cada paígina es la seleccioí n de la descripcioí n de teírminos correspondiente para cada una de las clases. En este trabajo, la seleccion de terminos para cada clase se basa en el coeficiente TFIDF, mientras que el enbol- samiento utiliza clasificadores probados como redes neuronales y algoritmos bayesianos. Los resultados de nuestra evaluacion muestran un clasificador sumamente rápido con una exactitud superior al 83 %.</p>http://revistas.usfq.edu.ec/index.php/avances/article/view/11Minería de datosclasificacionfrecuencia de terminosembolsamientoWorld Wide Web
collection DOAJ
language English
format Article
sources DOAJ
author María del Cisne Garcia
Fausto Pasmay
Enrique V. Carrera
spellingShingle María del Cisne Garcia
Fausto Pasmay
Enrique V. Carrera
A simple and efficient algorithm for automatic classification of web pages
ACI Avances en Ciencias e Ingenierías
Minería de datos
clasificacion
frecuencia de terminos
embolsamiento
World Wide Web
author_facet María del Cisne Garcia
Fausto Pasmay
Enrique V. Carrera
author_sort María del Cisne Garcia
title A simple and efficient algorithm for automatic classification of web pages
title_short A simple and efficient algorithm for automatic classification of web pages
title_full A simple and efficient algorithm for automatic classification of web pages
title_fullStr A simple and efficient algorithm for automatic classification of web pages
title_full_unstemmed A simple and efficient algorithm for automatic classification of web pages
title_sort simple and efficient algorithm for automatic classification of web pages
publisher Universidad San Francisco de Quito
series ACI Avances en Ciencias e Ingenierías
issn 1390-5384
2528-7788
publishDate 2009-04-01
description <p>Este artículo propone un simple pero eficiente clasificador de paginas Web basado en la frecuencia de termi- nos. La simplicidad esta dada por el uso de un conjunto pequeüo de terminos para describir cada clase, mientras que la eficiencia es alcanzada mediante embolsamiento. El uso de atributos simples como la fre­cuencia de terminos tambien reduce la complejidad de los algoritmos de preprocesamiento y extracción de características. Sin embargo, un problema de usar propiedades dependientes de los terminos incluidos en cada paígina es la seleccioí n de la descripcioí n de teírminos correspondiente para cada una de las clases. En este trabajo, la seleccion de terminos para cada clase se basa en el coeficiente TFIDF, mientras que el enbol- samiento utiliza clasificadores probados como redes neuronales y algoritmos bayesianos. Los resultados de nuestra evaluacion muestran un clasificador sumamente rápido con una exactitud superior al 83 %.</p>
topic Minería de datos
clasificacion
frecuencia de terminos
embolsamiento
World Wide Web
url http://revistas.usfq.edu.ec/index.php/avances/article/view/11
work_keys_str_mv AT mariadelcisnegarcia asimpleandefficientalgorithmforautomaticclassificationofwebpages
AT faustopasmay asimpleandefficientalgorithmforautomaticclassificationofwebpages
AT enriquevcarrera asimpleandefficientalgorithmforautomaticclassificationofwebpages
AT mariadelcisnegarcia simpleandefficientalgorithmforautomaticclassificationofwebpages
AT faustopasmay simpleandefficientalgorithmforautomaticclassificationofwebpages
AT enriquevcarrera simpleandefficientalgorithmforautomaticclassificationofwebpages
_version_ 1716847600079994880