A simple and efficient algorithm for automatic classification of web pages
<p>Este artículo propone un simple pero eficiente clasificador de paginas Web basado en la frecuencia de termi- nos. La simplicidad esta dada por el uso de un conjunto pequeüo de terminos para describir cada clase, mientras que la eficiencia es alcanzada mediante embolsamiento. El uso de atrib...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Universidad San Francisco de Quito
2009-04-01
|
Series: | ACI Avances en Ciencias e Ingenierías |
Subjects: | |
Online Access: | http://revistas.usfq.edu.ec/index.php/avances/article/view/11 |
id |
doaj-92bf320eca0849e4bc8db23824c1b528 |
---|---|
record_format |
Article |
spelling |
doaj-92bf320eca0849e4bc8db23824c1b5282021-10-02T19:15:12ZengUniversidad San Francisco de QuitoACI Avances en Ciencias e Ingenierías1390-53842528-77882009-04-011110.18272/aci.v1i1.1111A simple and efficient algorithm for automatic classification of web pagesMaría del Cisne Garcia0Fausto Pasmay1Enrique V. Carrera2Universidad San Francisco de QuitoUniversidad San Francisco de QuitoUniversidad San Francisco de Quito<p>Este artículo propone un simple pero eficiente clasificador de paginas Web basado en la frecuencia de termi- nos. La simplicidad esta dada por el uso de un conjunto pequeüo de terminos para describir cada clase, mientras que la eficiencia es alcanzada mediante embolsamiento. El uso de atributos simples como la frecuencia de terminos tambien reduce la complejidad de los algoritmos de preprocesamiento y extracción de características. Sin embargo, un problema de usar propiedades dependientes de los terminos incluidos en cada paígina es la seleccioí n de la descripcioí n de teírminos correspondiente para cada una de las clases. En este trabajo, la seleccion de terminos para cada clase se basa en el coeficiente TFIDF, mientras que el enbol- samiento utiliza clasificadores probados como redes neuronales y algoritmos bayesianos. Los resultados de nuestra evaluacion muestran un clasificador sumamente rápido con una exactitud superior al 83 %.</p>http://revistas.usfq.edu.ec/index.php/avances/article/view/11Minería de datosclasificacionfrecuencia de terminosembolsamientoWorld Wide Web |
collection |
DOAJ |
language |
English |
format |
Article |
sources |
DOAJ |
author |
María del Cisne Garcia Fausto Pasmay Enrique V. Carrera |
spellingShingle |
María del Cisne Garcia Fausto Pasmay Enrique V. Carrera A simple and efficient algorithm for automatic classification of web pages ACI Avances en Ciencias e Ingenierías Minería de datos clasificacion frecuencia de terminos embolsamiento World Wide Web |
author_facet |
María del Cisne Garcia Fausto Pasmay Enrique V. Carrera |
author_sort |
María del Cisne Garcia |
title |
A simple and efficient algorithm for automatic classification of web pages |
title_short |
A simple and efficient algorithm for automatic classification of web pages |
title_full |
A simple and efficient algorithm for automatic classification of web pages |
title_fullStr |
A simple and efficient algorithm for automatic classification of web pages |
title_full_unstemmed |
A simple and efficient algorithm for automatic classification of web pages |
title_sort |
simple and efficient algorithm for automatic classification of web pages |
publisher |
Universidad San Francisco de Quito |
series |
ACI Avances en Ciencias e Ingenierías |
issn |
1390-5384 2528-7788 |
publishDate |
2009-04-01 |
description |
<p>Este artículo propone un simple pero eficiente clasificador de paginas Web basado en la frecuencia de termi- nos. La simplicidad esta dada por el uso de un conjunto pequeüo de terminos para describir cada clase, mientras que la eficiencia es alcanzada mediante embolsamiento. El uso de atributos simples como la frecuencia de terminos tambien reduce la complejidad de los algoritmos de preprocesamiento y extracción de características. Sin embargo, un problema de usar propiedades dependientes de los terminos incluidos en cada paígina es la seleccioí n de la descripcioí n de teírminos correspondiente para cada una de las clases. En este trabajo, la seleccion de terminos para cada clase se basa en el coeficiente TFIDF, mientras que el enbol- samiento utiliza clasificadores probados como redes neuronales y algoritmos bayesianos. Los resultados de nuestra evaluacion muestran un clasificador sumamente rápido con una exactitud superior al 83 %.</p> |
topic |
Minería de datos clasificacion frecuencia de terminos embolsamiento World Wide Web |
url |
http://revistas.usfq.edu.ec/index.php/avances/article/view/11 |
work_keys_str_mv |
AT mariadelcisnegarcia asimpleandefficientalgorithmforautomaticclassificationofwebpages AT faustopasmay asimpleandefficientalgorithmforautomaticclassificationofwebpages AT enriquevcarrera asimpleandefficientalgorithmforautomaticclassificationofwebpages AT mariadelcisnegarcia simpleandefficientalgorithmforautomaticclassificationofwebpages AT faustopasmay simpleandefficientalgorithmforautomaticclassificationofwebpages AT enriquevcarrera simpleandefficientalgorithmforautomaticclassificationofwebpages |
_version_ |
1716847600079994880 |