Contribution au classement statistique mutualisé de messages électroniques (spam)

Depuis la fin des années 90, les différentes méthodes issues de l'apprentissage artificiel ont été étudiées et appliquées au problème de classement de messages électroniques (filtrage de spam), avec des résultats très bons, mais pas parfaits. Il a toujours été considéré que ces méthodes étaient...

Full description

Bibliographic Details
Main Author: Martins Da Cruz, José Márcio
Language:FRE
Published: École Nationale Supérieure des Mines de Paris 2011
Subjects:
Online Access:http://pastel.archives-ouvertes.fr/pastel-00637173
http://pastel.archives-ouvertes.fr/docs/00/63/71/73/PDF/Martins.pdf
id ndltd-CCSD-oai-pastel.archives-ouvertes.fr-pastel-00637173
record_format oai_dc
spelling ndltd-CCSD-oai-pastel.archives-ouvertes.fr-pastel-006371732013-01-07T17:29:46Z http://pastel.archives-ouvertes.fr/pastel-00637173 2011ENMP0027 http://pastel.archives-ouvertes.fr/docs/00/63/71/73/PDF/Martins.pdf Contribution au classement statistique mutualisé de messages électroniques (spam) Martins Da Cruz, José Márcio [INFO:INFO_OH] Computer Science/Other spam classement de messages électroniques filtrage spam filtrage mutualisé apprentissage actif apprentissage en ligne Depuis la fin des années 90, les différentes méthodes issues de l'apprentissage artificiel ont été étudiées et appliquées au problème de classement de messages électroniques (filtrage de spam), avec des résultats très bons, mais pas parfaits. Il a toujours été considéré que ces méthodes étaient adaptées aux solutions de filtrage orientées vers un seul destinataire et non pas au classement des messages d'une communauté entière. Dans cette thèse notre démarche a été, d'abord, de chercher à mieux comprendre les caractéristiques des données manipulées, à l'aide de corpus réels de messages, avant de proposer des nouveaux algorithmes. Puis, nous avons utilisé un classificateur à régression logistique avec de l'apprentissage actif en ligne - pour démontrer empiriquement qu'avec un algorithme simple et une configuration d'apprentissage mieux adaptée au contexte réel de classement, on peut obtenir des résultats aussi bons que ceux que l'on obtient avec des algorithmes plus complexes. Nous avons aussi démontré, avec des ensembles de messages d'un petit groupe d'utilisateurs, que la perte d'efficacité peut ne pas être significative dans un contexte de classement mutualisé. 2011-10-13 FRE PhD thesis École Nationale Supérieure des Mines de Paris
collection NDLTD
language FRE
sources NDLTD
topic [INFO:INFO_OH] Computer Science/Other
spam
classement de messages électroniques
filtrage spam
filtrage mutualisé
apprentissage actif
apprentissage en ligne
spellingShingle [INFO:INFO_OH] Computer Science/Other
spam
classement de messages électroniques
filtrage spam
filtrage mutualisé
apprentissage actif
apprentissage en ligne
Martins Da Cruz, José Márcio
Contribution au classement statistique mutualisé de messages électroniques (spam)
description Depuis la fin des années 90, les différentes méthodes issues de l'apprentissage artificiel ont été étudiées et appliquées au problème de classement de messages électroniques (filtrage de spam), avec des résultats très bons, mais pas parfaits. Il a toujours été considéré que ces méthodes étaient adaptées aux solutions de filtrage orientées vers un seul destinataire et non pas au classement des messages d'une communauté entière. Dans cette thèse notre démarche a été, d'abord, de chercher à mieux comprendre les caractéristiques des données manipulées, à l'aide de corpus réels de messages, avant de proposer des nouveaux algorithmes. Puis, nous avons utilisé un classificateur à régression logistique avec de l'apprentissage actif en ligne - pour démontrer empiriquement qu'avec un algorithme simple et une configuration d'apprentissage mieux adaptée au contexte réel de classement, on peut obtenir des résultats aussi bons que ceux que l'on obtient avec des algorithmes plus complexes. Nous avons aussi démontré, avec des ensembles de messages d'un petit groupe d'utilisateurs, que la perte d'efficacité peut ne pas être significative dans un contexte de classement mutualisé.
author Martins Da Cruz, José Márcio
author_facet Martins Da Cruz, José Márcio
author_sort Martins Da Cruz, José Márcio
title Contribution au classement statistique mutualisé de messages électroniques (spam)
title_short Contribution au classement statistique mutualisé de messages électroniques (spam)
title_full Contribution au classement statistique mutualisé de messages électroniques (spam)
title_fullStr Contribution au classement statistique mutualisé de messages électroniques (spam)
title_full_unstemmed Contribution au classement statistique mutualisé de messages électroniques (spam)
title_sort contribution au classement statistique mutualisé de messages électroniques (spam)
publisher École Nationale Supérieure des Mines de Paris
publishDate 2011
url http://pastel.archives-ouvertes.fr/pastel-00637173
http://pastel.archives-ouvertes.fr/docs/00/63/71/73/PDF/Martins.pdf
work_keys_str_mv AT martinsdacruzjosemarcio contributionauclassementstatistiquemutualisedemessageselectroniquesspam
_version_ 1716395640000348160