Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles

Le problème des spams connaît depuis ces 20 dernières années un essor considérable. En effet, le pollupostage pourrait représenter plus de 72% de l'ensemble du trafic de courrier électronique. Au-delà de l'aspect intrusif des spams, ceux-ci peuvent comporter des virus ou des scripts néfast...

Full description

Bibliographic Details
Main Author: Parakh Ousman, Yassine Zaralahy
Other Authors: Wang, Shengrui
Language:French
Published: Université de Sherbrooke 2012
Subjects:
Online Access:http://hdl.handle.net/11143/5753
id ndltd-usherbrooke.ca-oai-savoirs.usherbrooke.ca-11143-5753
record_format oai_dc
spelling ndltd-usherbrooke.ca-oai-savoirs.usherbrooke.ca-11143-57532016-04-07T05:24:42Z Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles Parakh Ousman, Yassine Zaralahy Wang, Shengrui Courriel N-grams Catégorielles SMTP Bayésien Text-mining Class Spam Le problème des spams connaît depuis ces 20 dernières années un essor considérable. En effet, le pollupostage pourrait représenter plus de 72% de l'ensemble du trafic de courrier électronique. Au-delà de l'aspect intrusif des spams, ceux-ci peuvent comporter des virus ou des scripts néfastes ; d'où l'intérêt de les détecter afin de les supprimer.Le coût d'un envoi de courriels par un spammeur étant infime, ce dernier peut se permettre de transmettre le spam au plus d'adresse de messagerie électronique. Pour le spammeur qui arrive à récupérer même une petite partie d'utilisateurs, son opération devient commercialement viable. Imaginant un million de courriels envoyés et seul 0,1% de personnes qui se font appâtées [i.e. appâter], cela représente tout de même 1 millier de personnes ; et ce chiffre est très réaliste. Nous voyons que derrière la protection de la vie privée et le maintien d'un environnement de travail sain se cachent également des enjeux économiques. La détection des spams est une course constante entre la mise en place de nouvelles techniques de classification du courriel et le contournement de celles-ci par les spammeurs. Jusqu'alors, ces derniers avaient une avance dans cette lutte. Cette tendance s'est inversée avec l'apparition de techniques basées sur le filtrage du contenu. Ces filtres pour la plupart sont basés sur un classificateur bayésien naïf. Nous présentons dans ce mémoire une approche nouvelle de cette classification en utilisant une méthode basée sur le traitement de données catégorielles. Cette méthode utilise les N-grams pour identifier les motifs significatifs afin de limiter l'impact du morphisme des courriers indésirables. 2012 Mémoire 9780494889060 http://hdl.handle.net/11143/5753 fre © Yassine Z. Parakh Ousman Université de Sherbrooke
collection NDLTD
language French
sources NDLTD
topic Courriel
N-grams
Catégorielles
SMTP
Bayésien
Text-mining
Class
Spam
spellingShingle Courriel
N-grams
Catégorielles
SMTP
Bayésien
Text-mining
Class
Spam
Parakh Ousman, Yassine Zaralahy
Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles
description Le problème des spams connaît depuis ces 20 dernières années un essor considérable. En effet, le pollupostage pourrait représenter plus de 72% de l'ensemble du trafic de courrier électronique. Au-delà de l'aspect intrusif des spams, ceux-ci peuvent comporter des virus ou des scripts néfastes ; d'où l'intérêt de les détecter afin de les supprimer.Le coût d'un envoi de courriels par un spammeur étant infime, ce dernier peut se permettre de transmettre le spam au plus d'adresse de messagerie électronique. Pour le spammeur qui arrive à récupérer même une petite partie d'utilisateurs, son opération devient commercialement viable. Imaginant un million de courriels envoyés et seul 0,1% de personnes qui se font appâtées [i.e. appâter], cela représente tout de même 1 millier de personnes ; et ce chiffre est très réaliste. Nous voyons que derrière la protection de la vie privée et le maintien d'un environnement de travail sain se cachent également des enjeux économiques. La détection des spams est une course constante entre la mise en place de nouvelles techniques de classification du courriel et le contournement de celles-ci par les spammeurs. Jusqu'alors, ces derniers avaient une avance dans cette lutte. Cette tendance s'est inversée avec l'apparition de techniques basées sur le filtrage du contenu. Ces filtres pour la plupart sont basés sur un classificateur bayésien naïf. Nous présentons dans ce mémoire une approche nouvelle de cette classification en utilisant une méthode basée sur le traitement de données catégorielles. Cette méthode utilise les N-grams pour identifier les motifs significatifs afin de limiter l'impact du morphisme des courriers indésirables.
author2 Wang, Shengrui
author_facet Wang, Shengrui
Parakh Ousman, Yassine Zaralahy
author Parakh Ousman, Yassine Zaralahy
author_sort Parakh Ousman, Yassine Zaralahy
title Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles
title_short Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles
title_full Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles
title_fullStr Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles
title_full_unstemmed Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles
title_sort une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles
publisher Université de Sherbrooke
publishDate 2012
url http://hdl.handle.net/11143/5753
work_keys_str_mv AT parakhousmanyassinezaralahy unenouvelleapprochepourladetectiondesspamssebasantsuruntraitementdesdonneescategorielles
_version_ 1718218302798430208