Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles
Le problème des spams connaît depuis ces 20 dernières années un essor considérable. En effet, le pollupostage pourrait représenter plus de 72% de l'ensemble du trafic de courrier électronique. Au-delà de l'aspect intrusif des spams, ceux-ci peuvent comporter des virus ou des scripts néfast...
Main Author: | |
---|---|
Other Authors: | |
Language: | French |
Published: |
Université de Sherbrooke
2012
|
Subjects: | |
Online Access: | http://hdl.handle.net/11143/5753 |
id |
ndltd-usherbrooke.ca-oai-savoirs.usherbrooke.ca-11143-5753 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-usherbrooke.ca-oai-savoirs.usherbrooke.ca-11143-57532016-04-07T05:24:42Z Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles Parakh Ousman, Yassine Zaralahy Wang, Shengrui Courriel N-grams Catégorielles SMTP Bayésien Text-mining Class Spam Le problème des spams connaît depuis ces 20 dernières années un essor considérable. En effet, le pollupostage pourrait représenter plus de 72% de l'ensemble du trafic de courrier électronique. Au-delà de l'aspect intrusif des spams, ceux-ci peuvent comporter des virus ou des scripts néfastes ; d'où l'intérêt de les détecter afin de les supprimer.Le coût d'un envoi de courriels par un spammeur étant infime, ce dernier peut se permettre de transmettre le spam au plus d'adresse de messagerie électronique. Pour le spammeur qui arrive à récupérer même une petite partie d'utilisateurs, son opération devient commercialement viable. Imaginant un million de courriels envoyés et seul 0,1% de personnes qui se font appâtées [i.e. appâter], cela représente tout de même 1 millier de personnes ; et ce chiffre est très réaliste. Nous voyons que derrière la protection de la vie privée et le maintien d'un environnement de travail sain se cachent également des enjeux économiques. La détection des spams est une course constante entre la mise en place de nouvelles techniques de classification du courriel et le contournement de celles-ci par les spammeurs. Jusqu'alors, ces derniers avaient une avance dans cette lutte. Cette tendance s'est inversée avec l'apparition de techniques basées sur le filtrage du contenu. Ces filtres pour la plupart sont basés sur un classificateur bayésien naïf. Nous présentons dans ce mémoire une approche nouvelle de cette classification en utilisant une méthode basée sur le traitement de données catégorielles. Cette méthode utilise les N-grams pour identifier les motifs significatifs afin de limiter l'impact du morphisme des courriers indésirables. 2012 Mémoire 9780494889060 http://hdl.handle.net/11143/5753 fre © Yassine Z. Parakh Ousman Université de Sherbrooke |
collection |
NDLTD |
language |
French |
sources |
NDLTD |
topic |
Courriel N-grams Catégorielles SMTP Bayésien Text-mining Class Spam |
spellingShingle |
Courriel N-grams Catégorielles SMTP Bayésien Text-mining Class Spam Parakh Ousman, Yassine Zaralahy Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles |
description |
Le problème des spams connaît depuis ces 20 dernières années un essor considérable. En effet, le pollupostage pourrait représenter plus de 72% de l'ensemble du trafic de courrier électronique. Au-delà de l'aspect intrusif des spams, ceux-ci peuvent comporter des virus ou des scripts néfastes ; d'où l'intérêt de les détecter afin de les supprimer.Le coût d'un envoi de courriels par un spammeur étant infime, ce dernier peut se permettre de transmettre le spam au plus d'adresse de messagerie électronique. Pour le spammeur qui arrive à récupérer même une petite partie d'utilisateurs, son opération devient commercialement viable. Imaginant un million de courriels envoyés et seul 0,1% de personnes qui se font appâtées [i.e. appâter], cela représente tout de même 1 millier de personnes ; et ce chiffre est très réaliste. Nous voyons que derrière la protection de la vie privée et le maintien d'un environnement de travail sain se cachent également des enjeux économiques. La détection des spams est une course constante entre la mise en place de nouvelles techniques de classification du courriel et le contournement de celles-ci par les spammeurs. Jusqu'alors, ces derniers avaient une avance dans cette lutte. Cette tendance s'est inversée avec l'apparition de techniques basées sur le filtrage du contenu. Ces filtres pour la plupart sont basés sur un classificateur bayésien naïf. Nous présentons dans ce mémoire une approche nouvelle de cette classification en utilisant une méthode basée sur le traitement de données catégorielles. Cette méthode utilise les N-grams pour identifier les motifs significatifs afin de limiter l'impact du morphisme des courriers indésirables. |
author2 |
Wang, Shengrui |
author_facet |
Wang, Shengrui Parakh Ousman, Yassine Zaralahy |
author |
Parakh Ousman, Yassine Zaralahy |
author_sort |
Parakh Ousman, Yassine Zaralahy |
title |
Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles |
title_short |
Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles |
title_full |
Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles |
title_fullStr |
Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles |
title_full_unstemmed |
Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles |
title_sort |
une nouvelle approche pour la détection des spams se basant sur un traitement des données catégorielles |
publisher |
Université de Sherbrooke |
publishDate |
2012 |
url |
http://hdl.handle.net/11143/5753 |
work_keys_str_mv |
AT parakhousmanyassinezaralahy unenouvelleapprochepourladetectiondesspamssebasantsuruntraitementdesdonneescategorielles |
_version_ |
1718218302798430208 |