Analyse de données volumineuses dans le domaine du transport
L'objectif de cette thèse est de proposer de nouvelles méthodologies à appliquer aux données du transport public. En effet, nous sommes entourés de plus en plus de capteurs et d'ordinateurs générant d'énormes quantités de données. Dans le domaine des transports publics, les cartes san...
Main Author: | |
---|---|
Other Authors: | |
Language: | en |
Published: |
2019
|
Subjects: | |
Online Access: | http://www.theses.fr/2019SACLG001/document |
id |
ndltd-theses.fr-2019SACLG001 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-theses.fr-2019SACLG0012020-02-03T15:25:13Z Analyse de données volumineuses dans le domaine du transport Big data analysis in the field of transportation Statistiques Données volumineuses Transport Statistics Big Data Transportation 510 519 625.4 L'objectif de cette thèse est de proposer de nouvelles méthodologies à appliquer aux données du transport public. En effet, nous sommes entourés de plus en plus de capteurs et d'ordinateurs générant d'énormes quantités de données. Dans le domaine des transports publics, les cartes sans contact génèrent des données à chaque fois que nous les utilisons, que ce soit pour les chargements ou nos trajets. Dans cette thèse, nous utilisons ces données dans deux buts distincts. Premièrement, nous voulions être capable de détecter des groupes de passagers ayant des habitudes temporelles similaires. Pour ce faire, nous avons commencé par utilisé la factorisation de matrices non-négatives comme un outil de pré-traitement pour la classification. Puis nous avons introduit l'algorithme NMF-EM permettant une réduction de la dimension et une classification de manière simultanée pour un modèle de mélange de distributions multinomiales. Dans un second temps, nous avons appliqué des méthodes de régression à ces données afin d'être capable de fournir une fourchette de ces validations probables. De même, nous avons appliqué cette méthodologie à la détection d'anomalies sur le réseau. The aim of this thesis is to apply new methodologies to public transportation data. Indeed, we are more and more surrounded by sensors and computers generating huge amount of data. In the field of public transportation, smart cards generate data about our purchases and our travels every time we use them. In this thesis, we used this data for two purposes. First of all, we wanted to be able to detect passenger's groups with similar temporal habits. To that end, we began to use the Non-negative Matrix Factorization as a pre-processing tool for clustering. Then, we introduced the NMF-EM algorithm allowing simultaneous dimension reduction and clustering on a multinomial mixture model. The second purpose of this thesis is to apply regression methods on these data to be able to forecast the number of check-ins on a network and give a range of likely check-ins. We also used this methodology to be able to detect anomalies on the network. Electronic Thesis or Dissertation Text StillImage en http://www.theses.fr/2019SACLG001/document Carel, Léna 2019-02-08 Université Paris-Saclay (ComUE) Alquier, Pierre |
collection |
NDLTD |
language |
en |
sources |
NDLTD |
topic |
Statistiques Données volumineuses Transport Statistics Big Data Transportation 510 519 625.4 |
spellingShingle |
Statistiques Données volumineuses Transport Statistics Big Data Transportation 510 519 625.4 Carel, Léna Analyse de données volumineuses dans le domaine du transport |
description |
L'objectif de cette thèse est de proposer de nouvelles méthodologies à appliquer aux données du transport public. En effet, nous sommes entourés de plus en plus de capteurs et d'ordinateurs générant d'énormes quantités de données. Dans le domaine des transports publics, les cartes sans contact génèrent des données à chaque fois que nous les utilisons, que ce soit pour les chargements ou nos trajets. Dans cette thèse, nous utilisons ces données dans deux buts distincts. Premièrement, nous voulions être capable de détecter des groupes de passagers ayant des habitudes temporelles similaires. Pour ce faire, nous avons commencé par utilisé la factorisation de matrices non-négatives comme un outil de pré-traitement pour la classification. Puis nous avons introduit l'algorithme NMF-EM permettant une réduction de la dimension et une classification de manière simultanée pour un modèle de mélange de distributions multinomiales. Dans un second temps, nous avons appliqué des méthodes de régression à ces données afin d'être capable de fournir une fourchette de ces validations probables. De même, nous avons appliqué cette méthodologie à la détection d'anomalies sur le réseau. === The aim of this thesis is to apply new methodologies to public transportation data. Indeed, we are more and more surrounded by sensors and computers generating huge amount of data. In the field of public transportation, smart cards generate data about our purchases and our travels every time we use them. In this thesis, we used this data for two purposes. First of all, we wanted to be able to detect passenger's groups with similar temporal habits. To that end, we began to use the Non-negative Matrix Factorization as a pre-processing tool for clustering. Then, we introduced the NMF-EM algorithm allowing simultaneous dimension reduction and clustering on a multinomial mixture model. The second purpose of this thesis is to apply regression methods on these data to be able to forecast the number of check-ins on a network and give a range of likely check-ins. We also used this methodology to be able to detect anomalies on the network. |
author2 |
Université Paris-Saclay (ComUE) |
author_facet |
Université Paris-Saclay (ComUE) Carel, Léna |
author |
Carel, Léna |
author_sort |
Carel, Léna |
title |
Analyse de données volumineuses dans le domaine du transport |
title_short |
Analyse de données volumineuses dans le domaine du transport |
title_full |
Analyse de données volumineuses dans le domaine du transport |
title_fullStr |
Analyse de données volumineuses dans le domaine du transport |
title_full_unstemmed |
Analyse de données volumineuses dans le domaine du transport |
title_sort |
analyse de données volumineuses dans le domaine du transport |
publishDate |
2019 |
url |
http://www.theses.fr/2019SACLG001/document |
work_keys_str_mv |
AT carellena analysededonneesvolumineusesdansledomainedutransport AT carellena bigdataanalysisinthefieldoftransportation |
_version_ |
1719311442800279552 |