Modeling News Data Flows using Multivariate Hawkes Processes

This thesis presents a multivariate Hawkes process approach to model flows of news data. The data is divided into classes based on the news' content and sentiment levels, such that each class contains a homogeneous type of observations. The arrival times of news in each class are related to a u...

Full description

Bibliographic Details
Main Author: Alpsten, Erik
Format: Others
Language:English
Published: KTH, Matematisk statistik 2018
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-229061
id ndltd-UPSALLA1-oai-DiVA.org-kth-229061
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2290612018-06-09T05:29:00ZModeling News Data Flows using Multivariate Hawkes ProcessesengModellering av nyhetsdataflöden med multivariata hawkesprocesserAlpsten, ErikKTH, Matematisk statistik2018Computational MathematicsBeräkningsmatematikThis thesis presents a multivariate Hawkes process approach to model flows of news data. The data is divided into classes based on the news' content and sentiment levels, such that each class contains a homogeneous type of observations. The arrival times of news in each class are related to a unique element in the multivariate Hawkes process. Given this framework, the massive and complex flow of information is given a more compact representation that describes the excitation connections between news classes, which in turn can be used to better predict the future flow of news data. Such a model has potential applications in areas such as finance and security. This thesis focuses especially on the different bucket sizes used in the discretization of the time scale as well as the differences in results that these imply. The study uses aggregated news data provided by RavenPack and software implementations are written in Python using the TensorFlow package. For the cases with larger bucket sizes and datasets containing a larger number of observations, the results suggest that the Hawkes models give a better fit to training data than the Poisson model alternatives. The Poisson models tend to give better performance when models trained on historic data are tested on subsequent data flows. Moreover, the connections between news classes are given to vary significantly depending on the underlying datasets. The results indicate that lack of observations in certain news classes lead to over-fitting in the training of the Hawkes models and that the model ought to be extended to take into account the deterministic and periodic behaviors of the news data flows. Detta examensarbete presenterar en multivariat hawkesprocess som modell för flöden av nyhetsdata. Den givna datan delas upp i klasser baserat på nyheternas ämnen och sentimentnivåer. På sådant sätt ges att varje klass innehåller en mer homogen typ av datapunkter. Ankomsttiden för nyheterna inom varje klass relateras till ett unikt element i den multivariata hawkesprocessen. Givet denna modell ges det massiva och komplexa informationsflödet en mer kompakt representation som beskriver kopplingarna mellan nyhetsgrupperna och som kan användas för att bättre predicera det framtida flödet av nyheter, vilket är av intresse inom områden som säkerhet och finans. Arbetet fokuserar framförallt på de olika storleksordningar som används vid diskretisering av tidsskalan, samt de skillnader i resultat som dessa implicerar. Studien använder aggregerad nyhetsdata från RavenPack och implementationen skrevs i Python med hjälp av TensorFlow. För testerna med större tidsskalor och dataset som innehåller större mängd observationer ger resultaten att hawkesmodellerna anpassas bättre till träningsdata än de enklare poissonmodellerna. Dock tenderar poissonmodellerna ge bättre prestanda när modellerna som tränats på historiska data sedan testas på efterföljande nyhetsdataflöden. Dessutom fås att kopplingarna mellan nyhetsklasserna varierar avsevärt beroende på underliggande dataset. Resultaten tyder på att bristen på observationer i vissa nyhetsgrupper leder till överpassning i träningen av hawkesmodellerna och att modellen bör utvidgas för att bättre ta hänsyn till de fenomen i nyhetsdataflödet som är deterministiska och periodiska. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-229061TRITA-SCI-GRU ; 2018:2212application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computational Mathematics
Beräkningsmatematik
spellingShingle Computational Mathematics
Beräkningsmatematik
Alpsten, Erik
Modeling News Data Flows using Multivariate Hawkes Processes
description This thesis presents a multivariate Hawkes process approach to model flows of news data. The data is divided into classes based on the news' content and sentiment levels, such that each class contains a homogeneous type of observations. The arrival times of news in each class are related to a unique element in the multivariate Hawkes process. Given this framework, the massive and complex flow of information is given a more compact representation that describes the excitation connections between news classes, which in turn can be used to better predict the future flow of news data. Such a model has potential applications in areas such as finance and security. This thesis focuses especially on the different bucket sizes used in the discretization of the time scale as well as the differences in results that these imply. The study uses aggregated news data provided by RavenPack and software implementations are written in Python using the TensorFlow package. For the cases with larger bucket sizes and datasets containing a larger number of observations, the results suggest that the Hawkes models give a better fit to training data than the Poisson model alternatives. The Poisson models tend to give better performance when models trained on historic data are tested on subsequent data flows. Moreover, the connections between news classes are given to vary significantly depending on the underlying datasets. The results indicate that lack of observations in certain news classes lead to over-fitting in the training of the Hawkes models and that the model ought to be extended to take into account the deterministic and periodic behaviors of the news data flows. === Detta examensarbete presenterar en multivariat hawkesprocess som modell för flöden av nyhetsdata. Den givna datan delas upp i klasser baserat på nyheternas ämnen och sentimentnivåer. På sådant sätt ges att varje klass innehåller en mer homogen typ av datapunkter. Ankomsttiden för nyheterna inom varje klass relateras till ett unikt element i den multivariata hawkesprocessen. Givet denna modell ges det massiva och komplexa informationsflödet en mer kompakt representation som beskriver kopplingarna mellan nyhetsgrupperna och som kan användas för att bättre predicera det framtida flödet av nyheter, vilket är av intresse inom områden som säkerhet och finans. Arbetet fokuserar framförallt på de olika storleksordningar som används vid diskretisering av tidsskalan, samt de skillnader i resultat som dessa implicerar. Studien använder aggregerad nyhetsdata från RavenPack och implementationen skrevs i Python med hjälp av TensorFlow. För testerna med större tidsskalor och dataset som innehåller större mängd observationer ger resultaten att hawkesmodellerna anpassas bättre till träningsdata än de enklare poissonmodellerna. Dock tenderar poissonmodellerna ge bättre prestanda när modellerna som tränats på historiska data sedan testas på efterföljande nyhetsdataflöden. Dessutom fås att kopplingarna mellan nyhetsklasserna varierar avsevärt beroende på underliggande dataset. Resultaten tyder på att bristen på observationer i vissa nyhetsgrupper leder till överpassning i träningen av hawkesmodellerna och att modellen bör utvidgas för att bättre ta hänsyn till de fenomen i nyhetsdataflödet som är deterministiska och periodiska.
author Alpsten, Erik
author_facet Alpsten, Erik
author_sort Alpsten, Erik
title Modeling News Data Flows using Multivariate Hawkes Processes
title_short Modeling News Data Flows using Multivariate Hawkes Processes
title_full Modeling News Data Flows using Multivariate Hawkes Processes
title_fullStr Modeling News Data Flows using Multivariate Hawkes Processes
title_full_unstemmed Modeling News Data Flows using Multivariate Hawkes Processes
title_sort modeling news data flows using multivariate hawkes processes
publisher KTH, Matematisk statistik
publishDate 2018
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-229061
work_keys_str_mv AT alpstenerik modelingnewsdataflowsusingmultivariatehawkesprocesses
AT alpstenerik modelleringavnyhetsdataflodenmedmultivariatahawkesprocesser
_version_ 1718693551438561280