Summary: | Abstract. Plenty of devices are connected to the Internet and the number is growing. A lot of data can be extracted from those devices. Using data mining approach that data can be transformed into valuable information.
This work analyses data sources and devices in the Internet of Things ecosystem developed by Arm ltd. The ecosystem includes Mbed OS operating system for embedded devices and Pelion Cloud for device management. Data sources available in the ecosystem are mapped and analysed. A toolbox is created for analysing the data with the goal of separating differently behaving devices into separate clusters. Methods used are machine learning based.
The system utilises events generated by Pelion and memory usage data gathered on devices. Combining the two data sources produces temporal data describing operations of each device. Using Hidden Markov Models that data is transformed into a similarity matrix describing similarity of devices behaviour. The matrix is then analysed using clustering methods with the purpose of separating devices into groups by behaviour. Dimensionality reduction methods are applied to data and the results are visualised.
The test dataset used in this work was small, only 10 devices. The results show some promise and warrant a follow-up study using a larger dataset to further improve the toolbox.Työkalun luonti IoT-laitteiden käyttäytymisen analysointiin datan rikastusmenetelmillä. Tiivistelmä. Internetiin on kytkettynä valtava määrä laitteita ja niitä kytketään jatkuvasti lisää. Kytketyistä laitteista voidaan kerätä suuri määrä dataa. Datan louhintamenetelmillä tuo data voidaan muuntaa arvokkaaksi tiedoksi.
Tässä työssä tutkitaan datalähteitä ja laitteita ohjelmistoyhtiö Arm ltd:n kehittämässä esineiden internetin ekosysteemissä. Ekosysteemiin kuuluu Mbed OS käyttöjärjestelmä sulautetuille laitteille ja Pelion Cloud palvelu laitteiden hallintaan. Ekosysteemissä saatavilla olevat datalähteet kartoitetaan ja analysoidaan. Työssä rakennetaan työkalu, jonka tarkoituksena on tunnistaa laitteet, joiden toiminta eroaa muista vastaavista laitteista. Käytetyt menetelmät ovat koneoppimispohjaisia.
Työkalu hyödyntää tapahtumia, jotka tallennetaan Pelioniin laitteiden elinkaaren aikana ja muistin käyttömääriä, jotka on kerätty laitteilta. Yhdistämällä nämä datalähteet syntyy aikajana, joka kuvaa laitteen toimintaa. Käyttämällä piilotettuja Markovin malleja aikajana muunnetaan matriisiksi, joka kuvaa laitteiden käyttäytymisen samankaltaisuutta. Ryhmittelymenetelmiä käytetään matriisin analysointiin, tavoitteena jakaa laitteet ryhmiin käyttäytymisen samankaltaisuuden perusteella. Datan ulotteisuutta pienennetään siihen soveltuvilla menetelmillä. Tämän jälkeen tulos visualisoidaan.
Testidatan määrä työssä oli pieni, vain 10 laitetta. Tulokset osoittavat jonkin verran lupausta menetelmien toimivuudesta ja oikeuttavat työkalun jatkotutkimuksen isommalla datamäärällä.
|