Examining Machine Learning as an alternative for scalable video analysis

Video is a large part of today’s society where surveillance cameras represent the biggest source of big data, and real-time entertainment is the largest network traffic category. There is currently a large interest in analysing the contents of video where video analysis is mainly conducted by people...

Full description

Bibliographic Details
Main Authors: Ragnar, Niclas, Tolic, Zoran
Format: Others
Language:English
Published: KTH, Hälsoinformatik och logistik 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-248437
id ndltd-UPSALLA1-oai-DiVA.org-kth-248437
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic Machine Learning
MLaaS
Microsoft
Google
DeepAI
Aylien
video analysis
transcription
translation
summarisation
Word Error Rate
BLEU
Maskininlärning
MLaaS
Microsoft
Google
videoanalys
transkribering
översättning
sammanfattning
word error rate
BLEU
Computer Sciences
Datavetenskap (datalogi)
spellingShingle Machine Learning
MLaaS
Microsoft
Google
DeepAI
Aylien
video analysis
transcription
translation
summarisation
Word Error Rate
BLEU
Maskininlärning
MLaaS
Microsoft
Google
videoanalys
transkribering
översättning
sammanfattning
word error rate
BLEU
Computer Sciences
Datavetenskap (datalogi)
Ragnar, Niclas
Tolic, Zoran
Examining Machine Learning as an alternative for scalable video analysis
description Video is a large part of today’s society where surveillance cameras represent the biggest source of big data, and real-time entertainment is the largest network traffic category. There is currently a large interest in analysing the contents of video where video analysis is mainly conducted by people. This increase in video has for instance made it difficult for professional editors to analyse movies and series in a scalable way, and alternative solutions are needed. The media technology company June, want to explore scalable alternatives for extracting metadata from video. With recent advances in Machine Learning and the rise of machine-learning-asa-service platforms, June wished more specifically to explore how these Machine Learning services can be utilised for extracting metadata from videos, and from it construct a summary regarding its contents. This work examined Machine Learning as an option for scalable video summarisation which resulted in developing and evaluating an application that utilised transcription, summarisation, and translation services to produce a text based summarisation of video. Furthermore to examine the services current state of affairs, multiple services from different providers were tested, evaluated and compared to each other. Lastly, in order to evaluate the summarisation services an evaluation model was developed. The test results showed that the translation services were the only service that produced good results. Transcription and summarisation performed poorly in the tests which renders the suggested solution of combining the three services for video summarisation as impractical. === Video är en stor del av dagens samhälle där bland annat övervakningskameror är den största källan av data och underhållning i realtid är den kategori som står för mest nätverkstrafik. Det finns i dagsläget ett stort intresse i att analysera innehållet av video, denna videoanalys utförs även främst av människor. Ökningen av video har gjort det svårt för exempelvis professionella redaktörer att hinna analysera filmer och serier och mer skalbara alternativ behövs. Mediaföretaget June vill utforska alternativ för att extrahera metadata från video på ett skalbart sätt. Med de senaste framstegen inom maskininlärning och framväxten av machine-learningas-a-service plattformar, önskar June mer specifikt att utforska hur maskininlärning kan nyttjas för att extrahera metadata från video och med det konstruera en sammanfattning av innehållet. Det utförda arbetet undersökte maskininlärning som skalbart alternativ för att kunna sammanfatta videos innehåll. Arbetet resulterade i utvecklandet samt utvärderingen av en applikation som nyttjade maskininlärningstjänster för transkribering, sammanfattning samt översättning för att producera en textbaserad sammanfattning av videos innehåll. För att utvärdera tjänsternas nuvarande tillstånd så testades samt utvärderades tjänster från olika leverantörer för att sedan jämföras mot varandra. Slutligen framtogs en egenutvecklad modell för att kunna utvärdera tjänsterna för sammanfattning. Testresultaten visade att tjänsterna för översättning var de enda tjänsterna som gav bra resultat. Tjänsterna för transkribering och sammanfattning gav dåliga resultat vilket gör den föreslagna lösningen av att kombinera de tre tjänsterna för att sammanfatta videoinnehåll som opraktisk.
author Ragnar, Niclas
Tolic, Zoran
author_facet Ragnar, Niclas
Tolic, Zoran
author_sort Ragnar, Niclas
title Examining Machine Learning as an alternative for scalable video analysis
title_short Examining Machine Learning as an alternative for scalable video analysis
title_full Examining Machine Learning as an alternative for scalable video analysis
title_fullStr Examining Machine Learning as an alternative for scalable video analysis
title_full_unstemmed Examining Machine Learning as an alternative for scalable video analysis
title_sort examining machine learning as an alternative for scalable video analysis
publisher KTH, Hälsoinformatik och logistik
publishDate 2019
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-248437
work_keys_str_mv AT ragnarniclas examiningmachinelearningasanalternativeforscalablevideoanalysis
AT toliczoran examiningmachinelearningasanalternativeforscalablevideoanalysis
AT ragnarniclas enutvarderingavmaskininlarningsomalternativforskalbarvideoanalys
AT toliczoran enutvarderingavmaskininlarningsomalternativforskalbarvideoanalys
_version_ 1719190545726701568
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2484372019-05-17T04:26:34ZExamining Machine Learning as an alternative for scalable video analysisengEn utvärdering av maskininlärning som alternativ för skalbar videoanalysRagnar, NiclasTolic, ZoranKTH, Hälsoinformatik och logistikKTH, Hälsoinformatik och logistik2019Machine LearningMLaaSMicrosoftGoogleDeepAIAylienvideo analysistranscriptiontranslationsummarisationWord Error RateBLEUMaskininlärningMLaaSMicrosoftGooglevideoanalystranskriberingöversättningsammanfattningword error rateBLEUComputer SciencesDatavetenskap (datalogi)Video is a large part of today’s society where surveillance cameras represent the biggest source of big data, and real-time entertainment is the largest network traffic category. There is currently a large interest in analysing the contents of video where video analysis is mainly conducted by people. This increase in video has for instance made it difficult for professional editors to analyse movies and series in a scalable way, and alternative solutions are needed. The media technology company June, want to explore scalable alternatives for extracting metadata from video. With recent advances in Machine Learning and the rise of machine-learning-asa-service platforms, June wished more specifically to explore how these Machine Learning services can be utilised for extracting metadata from videos, and from it construct a summary regarding its contents. This work examined Machine Learning as an option for scalable video summarisation which resulted in developing and evaluating an application that utilised transcription, summarisation, and translation services to produce a text based summarisation of video. Furthermore to examine the services current state of affairs, multiple services from different providers were tested, evaluated and compared to each other. Lastly, in order to evaluate the summarisation services an evaluation model was developed. The test results showed that the translation services were the only service that produced good results. Transcription and summarisation performed poorly in the tests which renders the suggested solution of combining the three services for video summarisation as impractical. Video är en stor del av dagens samhälle där bland annat övervakningskameror är den största källan av data och underhållning i realtid är den kategori som står för mest nätverkstrafik. Det finns i dagsläget ett stort intresse i att analysera innehållet av video, denna videoanalys utförs även främst av människor. Ökningen av video har gjort det svårt för exempelvis professionella redaktörer att hinna analysera filmer och serier och mer skalbara alternativ behövs. Mediaföretaget June vill utforska alternativ för att extrahera metadata från video på ett skalbart sätt. Med de senaste framstegen inom maskininlärning och framväxten av machine-learningas-a-service plattformar, önskar June mer specifikt att utforska hur maskininlärning kan nyttjas för att extrahera metadata från video och med det konstruera en sammanfattning av innehållet. Det utförda arbetet undersökte maskininlärning som skalbart alternativ för att kunna sammanfatta videos innehåll. Arbetet resulterade i utvecklandet samt utvärderingen av en applikation som nyttjade maskininlärningstjänster för transkribering, sammanfattning samt översättning för att producera en textbaserad sammanfattning av videos innehåll. För att utvärdera tjänsternas nuvarande tillstånd så testades samt utvärderades tjänster från olika leverantörer för att sedan jämföras mot varandra. Slutligen framtogs en egenutvecklad modell för att kunna utvärdera tjänsterna för sammanfattning. Testresultaten visade att tjänsterna för översättning var de enda tjänsterna som gav bra resultat. Tjänsterna för transkribering och sammanfattning gav dåliga resultat vilket gör den föreslagna lösningen av att kombinera de tre tjänsterna för att sammanfatta videoinnehåll som opraktisk. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-248437TRITA-CBH-GRU ; 2019:013application/pdfinfo:eu-repo/semantics/openAccess