A machine learning approach to enhance the privacy of customers
Under ett telefonsamtal mellan en kund och en representant för ett företag utbyts en mängd information. Allt från en kunds namn, identifikationsnummer, hemadress till väderkonversationer och mer vardagliga ämnen. Kunskap om sin kundbas är en viktig del av ett företags verksamhet. Det finns därför et...
Main Authors: | , |
---|---|
Format: | Others |
Language: | English |
Published: |
Malmö universitet, Fakulteten för teknik och samhälle (TS)
2019
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:mau:diva-20629 |
id |
ndltd-UPSALLA1-oai-DiVA.org-mau-20629 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-mau-206292020-10-28T05:38:26ZA machine learning approach to enhance the privacy of customersengAnderberg, JesperFathullah, NazdarMalmö universitet, Fakulteten för teknik och samhälle (TS)Malmö universitet, Fakulteten för teknik och samhälle (TS)Malmö universitet/Teknik och samhälle2019Engineering and TechnologyTeknik och teknologierUnder ett telefonsamtal mellan en kund och en representant för ett företag utbyts en mängd information. Allt från en kunds namn, identifikationsnummer, hemadress till väderkonversationer och mer vardagliga ämnen. Kunskap om sin kundbas är en viktig del av ett företags verksamhet. Det finns därför ett behov av att analysera samtalet mellan kund och företag, för att utveckla och förbättra den övergripande kundservicen och kundkännedomen. Med nya lagstiftningar som GDPR måste dock särskild hänsyn tas vid lagring av personlig information.I detta arbete, undersöker vi möjligheterna att klassificera data från ett transkriberat röstsamtal med hjälp av två maskininlärnings algoritmer, för att utelämna känslig information.En maskininlärningsmodell implementeras med hjälp av en iterativ systemutvecklingsmetod.Genom att tillämpa Naive Bayes och Support Vector Machine algoritmer klassificeraskänslig data såsom en persons namn och plats. Utvärderingsmetoderna 10-fold crossvalidation, learning curve, classification rapport, och ROC kurva används för att utvärdera systemet. Resultaten visar hur algoritmen når en hög noggrannhet när datasetet innehåller fler datapunkter jämfört med ett dataset med färre antal datapunkter. Slutligen, genom att pre-processera datan ökar algoritmernas noggrannhet. During a phone call between a customer and a representative for a company, various amountof information is exchanged. Everything from a customer’s name, identification number,and home address, to weather conversations and more generic subjects. Companies knowledgeabout their customers are a vital part of their business. Therefore, a need to analyzethe conversation in the form of transcripts might be necessary to develop and improvethe overall customer service within a company. However, with new legislation like GDPR,special considerations must be taken into account when storing personal information.In this paper we will examine, by using two machine learning algorithms, the possibilitiesof classifying data from a transcribed phone call, to leave out sensitive information. Themachine learning model is built by following an iterative system development method. Byusing the Naive Bayes and Support Vector Machine algorithms, classification of sensitivedata, such a persons name and location, is conducted. Evaluation methods like 10-foldcross-validation, learning curve, classification report, and ROC curve are used to evaluating the system. The results show that the algorithm achieved a higher accuracy when the dataset contains more data samples, compared to a dataset with less number of data samples. Furthermore, by pre-processing the data, the accuracy of the machine learning models increased. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:mau:diva-20629Local 30440application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Engineering and Technology Teknik och teknologier |
spellingShingle |
Engineering and Technology Teknik och teknologier Anderberg, Jesper Fathullah, Nazdar A machine learning approach to enhance the privacy of customers |
description |
Under ett telefonsamtal mellan en kund och en representant för ett företag utbyts en mängd information. Allt från en kunds namn, identifikationsnummer, hemadress till väderkonversationer och mer vardagliga ämnen. Kunskap om sin kundbas är en viktig del av ett företags verksamhet. Det finns därför ett behov av att analysera samtalet mellan kund och företag, för att utveckla och förbättra den övergripande kundservicen och kundkännedomen. Med nya lagstiftningar som GDPR måste dock särskild hänsyn tas vid lagring av personlig information.I detta arbete, undersöker vi möjligheterna att klassificera data från ett transkriberat röstsamtal med hjälp av två maskininlärnings algoritmer, för att utelämna känslig information.En maskininlärningsmodell implementeras med hjälp av en iterativ systemutvecklingsmetod.Genom att tillämpa Naive Bayes och Support Vector Machine algoritmer klassificeraskänslig data såsom en persons namn och plats. Utvärderingsmetoderna 10-fold crossvalidation, learning curve, classification rapport, och ROC kurva används för att utvärdera systemet. Resultaten visar hur algoritmen når en hög noggrannhet när datasetet innehåller fler datapunkter jämfört med ett dataset med färre antal datapunkter. Slutligen, genom att pre-processera datan ökar algoritmernas noggrannhet. === During a phone call between a customer and a representative for a company, various amountof information is exchanged. Everything from a customer’s name, identification number,and home address, to weather conversations and more generic subjects. Companies knowledgeabout their customers are a vital part of their business. Therefore, a need to analyzethe conversation in the form of transcripts might be necessary to develop and improvethe overall customer service within a company. However, with new legislation like GDPR,special considerations must be taken into account when storing personal information.In this paper we will examine, by using two machine learning algorithms, the possibilitiesof classifying data from a transcribed phone call, to leave out sensitive information. Themachine learning model is built by following an iterative system development method. Byusing the Naive Bayes and Support Vector Machine algorithms, classification of sensitivedata, such a persons name and location, is conducted. Evaluation methods like 10-foldcross-validation, learning curve, classification report, and ROC curve are used to evaluating the system. The results show that the algorithm achieved a higher accuracy when the dataset contains more data samples, compared to a dataset with less number of data samples. Furthermore, by pre-processing the data, the accuracy of the machine learning models increased. |
author |
Anderberg, Jesper Fathullah, Nazdar |
author_facet |
Anderberg, Jesper Fathullah, Nazdar |
author_sort |
Anderberg, Jesper |
title |
A machine learning approach to enhance the privacy of customers |
title_short |
A machine learning approach to enhance the privacy of customers |
title_full |
A machine learning approach to enhance the privacy of customers |
title_fullStr |
A machine learning approach to enhance the privacy of customers |
title_full_unstemmed |
A machine learning approach to enhance the privacy of customers |
title_sort |
machine learning approach to enhance the privacy of customers |
publisher |
Malmö universitet, Fakulteten för teknik och samhälle (TS) |
publishDate |
2019 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:mau:diva-20629 |
work_keys_str_mv |
AT anderbergjesper amachinelearningapproachtoenhancetheprivacyofcustomers AT fathullahnazdar amachinelearningapproachtoenhancetheprivacyofcustomers AT anderbergjesper machinelearningapproachtoenhancetheprivacyofcustomers AT fathullahnazdar machinelearningapproachtoenhancetheprivacyofcustomers |
_version_ |
1719353787753168896 |