A machine learning approach to enhance the privacy of customers
2019 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesis
Abstract [sv]
Under ett telefonsamtal mellan en kund och en representant för ett företag utbyts en mängd information. Allt från en kunds namn, identifikationsnummer, hemadress till väderkonversationer och mer vardagliga ämnen. Kunskap om sin kundbas är en viktig del av ett företags verksamhet. Det finns därför ett behov av att analysera samtalet mellan kund och företag, för att utveckla och förbättra den övergripande kundservicen och kundkännedomen. Med nya lagstiftningar som GDPR måste dock särskild hänsyn tas vid lagring av personlig information.
I detta arbete, undersöker vi möjligheterna att klassificera data från ett transkriberat röstsamtal med hjälp av två maskininlärnings algoritmer, för att utelämna känslig information.
En maskininlärningsmodell implementeras med hjälp av en iterativ systemutvecklingsmetod.
Genom att tillämpa Naive Bayes och Support Vector Machine algoritmer klassificeras
känslig data såsom en persons namn och plats. Utvärderingsmetoderna 10-fold crossvalidation, learning curve, classification rapport, och ROC kurva används för att utvärdera systemet. Resultaten visar hur algoritmen når en hög noggrannhet när datasetet innehåller fler datapunkter jämfört med ett dataset med färre antal datapunkter. Slutligen, genom att pre-processera datan ökar algoritmernas noggrannhet.
Abstract [en]
During a phone call between a customer and a representative for a company, various amount
of information is exchanged. Everything from a customer’s name, identification number,
and home address, to weather conversations and more generic subjects. Companies knowledge
about their customers are a vital part of their business. Therefore, a need to analyze
the conversation in the form of transcripts might be necessary to develop and improve
the overall customer service within a company. However, with new legislation like GDPR,
special considerations must be taken into account when storing personal information.
In this paper we will examine, by using two machine learning algorithms, the possibilities
of classifying data from a transcribed phone call, to leave out sensitive information. The
machine learning model is built by following an iterative system development method. By
using the Naive Bayes and Support Vector Machine algorithms, classification of sensitive
data, such a persons name and location, is conducted. Evaluation methods like 10-fold
cross-validation, learning curve, classification report, and ROC curve are used to evaluating the system. The results show that the algorithm achieved a higher accuracy when the dataset contains more data samples, compared to a dataset with less number of data samples. Furthermore, by pre-processing the data, the accuracy of the machine learning models increased.
Place, publisher, year, edition, pages
Malmö universitet/Teknik och samhälle , 2019. , p. 43
National Category
Engineering and Technology
Identifiers
URN: urn:nbn:se:mau:diva-20629Local ID: 30440OAI: oai:DiVA.org:mau-20629DiVA, id: diva2:1480508
Educational program
TS Datateknik och mobil IT
Supervisors
Examiners
2020-10-272020-10-27Bibliographically approved