Summary: | Devido à crescente pressão competitiva, a entrega de produtos de alta qualidade continua a evoluir como um fator essencial para garantir o sucesso a longo prazo de uma empresa. Com a introdução da Indústria 4.0 e abordagens baseadas em análise de dados, os processos de controlo de qualidade deram um passo em frente, permitindo que as empresas prevejam a qualidade dos seus produtos através da monitorização continua do seu processo de fabrico.
O objetivo deste trabalho é estudar a possibilidade de detetar medições incorretas realizadas pelos sensores do sistema de triagem de controlo de qualidade NDtech, aumentando assim a fiabilidade do sistema. A deteção incorreta do contaminante 2,4,6-Tricloroanisol e a subsequente classificação das rolhas de cortiça, conduz ao aparecimento de falsos positivos e falsos negativos. Os falsos negativos são particularmente prejudiciais à reputação comercial da empresa. Os desafios do trabalho são caracterizar de forma otimizada e automática os comportamentos de interesse, a partir da monitorização dos dados dos sensores, e utilizá-los para garantir a classificação contínua e precisa de rolhas de cortiça natural topo de gama.
Nesta dissertação analisou-se e desenvolveu-se modelos de classificação para detectar anomalias no comportamento dos sensores. As principais contribuições foram a análise das features que melhor representam o problema de deteção de anomalias, o desenvolvimento e estudo de diversas estratégias de machine learning, que poderão servir de base para trabalhos futuros, e a exploração de técnicas para lidar com conjuntos de dados não balanceados.
Duas abordagens foram comparadas: na primeira abordagem, os modelos foram treinados usando os dados não balanceados e, na segunda, uma técnica de sobreamostragem denominada Synthetic Minority Oversampling Technique (SMOTE) foi aplicada para aumentar os dados. Os modelos estudados em ambas as abordagens foram Decision Trees (DT), k-Nearest Neighbours (k-NN), Random Forests (RF), Logistic Regression (LR) e Support Vector Machine (SVM). Para cada modelo, foram aplicados dois métodos de feature selection, PCA e ETC. Duas combinações adicionais de features foram selecionadas sem recorrer a técnicas de feature selection - utilizou-se todas as extraídas e apenas duas (valores médios de TCA dos módulos target e virtual).
Os resultados obtidos demonstraram que o SMOTE revelou ser uma técnica eficaz para superar o problema do conjunto de dados não balanceados, melhorando o desempenho de todos os modelos para todas as técnicas de feature selection em 16,5%. Os modelos DT, em particular, mostraram melhores resultados neste problema de deteção de anomalias com desempenhos de F1-score de 73,10% e 91,09% usando os dados não balanceados e a técnica SMOTE, respectivamente.
Palavras-chave: Deteção de anomalias; Sensores Eletroquímicos; Qualidade Preditiva; Técnicas de amostragem; Machine Learning; 2,4,6-Tricloroanisole. === Due to the ever-growing competitive pressure, the supply of high-quality products continues to evolve as an essential factor in securing a company's long-term success. With the emergence of Industry 4.0 and data-driven approaches, the quality control processes have taken a step further, enabling companies to predict product quality by continuously monitoring the manufacturing process.
This work's aim is to investigate the possibility of inferring incorrect sensor measurements produced by the NDtech quality control screening system, and thereby increasing the systems' reliability. The incorrect detection of the 2,4,6-Trichloroanisole contaminate and subsequent classification of the cork stoppers leads to the appearance of false positives and false negatives. The false negatives are particularly harmful to the company's business reputation. The work's challenges are to optimally and automatically characterise behaviours of interest from monitoring sensor data and use them to guarantee the continuous and accurate classification of high-end natural cork stoppers.
This dissertation analysed and developed classification models to detect anomalies in sensor data. The main contributions were the analysis of the features that best represent the anomaly detection problem, the development and study of several machine learning strategies that will be the basis for future work, and the exploration of techniques for dealing with imbalanced data sets.
Two approaches were compared: in the first approach, the models were trained using the imbalanced data, and in the second, an oversampling technique named Synthetic Minority Oversampling Technique (SMOTE) was used to augment the data. The models studied in both approaches were Decision Trees (DT), k-Nearest Neighbours (k-NN), Random Forests (RF), Logistic Regression (LR) and Support Vector Machine (SVM). For each model, two feature selection methods, PCA and ETC, were used. Two additional combinations of features were selected without resorting to feature selection techniques - using all the features extracted and only using two features (mean TCA values of the target and virtual modules).
The results obtained demonstrated that SMOTE revealed to be an effective technique to overcame the imbalanced data set problem, improving all model performances for all feature selection techniques by 16.5%. The DT models, in particular, showed better results in this anomaly detection problem with F1-score performances of 73.10% and 91.09% using the imbalanced data and SMOTE technique, respectively.
Keywords: Anomaly Detection; Electrochemical Sensors; Predictive Quality; Sampling techniques; Machine Learning; 2,4,6-Trichloroanisole.
|