Aplicação do processo de descoberta de conhecimento em banco de dados acadêmico utilizando as tarefas de agrupamento e classificação

Submitted by MARAÍSA DA SILVA GUERRA null (maraisa.guerra@ifms.edu.br) on 2017-07-29T00:12:01Z No. of bitstreams: 1 relatorio.pdf: 8678616 bytes, checksum: 003c94cceff80c4879b62a63399f0ff9 (MD5) === Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-08-03T14:47:26Z (GM...

Full description

Bibliographic Details
Main Author: Asseiss, Maraísa da Silva Guerra [UNESP]
Other Authors: Universidade Estadual Paulista (UNESP)
Language:Portuguese
Published: Universidade Estadual Paulista (UNESP) 2017
Subjects:
Online Access:http://hdl.handle.net/11449/151251
Description
Summary:Submitted by MARAÍSA DA SILVA GUERRA null (maraisa.guerra@ifms.edu.br) on 2017-07-29T00:12:01Z No. of bitstreams: 1 relatorio.pdf: 8678616 bytes, checksum: 003c94cceff80c4879b62a63399f0ff9 (MD5) === Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-08-03T14:47:26Z (GMT) No. of bitstreams: 1 asseiss_msg_me_ilha.pdf: 8678616 bytes, checksum: 003c94cceff80c4879b62a63399f0ff9 (MD5) === Made available in DSpace on 2017-08-03T14:47:26Z (GMT). No. of bitstreams: 1 asseiss_msg_me_ilha.pdf: 8678616 bytes, checksum: 003c94cceff80c4879b62a63399f0ff9 (MD5) Previous issue date: 2017-06-30 === Nos últimos anos a quantidade de dados armazenados diarimente em empresas e instituições aumentou consideravelmente e um dos motivos que contribuiu para isso é a crescente importân- cia dada à informação. De forma geral, esses dados são meramente armazenados e, portanto, subutilizados pelos seus detentores, enquanto poderiam ser estudados a fim de obter novos co- nhecimentos, informações e relacionamentos. Neste contexto, surge o processo de descoberta de conhecimento em banco de dados. Este trabalho apresenta uma introdução a banco de dados, uma revisão bibliográfica sobre o processo de descoberta de conhecimento em banco de dados, a descrição de cada etapa deste processo, uma explanação sobre as tarefas de agrupamento e classificação, além de resumir brevemente as técnicas de particionamento e árvore de decisão. É exposto um estudo sobre o sistema Weka, em que apresenta-se conceitos, funcionalidades e exemplifica-se diversas formas de utilização do sistema. O objetivo principal deste trabalho é propor uma metodologia para descoberta de novos conhecimentos em bancos de dados acadê- micos baseada no processo de descoberta de conhecimento em banco de dados, sendo esta uma metodologia mais simplificada e de execução mais direcionada. Como parte da metodologia este trabalho contribui ainda com uma aplicação desenvolvida em Python como forma de apoio a etapas da metodologia. A metodologia proposta conta com a ferramenta Weka para execução dos algoritmos de data mining e prevê a execução das tarefas de agrupamento e classifica- ção. Por fim o trabalho retrata dois estudos de caso envolvendo bancos de dados acadêmicos reais e a execução de todas as etapas da metodologia proposta, com a utilização do sistema Weka. Os estudos de caso abordam as tarefas de agrupamento e classificação e as técnicas de particionamento e árvores de decisão, com a utilização dos algoritmos SimpleKMeans e J4.8, respectivamente. Os resultados obtidos através dos estudos mostram que a metodologia pro- posta é capaz de gerar conhecimentos novos e úteis, tanto na análise de dados de desempenho acadêmico quanto na análise de dados socioeconômicos dos alunos. === In the past years the amount of data stored daily in companies increased considerably and one of the reasons that contributed to this fact is the increasing importance given to information. In general these data are merely stored and therefore underused by its owners, while they could be studied in order to find out new knowledge, information and relationship. In this context, the knowledge discovery in database process arises. This work presents an introduction to databa- ses, a bibliographic review about the knowledge discovery in databases process, a description of each step of this process, an explanation about the clustering and classification tasks and the summarization os the partition and decision tree techniques. A study of the Weka system is shown, in wich are presented concepts, functionalities and examples of use forms for the sys- tem. The main objective of this work is the proposal of a methodology for knowledge discovery in academic databases based on the KDD process. The presented methodology is a more sim- plified and directed version of the KDD. As part of the methodology this work also presents an application developed in Python programming language as a support tool for the methodology steps. The presented methodology uses the Weka tool for running the data mining algorithms and considers the clustering and classification tasks. Lastly this work describes two case stu- dies involving real academic databases and the execution of all the steps from the proposted methodology using the Weka system. The case studies addresses the clustering and classifica- tion tasks, as well as the partitioning and decision trees techniques, using the SimpleKMeans and J4.8 algorithms respectively. The obtained results show that the methodology is capable of generating new and useful knowledge, both by analyzing academic performance data and by analyzing students’ socioeconomic data.