Summary: | Made available in DSpace on 2017-07-21T14:19:22Z (GMT). No. of bitstreams: 1
Valter Luis.pdf: 3516533 bytes, checksum: d498d5c67dd1b9a837a128c20cabef67 (MD5)
Previous issue date: 2015-02-26 === The interestingness area of data mining process aiming to reduce the amount of models to be analyzed for experts in the interpretation step of the knowledge discovery in databases. In this work, a method for analysis the interestingness of regression models was developed. This method combine probabilistic multivariate models with Pearson correlation test and Wilcoxon signed-rank test resulting in a new interestingness measure, named Impact. The developed method was applied over regression models found during a data mining process for estimating agricultural gypsum requirements. The results showed that the probabilistic multivariate filter was able to filter the best models according to a utility-based approach, in this case, for practical application on agriculture. Six models were considered interesting, with Impact score > 0.5, and only one was miscategorized. On the other hand, the combined statistical test filters were able to filter six models two of them were miscategorized. The attributes identified as most relevant to estimate gypsum rate were: time, Ca and its concentration on effective cation exchange capacity (CaCTCe), mainly in superficial layers. === A interessabilidade de regras é uma área da mineração de dados que tem por objetivo reduzir a quantidade de modelos a serem analisados por especialistas na etapa de interpretação do conhecimento descoberto em bases de dados. Embora existam várias medidas de interesse de regras voltadas para as tarefas de associação e classificação, observa-se uma falta de métodos consolidados para análise de interessabilidade de modelos de regressão. Neste trabalho foi desenvolvido um método para analisar a interessabilidade de modelos de regressão, o qual combina um filtro baseado em modelos probabilísticos multivariados com filtros baseados em testes estatísticos de correlação de Pearson e de postos de sinais de Wilcoxon, resultando em uma nova medida de interessabilidade denominada Impacto. O método desenvolvido foi aplicado sobre modelos de regressão encontrados no processo de mineração de dados para estimativa de gesso agrícola. Estes dados resultam de três experimentos sob Sistema Plantio Direto realizados na Região dos Campos Gerais, PR, nos quais foram medidos, em diferentes épocas, os teores dos nutrientes do solo após a aplicação de doses de gesso. Os resultados mostraram que o filtro probabilístico multivariado foi capaz de filtrar os melhores modelos segundo uma visão de utilidade, ou seja, de potencial de aplicação agronômica. Foram selecionados seis modelos com score de Impacto > 0,5, ou seja, considerados interessantes, e destes apenas um foi considerado incorretamente classificado. Por outro lado, os filtros baseados em testes estatísticos foram capazes de filtrar seis modelos sendo que dois deles podem ser considerados incorretamente classificados. Os atributos identificados como mais relevantes para o problema do gesso agrícola foram a época, o teor de Ca e a concentração de Ca em relação à capacidade de troca catiônica efetiva (CTCe), especialmente em camadas superficiais do solo.
|