Summary: | Submitted by Caroline Xavier (caroline.xavier@pucrs.br) on 2017-06-29T11:51:00Z
No. of bitstreams: 1
DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf: 3650909 bytes, checksum: 55d52061a10460875dba677a9812fe9c (MD5) === Made available in DSpace on 2017-06-29T11:51:00Z (GMT). No. of bitstreams: 1
DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf: 3650909 bytes, checksum: 55d52061a10460875dba677a9812fe9c (MD5)
Previous issue date: 2017-03-20 === Extrair informa??es relevantes a partir de dados n?o ? uma tarefa f?cil. Tais dados podem vir a partir
de lotes ou em fluxos cont?nuos, podem ser completos ou possuir partes faltantes, podem ser duplicados,
e tamb?m podem ser ruidosos. Ademais, existem diversos algoritmos que realizam tarefas de
minera??o de dados e, segundo o teorema do "Almo?o Gr?tis", n?o existe apenas um algoritmo que
venha a solucionar satisfatoriamente todos os poss?veis problemas. Como um obst?culo final, algoritmos
geralmente necessitam que hiper-par?metros sejam definidos, o que n?o surpreendentemente
demanda um m?nimo de conhecimento sobre o dom?nio da aplica??o para que tais par?metros sejam
corretamente definidos. J? que v?rios algoritmos tradicionais empregam estrat?gias de busca local
gulosas, realizar um ajuste fino sobre estes hiper-par?metros se torna uma etapa crucial a fim de obter
modelos preditivos de qualidade superior. Por outro lado, Algoritmos de Estimativa de Distribui??o
realizam uma busca global, geralmente mais eficiente que realizar uma buscam exaustiva sobre todas
as poss?veis solu??es para um determinado problema. Valendo-se de uma fun??o de aptid?o, algoritmos
de estimativa de distribui??o ir?o iterativamente procurar por melhores solu??es durante seu
processo evolutivo. Baseado nos benef?cios que o emprego de algoritmos de estimativa de distribui??o
podem oferecer para as tarefas de agrupamento e indu??o de ?rvores de decis?o, duas tarefas
de minera??o de dados consideradas NP-dif?cil e NP-dif?cil/completo respectivamente, este trabalho
visa desenvolver novos algoritmos de estimativa de distribui??o a fim de obter melhores resultados
em rela??o a m?todos tradicionais que empregam estrat?gias de busca local gulosas, e tamb?m sobre
outros algoritmos evolutivos. === Extracting meaningful information from data is not an easy task. Data can come in batches or through
a continuous stream, and can be incomplete or complete, duplicated, or noisy. Moreover, there are
several algorithms to perform data mining tasks, and the no-free lunch theorem states that there
is not a single best algorithm for all problems. As a final obstacle, algorithms usually require hyperparameters
to be set in order to operate, which not surprisingly often demand a minimum knowledge
of the application domain to be fine-tuned. Since many traditional data mining algorithms employ a
greedy local search strategy, fine-tuning is a crucial step towards achieving better predictive models.
On the other hand, Estimation of Distribution Algorithms perform a global search, which often is
more efficient than performing a wide search through the set of possible parameters. By using a
quality function, estimation of distribution algorithms will iteratively seek better solutions throughout
its evolutionary process. Based on the benefits that estimation of distribution algorithms may offer
to clustering and decision tree-induction, two data mining tasks considered to be NP-hard and NPhard/
complete, respectively, this works aims at developing novel algorithms in order to obtain better
results than traditional, greedy algorithms and baseline evolutionary approaches.
|