Teoria da informação aplicada a modelos Arma: testes para identificação e quantificação de Overfitting

Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-07-08T18:20:15Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertacao_Versao_Digital.pdf: 3769752 bytes, checksum: 03891a74bed6d1446c1f5738946e6cef (MD5) === Made avai...

Full description

Bibliographic Details
Main Author: ALMEIDA JÚNIOR, Pedro Monteiro de
Other Authors: NASCIMENTO, Abraão David Costa do
Language:Portuguese
Published: Universidade Federal de Pernambuco 2016
Subjects:
Online Access:https://repositorio.ufpe.br/handle/123456789/17302
Description
Summary:Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-07-08T18:20:15Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertacao_Versao_Digital.pdf: 3769752 bytes, checksum: 03891a74bed6d1446c1f5738946e6cef (MD5) === Made available in DSpace on 2016-07-08T18:20:15Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertacao_Versao_Digital.pdf: 3769752 bytes, checksum: 03891a74bed6d1446c1f5738946e6cef (MD5) Previous issue date: 2016-02-26 === CAPES === Dados registrados sequencialmente sobre um determinado período são frequentes em várias aplicações; tais como, em reconhecimento padrão (ISHI et al., 1998) e em processamento de imagens de radar (DUTRA, 1989). Diferentemente de contextos suportados pela independência das observações, dados desta natureza impõem uma estrutura de correlação que deve ser considerada nos modelos. Apresentamos inicialmente um estudo de desempenho via simulação de Monte Carlo para três métodos de estimação na classe de modelos ARMA: Máxima Verossimilhança Condicional, Não Condicional e Mínimos Quadrados Não Condicional. Vários estudos têm sido feitos neste sentido (vê, por exemplo, YU, 2004). Entretanto, faltam estudos que trabalhem sobre uma discretização razoável da região de estabilidade e que avaliem a influência da estimação sobre densidades ajustadas dos processos ARMA. Para vários pontos paramétricos da região de estabilidade, os três métodos são comparados à luz de medidas da Teoria da Informação, a saber as divergências de Kullback-Leibler, Jensen-Shannon, Battacharyya e Hellinger. Adicionalmente, as medidas utilizadas para quantificação do desempenho dos métodos de estimação são entendidas como elementos na classe (h, ) de divergências proposta por Salicrú et al. (1994) e cinco novos testes de hipótese bilaterais (caso em que não há testes uniformemente mais poderosos) para identificação de modelos ARMA são propostos e comparados com o teste da razão entre verossimilhanças. Além disso, vários trabalhos têm avançado quanto à proposta de critérios para seleção de modelos na classe ARMA. McQuarrie e Tsai (1998) utilizaram a probabilidade de overfitting (isto é, escolher o modelo com ordem maior dado que o modelo verdadeiro tem ordem menor) como critério de comparação. A ideia de quantificar o erro da escolha entre modelos de probabilidade também foi estudada por Shannon (1948) que propôs os conceitos de informação, entropia e divergência. Nesta dissertação, propomos novos critérios para seleção de modelos em séries temporais baseados em medidas de distância. O desempenho dos novos critérios quantificados em termos da probabilidade de overfitting é comparado com outros métodos da literatura. Finalmente, as medidas derivadas são utilizadas como classificadores em imagens PolSAR. === Data recorded sequentially on a given period are common on several applications; such as in pattern recognition (ISHI et al., 1998) and in radar image processing (DUTRA, 1989). Unlike contexts supported by independence assumption, data of this nature impose correlation patterns that should be considered in used models. In this dissertation, we first present a performance study of three estimation methods in the ARMA class: Conditional and Non-Conditional Maximum Likelihood and Least Squares. Several works have addressed the quantification of the performance on ARMA estimation methods. However, they neither present studies on several points of stability regions nor consider the effect of estimation procedures on ARMA process densities. These methods are compared by means of the Information Theory measures, say Kullback-Leibler, Jensen-Shannon, Battacharyya and Hellinger divergences. Further, the measures used to quantify the performance of the estimation methods are understood within the class (h, )–divergences proposed by Salicrú et al. (1994) and five new bilateral hypothesis tests (case on which there are not uniformly most powerful tests) for ARMA identification are proposed and compared with the likelihood ratio test. McQuarrie e Tsai (1998) considered the overfitting (to study and the performance of those methods) probability as a comparison criterion. The idea of quantifying the error of the model choose was introduced by Shannon (1948) who proposed the concepts of information, entropy and divergence. In this dissertation, we propose new selection criteria for time series models. The proposals are formulated taken into account distance measures between probability distributions. The performance of new criteria are quantified in terms of the overfitting probability and compared to those due to literature methods. Finally, the derived measures are employed as classifiers on PolSAR images.