STATISTICAL MATCHING USING STOCHASTIC AFFILIATION

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === O emparelhamento estatístico é a técnica de combinar informações de duas ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam um subconjunto comum de variáveis, para produzir uma informação mais abrangente e coerente, e...

Full description

Bibliographic Details
Main Author: NADIA MARIA COELHO RODRIGUES
Other Authors: REINALDO CASTRO SOUZA
Language:Portuguese
Published: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO 2009
Online Access:http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@1
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@2
Description
Summary:PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === O emparelhamento estatístico é a técnica de combinar informações de duas ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam um subconjunto comum de variáveis, para produzir uma informação mais abrangente e coerente, em um arquivo de dados síntese, onde as variáveis observadas nas diferentes amostras são gravadas conjuntamente. Métodos computacionalmente intensivos viabilizam novas formas de emparelhamento estatístico. Em um estudo de simulação, um único arquivo de dados da PNAD é dividido em duas bases de dados para emular um caso de amostragem matricial. Esses dois arquivos são emparelhados estatisticamente utilizando quatro metodologias, e os resultados das mesmas são comparados com as do arquivo único original. A CIA (conditional independence assumption) não parece ser válida. Para evitar a suposição de independência condicional (CIA), os três métodos de emparelhamento estatístico desenvolvidos são baseados na hipótese do relacionamento teórico de afiliação estocástica entre as variáveis contínuas renda e aluguel, e dois deles usam também a informação de resíduos. Os métodos são comparados entre si e com o método clássico, que se baseia na suposição de independência condicional – CIA. Em uma abordagem não-paramétrica, com um objetivo micro, os métodos de emparelhamento estatístico propostos são irrestritos, e realizam-se em classes, definidas pela variável de número de cômodos. Usam um procedimento distance hot deck, além de adicionar os resíduos supostos conhecidos. Esse estudo investiga os resultados de viés e do EQM, dos quatro métodos, investigando a preservação da correlação original entre renda e aluguel. === Statistical matching is the art of combining information from two or more datasets, collected in independent samples, but a subset of the variables is common to both samples, to produce both coherent and comprehensive information in a synthetic data file, where variables observed in different samples are jointly recorded. Modern computing can make possible, under techniques described here, an advance in the application of Statistical Matching. It is reported on a simulation that splits a single file into two pieces, statistically matched the pieces using four methodologies and compares the results to the original single file. The Conditional Independence Assumption (CIA) did not seem a valid assumption. To avoid CIA, it is suggested two methods of statistical matching where kind of auxiliary information, based on Stochastic Affiliation relationship between income and rent, and residuals are used, in conjunction with nonparametric regression and hot deck distance. Both are compared not only with the classic method based on the CIA and regression without residuals but also with each other. In a nonparametric approach, with a micro objective, an unconstrained statistical matching is applied using hot-deck nearest neighbor within classes, using the household logarithm income and logarithm rent percentile groups. We are satisfied with the performance of creating a correlation coefficient of Y and Ζ , as measured using MSE.