STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === O emparelhamento estatístico é a técnica de combinar informações de duas ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam um subconjunto comum de variáveis, para produzir uma informação mais abrangente e coerente, e...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
2009
|
Online Access: | http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@2 |
Summary: | PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === O emparelhamento estatístico é a técnica de combinar informações de duas
ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam
um subconjunto comum de variáveis, para produzir uma informação mais
abrangente e coerente, em um arquivo de dados síntese, onde as variáveis
observadas nas diferentes amostras são gravadas conjuntamente. Métodos
computacionalmente intensivos viabilizam novas formas de emparelhamento
estatístico. Em um estudo de simulação, um único arquivo de dados da PNAD é
dividido em duas bases de dados para emular um caso de amostragem matricial.
Esses dois arquivos são emparelhados estatisticamente utilizando quatro
metodologias, e os resultados das mesmas são comparados com as do arquivo
único original. A CIA (conditional independence assumption) não parece ser
válida. Para evitar a suposição de independência condicional (CIA), os três
métodos de emparelhamento estatístico desenvolvidos são baseados na hipótese
do relacionamento teórico de afiliação estocástica entre as variáveis contínuas
renda e aluguel, e dois deles usam também a informação de resíduos. Os métodos
são comparados entre si e com o método clássico, que se baseia na suposição de
independência condicional – CIA. Em uma abordagem não-paramétrica, com um
objetivo micro, os métodos de emparelhamento estatístico propostos são
irrestritos, e realizam-se em classes, definidas pela variável de número de
cômodos. Usam um procedimento distance hot deck, além de adicionar os
resíduos supostos conhecidos. Esse estudo investiga os resultados de viés e do
EQM, dos quatro métodos, investigando a preservação da correlação original
entre renda e aluguel. === Statistical matching is the art of combining information from two or more
datasets, collected in independent samples, but a subset of the variables is
common to both samples, to produce both coherent and comprehensive
information in a synthetic data file, where variables observed in different samples
are jointly recorded. Modern computing can make possible, under techniques
described here, an advance in the application of Statistical Matching. It is
reported on a simulation that splits a single file into two pieces, statistically
matched the pieces using four methodologies and compares the results to the
original single file. The Conditional Independence Assumption (CIA) did not
seem a valid assumption. To avoid CIA, it is suggested two methods of statistical
matching where kind of auxiliary information, based on Stochastic Affiliation
relationship between income and rent, and residuals are used, in conjunction with
nonparametric regression and hot deck distance. Both are compared not only with
the classic method based on the CIA and regression without residuals but also
with each other. In a nonparametric approach, with a micro objective, an
unconstrained statistical matching is applied using hot-deck nearest neighbor
within classes, using the household logarithm income and logarithm rent
percentile groups. We are satisfied with the performance of creating a correlation
coefficient of Y and Ζ , as measured using MSE. |
---|