STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === O emparelhamento estatístico é a técnica de combinar informações de duas ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam um subconjunto comum de variáveis, para produzir uma informação mais abrangente e coerente, e...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
2009
|
Online Access: | http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@2 |
id |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-18397 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-183972019-03-01T15:39:41Z STATISTICAL MATCHING USING STOCHASTIC AFFILIATION CONCATENAÇÃO ESTATÍSTICA DE DADOS E AFILIAÇÃO ESTOCÁSTICA NADIA MARIA COELHO RODRIGUES REINALDO CASTRO SOUZA KAIZO IWAKAMI BELTRAO KAIZO IWAKAMI BELTRAO MONICA BARROS MONICA BARROS MONICA BARROS REINALDO CASTRO SOUZA VICTOR HUGO DE CARVALHO GOUVEA PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO O emparelhamento estatístico é a técnica de combinar informações de duas ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam um subconjunto comum de variáveis, para produzir uma informação mais abrangente e coerente, em um arquivo de dados síntese, onde as variáveis observadas nas diferentes amostras são gravadas conjuntamente. Métodos computacionalmente intensivos viabilizam novas formas de emparelhamento estatístico. Em um estudo de simulação, um único arquivo de dados da PNAD é dividido em duas bases de dados para emular um caso de amostragem matricial. Esses dois arquivos são emparelhados estatisticamente utilizando quatro metodologias, e os resultados das mesmas são comparados com as do arquivo único original. A CIA (conditional independence assumption) não parece ser válida. Para evitar a suposição de independência condicional (CIA), os três métodos de emparelhamento estatístico desenvolvidos são baseados na hipótese do relacionamento teórico de afiliação estocástica entre as variáveis contínuas renda e aluguel, e dois deles usam também a informação de resíduos. Os métodos são comparados entre si e com o método clássico, que se baseia na suposição de independência condicional – CIA. Em uma abordagem não-paramétrica, com um objetivo micro, os métodos de emparelhamento estatístico propostos são irrestritos, e realizam-se em classes, definidas pela variável de número de cômodos. Usam um procedimento distance hot deck, além de adicionar os resíduos supostos conhecidos. Esse estudo investiga os resultados de viés e do EQM, dos quatro métodos, investigando a preservação da correlação original entre renda e aluguel. Statistical matching is the art of combining information from two or more datasets, collected in independent samples, but a subset of the variables is common to both samples, to produce both coherent and comprehensive information in a synthetic data file, where variables observed in different samples are jointly recorded. Modern computing can make possible, under techniques described here, an advance in the application of Statistical Matching. It is reported on a simulation that splits a single file into two pieces, statistically matched the pieces using four methodologies and compares the results to the original single file. The Conditional Independence Assumption (CIA) did not seem a valid assumption. To avoid CIA, it is suggested two methods of statistical matching where kind of auxiliary information, based on Stochastic Affiliation relationship between income and rent, and residuals are used, in conjunction with nonparametric regression and hot deck distance. Both are compared not only with the classic method based on the CIA and regression without residuals but also with each other. In a nonparametric approach, with a micro objective, an unconstrained statistical matching is applied using hot-deck nearest neighbor within classes, using the household logarithm income and logarithm rent percentile groups. We are satisfied with the performance of creating a correlation coefficient of Y and Ζ , as measured using MSE. 2009-10-13 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@2 por info:eu-repo/semantics/openAccess PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO PPG EM ENGENHARIA ELÉTRICA PUC-Rio BR reponame:Repositório Institucional da PUC_RIO instname:Pontifícia Universidade Católica do Rio de Janeiro instacron:PUC_RIO |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
description |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === O emparelhamento estatístico é a técnica de combinar informações de duas
ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam
um subconjunto comum de variáveis, para produzir uma informação mais
abrangente e coerente, em um arquivo de dados síntese, onde as variáveis
observadas nas diferentes amostras são gravadas conjuntamente. Métodos
computacionalmente intensivos viabilizam novas formas de emparelhamento
estatístico. Em um estudo de simulação, um único arquivo de dados da PNAD é
dividido em duas bases de dados para emular um caso de amostragem matricial.
Esses dois arquivos são emparelhados estatisticamente utilizando quatro
metodologias, e os resultados das mesmas são comparados com as do arquivo
único original. A CIA (conditional independence assumption) não parece ser
válida. Para evitar a suposição de independência condicional (CIA), os três
métodos de emparelhamento estatístico desenvolvidos são baseados na hipótese
do relacionamento teórico de afiliação estocástica entre as variáveis contínuas
renda e aluguel, e dois deles usam também a informação de resíduos. Os métodos
são comparados entre si e com o método clássico, que se baseia na suposição de
independência condicional – CIA. Em uma abordagem não-paramétrica, com um
objetivo micro, os métodos de emparelhamento estatístico propostos são
irrestritos, e realizam-se em classes, definidas pela variável de número de
cômodos. Usam um procedimento distance hot deck, além de adicionar os
resíduos supostos conhecidos. Esse estudo investiga os resultados de viés e do
EQM, dos quatro métodos, investigando a preservação da correlação original
entre renda e aluguel. === Statistical matching is the art of combining information from two or more
datasets, collected in independent samples, but a subset of the variables is
common to both samples, to produce both coherent and comprehensive
information in a synthetic data file, where variables observed in different samples
are jointly recorded. Modern computing can make possible, under techniques
described here, an advance in the application of Statistical Matching. It is
reported on a simulation that splits a single file into two pieces, statistically
matched the pieces using four methodologies and compares the results to the
original single file. The Conditional Independence Assumption (CIA) did not
seem a valid assumption. To avoid CIA, it is suggested two methods of statistical
matching where kind of auxiliary information, based on Stochastic Affiliation
relationship between income and rent, and residuals are used, in conjunction with
nonparametric regression and hot deck distance. Both are compared not only with
the classic method based on the CIA and regression without residuals but also
with each other. In a nonparametric approach, with a micro objective, an
unconstrained statistical matching is applied using hot-deck nearest neighbor
within classes, using the household logarithm income and logarithm rent
percentile groups. We are satisfied with the performance of creating a correlation
coefficient of Y and Ζ , as measured using MSE. |
author2 |
REINALDO CASTRO SOUZA |
author_facet |
REINALDO CASTRO SOUZA NADIA MARIA COELHO RODRIGUES |
author |
NADIA MARIA COELHO RODRIGUES |
spellingShingle |
NADIA MARIA COELHO RODRIGUES STATISTICAL MATCHING USING STOCHASTIC AFFILIATION |
author_sort |
NADIA MARIA COELHO RODRIGUES |
title |
STATISTICAL MATCHING USING STOCHASTIC AFFILIATION |
title_short |
STATISTICAL MATCHING USING STOCHASTIC AFFILIATION |
title_full |
STATISTICAL MATCHING USING STOCHASTIC AFFILIATION |
title_fullStr |
STATISTICAL MATCHING USING STOCHASTIC AFFILIATION |
title_full_unstemmed |
STATISTICAL MATCHING USING STOCHASTIC AFFILIATION |
title_sort |
statistical matching using stochastic affiliation |
publisher |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO |
publishDate |
2009 |
url |
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@2 |
work_keys_str_mv |
AT nadiamariacoelhorodrigues statisticalmatchingusingstochasticaffiliation AT nadiamariacoelhorodrigues concatenacaoestatisticadedadoseafiliacaoestocastica |
_version_ |
1718987945386442752 |