[en] STATISTICAL MATCHING USING STOCHASTIC AFFILIATION

[pt] O emparelhamento estatístico é a técnica de combinar informações de duas ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam um subconjunto comum de variáveis, para produzir uma informação mais abrangente e coerente, em um arquivo de dados síntese, onde as variáveis o...

Full description

Bibliographic Details
Main Author: NADIA MARIA COELHO RODRIGUES
Other Authors: REINALDO CASTRO SOUZA
Language:pt
Published: MAXWELL 2011
Subjects:
Online Access:https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@1
https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@2
http://doi.org/10.17771/PUCRio.acad.18397
id ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-18397
record_format oai_dc
spelling ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-183972018-08-21T04:49:26Z[en] STATISTICAL MATCHING USING STOCHASTIC AFFILIATION [pt] CONCATENAÇÃO ESTATÍSTICA DE DADOS E AFILIAÇÃO ESTOCÁSTICA NADIA MARIA COELHO RODRIGUES[pt] INFORMACAO[en] INFORMATION[pt] PROCEDIMENTO[en] PROCEDURE[pt] SUPOSICAO DE INDEPENDENCIA CONDICIONAL[pt] O emparelhamento estatístico é a técnica de combinar informações de duas ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam um subconjunto comum de variáveis, para produzir uma informação mais abrangente e coerente, em um arquivo de dados síntese, onde as variáveis observadas nas diferentes amostras são gravadas conjuntamente. Métodos computacionalmente intensivos viabilizam novas formas de emparelhamento estatístico. Em um estudo de simulação, um único arquivo de dados da PNAD é dividido em duas bases de dados para emular um caso de amostragem matricial. Esses dois arquivos são emparelhados estatisticamente utilizando quatro metodologias, e os resultados das mesmas são comparados com as do arquivo único original. A CIA (conditional independence assumption) não parece ser válida. Para evitar a suposição de independência condicional (CIA), os três métodos de emparelhamento estatístico desenvolvidos são baseados na hipótese do relacionamento teórico de afiliação estocástica entre as variáveis contínuas renda e aluguel, e dois deles usam também a informação de resíduos. Os métodos são comparados entre si e com o método clássico, que se baseia na suposição de independência condicional – CIA. Em uma abordagem não-paramétrica, com um objetivo micro, os métodos de emparelhamento estatístico propostos são irrestritos, e realizam-se em classes, definidas pela variável de número de cômodos. Usam um procedimento distance hot deck, além de adicionar os resíduos supostos conhecidos. Esse estudo investiga os resultados de viés e do EQM, dos quatro métodos, investigando a preservação da correlação original entre renda e aluguel.[en] Statistical matching is the art of combining information from two or more datasets, collected in independent samples, but a subset of the variables is common to both samples, to produce both coherent and comprehensive information in a synthetic data file, where variables observed in different samples are jointly recorded. Modern computing can make possible, under techniques described here, an advance in the application of Statistical Matching. It is reported on a simulation that splits a single file into two pieces, statistically matched the pieces using four methodologies and compares the results to the original single file. The Conditional Independence Assumption (CIA) did not seem a valid assumption. To avoid CIA, it is suggested two methods of statistical matching where kind of auxiliary information, based on Stochastic Affiliation relationship between income and rent, and residuals are used, in conjunction with nonparametric regression and hot deck distance. Both are compared not only with the classic method based on the CIA and regression without residuals but also with each other. In a nonparametric approach, with a micro objective, an unconstrained statistical matching is applied using hot-deck nearest neighbor within classes, using the household logarithm income and logarithm rent percentile groups. We are satisfied with the performance of creating a correlation coefficient of Y and Ζ , as measured using MSE.MAXWELLREINALDO CASTRO SOUZA2011-09-30TEXTOhttps://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@1https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@2http://doi.org/10.17771/PUCRio.acad.18397pt
collection NDLTD
language pt
sources NDLTD
topic [pt] INFORMACAO
[en] INFORMATION
[pt] PROCEDIMENTO
[en] PROCEDURE
[pt] SUPOSICAO DE INDEPENDENCIA CONDICIONAL
spellingShingle [pt] INFORMACAO
[en] INFORMATION
[pt] PROCEDIMENTO
[en] PROCEDURE
[pt] SUPOSICAO DE INDEPENDENCIA CONDICIONAL
NADIA MARIA COELHO RODRIGUES
[en] STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
description [pt] O emparelhamento estatístico é a técnica de combinar informações de duas ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam um subconjunto comum de variáveis, para produzir uma informação mais abrangente e coerente, em um arquivo de dados síntese, onde as variáveis observadas nas diferentes amostras são gravadas conjuntamente. Métodos computacionalmente intensivos viabilizam novas formas de emparelhamento estatístico. Em um estudo de simulação, um único arquivo de dados da PNAD é dividido em duas bases de dados para emular um caso de amostragem matricial. Esses dois arquivos são emparelhados estatisticamente utilizando quatro metodologias, e os resultados das mesmas são comparados com as do arquivo único original. A CIA (conditional independence assumption) não parece ser válida. Para evitar a suposição de independência condicional (CIA), os três métodos de emparelhamento estatístico desenvolvidos são baseados na hipótese do relacionamento teórico de afiliação estocástica entre as variáveis contínuas renda e aluguel, e dois deles usam também a informação de resíduos. Os métodos são comparados entre si e com o método clássico, que se baseia na suposição de independência condicional – CIA. Em uma abordagem não-paramétrica, com um objetivo micro, os métodos de emparelhamento estatístico propostos são irrestritos, e realizam-se em classes, definidas pela variável de número de cômodos. Usam um procedimento distance hot deck, além de adicionar os resíduos supostos conhecidos. Esse estudo investiga os resultados de viés e do EQM, dos quatro métodos, investigando a preservação da correlação original entre renda e aluguel. === [en] Statistical matching is the art of combining information from two or more datasets, collected in independent samples, but a subset of the variables is common to both samples, to produce both coherent and comprehensive information in a synthetic data file, where variables observed in different samples are jointly recorded. Modern computing can make possible, under techniques described here, an advance in the application of Statistical Matching. It is reported on a simulation that splits a single file into two pieces, statistically matched the pieces using four methodologies and compares the results to the original single file. The Conditional Independence Assumption (CIA) did not seem a valid assumption. To avoid CIA, it is suggested two methods of statistical matching where kind of auxiliary information, based on Stochastic Affiliation relationship between income and rent, and residuals are used, in conjunction with nonparametric regression and hot deck distance. Both are compared not only with the classic method based on the CIA and regression without residuals but also with each other. In a nonparametric approach, with a micro objective, an unconstrained statistical matching is applied using hot-deck nearest neighbor within classes, using the household logarithm income and logarithm rent percentile groups. We are satisfied with the performance of creating a correlation coefficient of Y and Ζ , as measured using MSE.
author2 REINALDO CASTRO SOUZA
author_facet REINALDO CASTRO SOUZA
NADIA MARIA COELHO RODRIGUES
author NADIA MARIA COELHO RODRIGUES
author_sort NADIA MARIA COELHO RODRIGUES
title [en] STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
title_short [en] STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
title_full [en] STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
title_fullStr [en] STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
title_full_unstemmed [en] STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
title_sort [en] statistical matching using stochastic affiliation
publisher MAXWELL
publishDate 2011
url https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@1
https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@2
http://doi.org/10.17771/PUCRio.acad.18397
work_keys_str_mv AT nadiamariacoelhorodrigues enstatisticalmatchingusingstochasticaffiliation
AT nadiamariacoelhorodrigues ptconcatenacaoestatisticadedadoseafiliacaoestocastica
_version_ 1718726392298864640