STATISTICAL MATCHING USING STOCHASTIC AFFILIATION

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === O emparelhamento estatístico é a técnica de combinar informações de duas ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam um subconjunto comum de variáveis, para produzir uma informação mais abrangente e coerente, e...

Full description

Bibliographic Details
Main Author: NADIA MARIA COELHO RODRIGUES
Other Authors: REINALDO CASTRO SOUZA
Language:Portuguese
Published: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO 2009
Online Access:http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@1
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@2
id ndltd-IBICT-oai-MAXWELL.puc-rio.br-18397
record_format oai_dc
spelling ndltd-IBICT-oai-MAXWELL.puc-rio.br-183972019-03-01T15:39:41Z STATISTICAL MATCHING USING STOCHASTIC AFFILIATION CONCATENAÇÃO ESTATÍSTICA DE DADOS E AFILIAÇÃO ESTOCÁSTICA NADIA MARIA COELHO RODRIGUES REINALDO CASTRO SOUZA KAIZO IWAKAMI BELTRAO KAIZO IWAKAMI BELTRAO MONICA BARROS MONICA BARROS MONICA BARROS REINALDO CASTRO SOUZA VICTOR HUGO DE CARVALHO GOUVEA PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO O emparelhamento estatístico é a técnica de combinar informações de duas ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam um subconjunto comum de variáveis, para produzir uma informação mais abrangente e coerente, em um arquivo de dados síntese, onde as variáveis observadas nas diferentes amostras são gravadas conjuntamente. Métodos computacionalmente intensivos viabilizam novas formas de emparelhamento estatístico. Em um estudo de simulação, um único arquivo de dados da PNAD é dividido em duas bases de dados para emular um caso de amostragem matricial. Esses dois arquivos são emparelhados estatisticamente utilizando quatro metodologias, e os resultados das mesmas são comparados com as do arquivo único original. A CIA (conditional independence assumption) não parece ser válida. Para evitar a suposição de independência condicional (CIA), os três métodos de emparelhamento estatístico desenvolvidos são baseados na hipótese do relacionamento teórico de afiliação estocástica entre as variáveis contínuas renda e aluguel, e dois deles usam também a informação de resíduos. Os métodos são comparados entre si e com o método clássico, que se baseia na suposição de independência condicional – CIA. Em uma abordagem não-paramétrica, com um objetivo micro, os métodos de emparelhamento estatístico propostos são irrestritos, e realizam-se em classes, definidas pela variável de número de cômodos. Usam um procedimento distance hot deck, além de adicionar os resíduos supostos conhecidos. Esse estudo investiga os resultados de viés e do EQM, dos quatro métodos, investigando a preservação da correlação original entre renda e aluguel. Statistical matching is the art of combining information from two or more datasets, collected in independent samples, but a subset of the variables is common to both samples, to produce both coherent and comprehensive information in a synthetic data file, where variables observed in different samples are jointly recorded. Modern computing can make possible, under techniques described here, an advance in the application of Statistical Matching. It is reported on a simulation that splits a single file into two pieces, statistically matched the pieces using four methodologies and compares the results to the original single file. The Conditional Independence Assumption (CIA) did not seem a valid assumption. To avoid CIA, it is suggested two methods of statistical matching where kind of auxiliary information, based on Stochastic Affiliation relationship between income and rent, and residuals are used, in conjunction with nonparametric regression and hot deck distance. Both are compared not only with the classic method based on the CIA and regression without residuals but also with each other. In a nonparametric approach, with a micro objective, an unconstrained statistical matching is applied using hot-deck nearest neighbor within classes, using the household logarithm income and logarithm rent percentile groups. We are satisfied with the performance of creating a correlation coefficient of Y and Ζ , as measured using MSE. 2009-10-13 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@2 por info:eu-repo/semantics/openAccess PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO PPG EM ENGENHARIA ELÉTRICA PUC-Rio BR reponame:Repositório Institucional da PUC_RIO instname:Pontifícia Universidade Católica do Rio de Janeiro instacron:PUC_RIO
collection NDLTD
language Portuguese
sources NDLTD
description PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === O emparelhamento estatístico é a técnica de combinar informações de duas ou mais fontes de dados, possivelmente de pesquisas independentes, que possuam um subconjunto comum de variáveis, para produzir uma informação mais abrangente e coerente, em um arquivo de dados síntese, onde as variáveis observadas nas diferentes amostras são gravadas conjuntamente. Métodos computacionalmente intensivos viabilizam novas formas de emparelhamento estatístico. Em um estudo de simulação, um único arquivo de dados da PNAD é dividido em duas bases de dados para emular um caso de amostragem matricial. Esses dois arquivos são emparelhados estatisticamente utilizando quatro metodologias, e os resultados das mesmas são comparados com as do arquivo único original. A CIA (conditional independence assumption) não parece ser válida. Para evitar a suposição de independência condicional (CIA), os três métodos de emparelhamento estatístico desenvolvidos são baseados na hipótese do relacionamento teórico de afiliação estocástica entre as variáveis contínuas renda e aluguel, e dois deles usam também a informação de resíduos. Os métodos são comparados entre si e com o método clássico, que se baseia na suposição de independência condicional – CIA. Em uma abordagem não-paramétrica, com um objetivo micro, os métodos de emparelhamento estatístico propostos são irrestritos, e realizam-se em classes, definidas pela variável de número de cômodos. Usam um procedimento distance hot deck, além de adicionar os resíduos supostos conhecidos. Esse estudo investiga os resultados de viés e do EQM, dos quatro métodos, investigando a preservação da correlação original entre renda e aluguel. === Statistical matching is the art of combining information from two or more datasets, collected in independent samples, but a subset of the variables is common to both samples, to produce both coherent and comprehensive information in a synthetic data file, where variables observed in different samples are jointly recorded. Modern computing can make possible, under techniques described here, an advance in the application of Statistical Matching. It is reported on a simulation that splits a single file into two pieces, statistically matched the pieces using four methodologies and compares the results to the original single file. The Conditional Independence Assumption (CIA) did not seem a valid assumption. To avoid CIA, it is suggested two methods of statistical matching where kind of auxiliary information, based on Stochastic Affiliation relationship between income and rent, and residuals are used, in conjunction with nonparametric regression and hot deck distance. Both are compared not only with the classic method based on the CIA and regression without residuals but also with each other. In a nonparametric approach, with a micro objective, an unconstrained statistical matching is applied using hot-deck nearest neighbor within classes, using the household logarithm income and logarithm rent percentile groups. We are satisfied with the performance of creating a correlation coefficient of Y and Ζ , as measured using MSE.
author2 REINALDO CASTRO SOUZA
author_facet REINALDO CASTRO SOUZA
NADIA MARIA COELHO RODRIGUES
author NADIA MARIA COELHO RODRIGUES
spellingShingle NADIA MARIA COELHO RODRIGUES
STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
author_sort NADIA MARIA COELHO RODRIGUES
title STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
title_short STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
title_full STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
title_fullStr STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
title_full_unstemmed STATISTICAL MATCHING USING STOCHASTIC AFFILIATION
title_sort statistical matching using stochastic affiliation
publisher PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
publishDate 2009
url http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@1
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=18397@2
work_keys_str_mv AT nadiamariacoelhorodrigues statisticalmatchingusingstochasticaffiliation
AT nadiamariacoelhorodrigues concatenacaoestatisticadedadoseafiliacaoestocastica
_version_ 1718987945386442752