Essays in Applied Econometrics with Missing Data

Dans le 1er chapitre, j’étudie les biais qui peuvent résulter de l’utilisation des chiffres de vente comme substitut aux chiffres de production, quand on cherche à estimer la fonction de production d’une entreprise ou d’un secteur industriel. Les chercheurs utilisent souvent les ventes plutôt que le...

Full description

Bibliographic Details
Main Author: Torchiana, Adrian
Other Authors: Toulouse 1
Language:en
Published: 2017
Subjects:
Online Access:http://www.theses.fr/2017TOU10062
Description
Summary:Dans le 1er chapitre, j’étudie les biais qui peuvent résulter de l’utilisation des chiffres de vente comme substitut aux chiffres de production, quand on cherche à estimer la fonction de production d’une entreprise ou d’un secteur industriel. Les chercheurs utilisent souvent les ventes plutôt que les chiffres de production, bien qu’ils diffèrent : les entreprises gérant leurs stocks dans le temps, les produits vendus au cours de tel ou tel exercice comptable n’ont pas nécessairement été produits durant la même période. J’utilise des simulations pour montrer que l’utilisation des ventes au lieu des chiffres de production peut causer des distorsions lorsque les entreprises gèrent leurs stocks de manière dynamique. J’étudie les données d’un site administratif français nommé FICUS, qui couvre la totalité des entreprises françaises de 1994 à 2007 et me donne accès aux chiffres de vente, de production, d’emploi et de capitalisation, par entreprise et par an. J’analyse les données au niveau de l’industrie (code NAF), et je montre que le biais résultant de l’utilisation des chiffres de vente au lieu des chiffres de production est faible dans la plupart des industries. Il semblerait donc que, dans la plupart des cas, les chercheurs qui se basent sur les ventes pour estimer des fonctions de production n’aient pas à craindre que leurs résultats soient erronés. Toutefois, dans certaines industries où les stocks varient de manière significative, le biais observé n’est pas négligeable. Dans le 2nd chapitre, qui présente des travaux effectués en collaboration avec Paul T. Scott, Ted Rosenbaum et Eduardo Souza-Rodrigues, nous montrons que les erreurs de classement dans les données sur les surfaces terrestres relevées à distance (ex : des classements qui distinguent les forêts des champs agricoles à partir de données satellites) conduisent à des estimations biaisées tant des surfaces que des taux de changement (ex : la probabilité de déforestation). Nous proposons une correction basée sur un modèle caché de Markov. En utilisant des simulations et un ensemble de données de validation de haute qualité, nous montrons que notre méthode produit des estimations cohérentes des probabilités de transition dans l’utilisation des terres, alors que les méthodes actuelles produisent des estimations de probabilités de changement qui sont trop élevées. L’implication générale de ces travaux est que les recherches appliquées devraient examiner attentivement et contrôler pour l’impact des erreurs dans la télédétection lors de l’étude des déterminants du changement d’utilisation des terres. Il est important de noter que notre méthode produit des estimations non-biaisées des probabilités de transition de la couverture terrestre sans nécessiter de données de validation au sol, qui sont généralement difficiles à obtenir. Ceci est pertinent pour la politique : par ex., le suivi des taux de déforestation est un point central des négociations sur le climat, et les ONG et d’autres organisations évaluant l’évolution des surfaces forestières pourraient vouloir appliquer notre méthode. Dans le 3ème chapitre (qui est un travail en commun avec les mêmes co-auteurs que le 2nd), nous appliquons notre méthode de modèle caché de Markov pour étudier la déforestation au Brésil. Nous développons un modèle de déforestation et de repousse amazonienne qui nous permet de prédire comment les niveaux de biomasse amazonienne et de terres agricoles répondent aux coûts de transport et aux prix des produits agricoles à court et à long terme. Les gestionnaires fonciers comparent le coût du défrichage avec les rendements futurs actualisés d’une éventuelle production agricole lorsqu’ils décident de défricher des terres. Notre stratégie empirique s’appuie sur les coûts de transport calculés en utilisant des données spatiales détaillées reflétant l’intégralité du réseau routier au Brésil, ainsi que sur les estimations des taux de déforestation dérivés des données des capteurs satellites. === In the first chapter, I consider the bias that might arise in production function estimation when sales are used as a stand-in for production. In practice, researchers typically observe sales and not production; the two are distinct because firms manage inventory through time, and items sold during an arbitrary accounting period were not necessarily produced contemporaneously. I show using simulations that using sales as a stand-in for production can bias production function regressions when firms manage inventory dynamically. I then go to the data: I study a French administrative dataset called FICUS, which covers the universe of French firms from 1994 to 2007, and allows me to observe sales, production, labor, and capital, at the firm-year level. I perform my analysis at the four-digit industry level, and show that the bias from using sales as a stand-in for production is small in most industries, suggesting that researchers who observe only sales generally need not worry that results derived from production function estimation are invalid. However, in certain industries where changes in inventory are common, the bias is non-negligible. In the second chapter, which is joint work with Paul T. Scott, Ted Rosenbaum, and Eduardo Souza-Rodrigues, we show that misclassification in remotely sensed land cover data leads to biased estimates of both land areas and land cover transition rates, and propose a correction based on a hidden Markov model. Using simulations and a high-quality validation dataset, we show that our method produces consistent estimates of land use transition probabilities, whereas naive estimates of transition rates are erroneously high. A broad implication is that applied researchers should carefully consider and control for the impact of errors in remote sensing when studying the determinants of land use change. Importantly, our method produces consistent estimates of land cover transition probabilities without requiring ground-truth validation data, which are typically difficult to obtain. This is relevant for policy: for example, monitoring land cover is a central point of climate negotiations, and NGOs and other organizations evaluating changes in countries’ deforestation rates may want to apply our method. In the third chapter (which is also joint work, with the same coauthors as the second), we apply our HMM method to study deforestation in Brazil. We develop a model of Amazonian deforestation and regrowth that allows us to predict how levels of Amazonian biomass and agricultural land respond to transportation costs and agricultural commodity prices in both the short- and long-run. In our model, land managers balance forest clearing costs against discounted future returns to agricultural production when deciding whether to clear a parcel of forest. Our empirical strategy relies on transportation costs computed using detailed spatial data describing Brazil’s paved and unpaved road network, as well as on estimates of deforestation rates derived from satellite sensor data, using the methodology in the second chapter. We plan to extend the model in future work.