This variable contains the respondents’ gross labour income (PGLABGRO) with missing values replaced by the 1st of 15 imputations as generated by multiple imputation by chained equations (Rubin, 1987; van Buuren et al., 2006).
Multiple imputation is a technique to deal with missing data in which missing values are replaced by multiple imputed values that are plausible based on a statistical imputation model. These imputed values serve not as an exact estimate of the missing value, but to recreate both relationships between variables and the variance and uncertainty in the data. To analyse the multiply imputed data, the statistical analysis of interest needs to be performed on all imputed versions of the dataset (in this case, 15) separately, and the estimates from these separate analyses are combined into single estimates according to specific combining rules thereafter. Conventional statistics software often includes dedicated solutions for dealing with multiply imputed data, such as the mice package in R (R Core Team, 2023; van Buuren & Groothuis-Oudshoorn, 2011) or the built-in command mi estimate in Stata (StataCorp, 2023).
The imputations in PGI1LABGRO are intended primarily to ease univariate analyses on the whole sample, both cross-sectional and longitudinal, and are based on the assumption that the data are missing at random (MAR). Because it is impossible to cover all relationships in the data with the imputation model, estimates in bivariate and multivariate analyses as well as subgroup analyses may be biased to some extent on a case-by-case basis, as the congeniality principle (Meng, 1994) may be violated. However, all imputed variables in the SCP (individual gross labour income, individual net labour income, household net income, and size of housing unit) were imputed together in an iterative fashion through multiple imputation by chained equations, which means they can be analyzed together in a statistical model if needed. For more complex analyses of the data, users may consider applying multiple imputation by themselves using an imputation model tailored to their specific substantive model of interest.
The imputed gross income consists of the sum of two imputed variables, the net income and the difference between gross and net income. This was done to evade multicollinearity issues in the imputation which arise from the very strong correlation between gross and net income.
Both of these variables were imputed using type-1 predictive mean matching as implemented in the mice package in R. Simply put, this method entails (1) estimating predictive means of the variable to be imputed using a regression model and (2) using these predictive means to match missing with observed values, which serve as donors for the imputations. To deal with the highly skewed distribution of both imputed variables, a log transformation was applied to the variables before imputation, with imputed variables being transformed back to the initial scale after imputation.
Predictor variables in the imputation model cover a broad selection of variables from the survey and additional microgeographic data. Variables from other waves were included as additional predictor variables, with the data being reshaped to the wide format. Predictors for the imputation model were selected through a threshold of r=0.2 in terms of their correlation to the imputed variable and, subsequently, by lasso regression with cross-validated lambda parameter. For further dimensionality reduction of the predictor space to a maximum of 40 components, partial least squares regression was applied to the selected predictor variables.
Meng, X. L. (1994). Multiple-imputation inferences with uncongenial sources of input. Statistical Science, 9(4), 538-558.
R Core Team (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. https://www.R-project.org/
Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. Wiley.
StataCorp (2023). Stata 18 Multiple-Imputation Reference Manual. Stata Press.
van Buuren, S., Brand, J. P., Groothuis-Oudshoorn, C. G., & Rubin, D. B. (2006). Fully conditional specification in multivariate imputation. Journal of Statistical Computation and Simulation, 76(12), 1049–1064.
van Buuren, S., & Groothuis-Oudshoorn, K. (2011). mice: Multivariate imputation by chained equations in R. Journal of Statistical Software, 45(3), 1-67.
Diese Variable enthält das Bruttoerwerbseinkommen (PGLABGRO) der Befragten mit durch Multiple Imputation by Chained Equations (Rubin, 1987; van Buuren et al., 2006) erzeugten Imputationen für fehlende Werte. Die vorliegenden Imputationen stellen die 1. von insgesamt 15 multiplen Imputationen dar.
Die Multiple Imputation ist eine Methode zum Umgang mit fehlenden Daten, bei der auf Basis eines statistischen Imputationsmodells fehlende Werte durch mehrere, statistisch plausible imputierte Werte ersetzt werden. Diese imputierten Werte dienen nicht als exakte Schätzung des fehlenden Wertes, sondern zur Nachbildung sowohl der Beziehungen zwischen den Variablen als auch der Varianz und Unsicherheit in den Daten. Um die multipel imputierten Daten statistisch zu analysieren, muss die Analyse in allen imputierten Versionen des Datensatzes (in diesem Fall 15) separat durchgeführt werden. Anschließend werden die Schätzungen aus diesen separaten Analysen nach bestimmten Kombinationsregeln zu einer gemeinsamen Schätzung kombiniert. Herkömmliche Statistiksoftware enthält oft spezielle Lösungen für den Umgang mit multiplen Imputationen, wie z. B. das mice-Package in R (R Core Team, 2023; van Buuren & Groothuis-Oudshoorn, 2011) oder in Stata den integrierten Befehl mi estimate (StataCorp, 2023).
Die Imputationen in PGI1LABGRO dienen in erster Linie der Erleichterung univariater Analysen der gesamten Stichprobe, sowohl im Quer- als auch im Längsschnitt, und basieren auf der Missing-at-Random-Annahme (MAR). Weil es nicht möglich ist, alle Beziehungen in den Daten über ein Imputationsmodell zu erfassen, können Schätzungen in bivariaten und multivariaten Analysen sowie in Subgruppenanalysen im Einzelfall zu einem gewissen Grad verzerrt sein, da dadurch gegebenenfalls das Prinzip der Kongenialität (Meng, 1994) verletzt werden kann. Allerdings wurden alle imputierten Variablen im SCP (persönliches Brutto- und Nettoerwerbsseinkommen, Haushaltsnettoeinkommen und Wohnfläche) iterativ durch Multiple Imputation by Chained Equations gemeinsam imputiert, d.h. sie können bei Bedarf zusammen in einem statistischen Modell analysiert werden. Für komplexere Analysen sollten Datennutzende in Erwägung ziehen, die Daten unter Berücksichtigung des zu schätzenden statistischen Modells selbst zu imputieren.
Das imputierte Bruttoeinkommen wird aus der Summe zweier imputierter Variablen generiert: dem Nettoeinkommen sowie der Differenz zwischen Brutto- und Nettoeinkommen. Dies dient der Vermeidung von Multikollinearitätsproblemen bei der Imputation, die sich aus der sehr starken Korrelation zwischen Brutto- und Nettoeinkommen ergeben.
Beide Variablen wurden mit dem mice-Package in R durch Typ-1-Predictive-Mean-Matching imputiert. Vereinfachend ausgedrückt umfasst dies (1) die Schätzung von Vorhersagewerten für die zu imputierende Variable durch ein Regressionsmodell und (2) ein Matching auf Basis dieser Vorhersagewerte, sodass fehlende Werte durch passende tatsächlich beobachtete Werte ersetzt werden. Um der stark schiefen Verteilung der beiden imputierten Variablen Rechnung zu tragen, wurde vor der Imputation eine Log-Transformation auf diese Variablen angewandt. Nach erfolgter Imputation wurden die Variablen wieder in die ursprüngliche Skala zurücktransformiert.
Die Prädiktorvariablen im Imputationsmodell umfassen eine breite Auswahl von Variablen aus der Befragung und zusätzlicher mikrogeografischer Daten. Variablen aus anderen Wellen wurden als zusätzliche Prädiktorvariablen einbezogen, wobei die Daten durch ein Reshaping in das Wide-Format transformiert wurden. Die Prädiktoren für das Imputationsmodell wurden anhand eines Schwellenwerts von r=0,2 in Bezug auf ihre Korrelation mit der imputierten Variable und anschließend durch eine Lasso-Regression mit kreuzvalidiertem Lambda-Parameter ausgewählt. Zur weiteren Dimensionsreduktion des Prädiktorraums auf maximal 40 Komponenten wurde eine Partial-Least-Squares-Regression auf die ausgewählten Prädiktorvariablen angewendet.
Meng, X. L. (1994). Multiple-imputation inferences with uncongenial sources of input. Statistical Science, 9(4), 538-558.
R Core Team (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. https://www.R-project.org/
Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. Wiley.
StataCorp (2023). Stata 18 Multiple-Imputation Reference Manual. Stata Press.
van Buuren, S., Brand, J. P., Groothuis-Oudshoorn, C. G., & Rubin, D. B. (2006). Fully conditional specification in multivariate imputation. Journal of Statistical Computation and Simulation, 76(12), 1049–1064.
Van Buuren, S., & Groothuis-Oudshoorn, K. (2011). mice: Multivariate imputation by chained equations in R. Journal of Statistical Software, 45(3), 1-67.