Published
LA AGREGACIÓN DE NIVELES EN UN FACTOR EXPLICATIVO DEL MODELO LOGIT BINOMIAL: GENERALIZACIÓN AL CASO MULTIFACTORIAL NO SATURADO
AGGREGATION OF EXPLANATORY FACTOR LEVELS IN A BINOMIAL LOGIT MODEL: GENERALIZATION TO THE MULTIFACTORIAL UNSATURATED CASE
Keywords:
conjuntos de niveles, modelo lineal generalizado, modelo logit, tablas de contingencia (es)Contingency tables, Generalized linear model, Levels sets, Logit model (en)
Downloads
1Universidad de Los Andes (ULA), Facultad de Ciencias Económicas y Sociales (FACES), Departamento de Estadística, Mérida, Venezuela. Associate Professor. Email: ernesto@ula.ve
2FACES-ULA, Instituto de Estadística Aplicada y Computación (IEAC), Programa de Doctorado en Estadística, Mérida, Venezuela. Professor. Email: sinha32@yahoo.com
3FACES-ULA, Instituto de Estadística Aplicada y Computación (IEAC), Programa de Doctorado en Estadística, Mérida, Venezuela. Professor. Email: goitia@ula.ve
We discuss a situation in which, once a logit model is fitted to the data in a contingency table, some factor levels are grouped. Generally, researchers reapply a logit model on the pooled data, however, this approach leads to the violation of the original distributional assumption, when the probabilities of success of the random variables of aggregation differ. In this paper we suggest an alternative procedure that operates under the unsaturated, multifactorial, binomial, logit model. Based on asymptotic theory and taking advantage of the decrease in the variance when the correct distributional assumption is made, the suggested procedure significantly improves the estimates, reduces the standard error, produces lower residuals and is less likely to reject the goodness of fit test on the model. We present the necessary theory, the results of an extensive simulation designed for this purpose, and the suggested procedure contrasted with the usual approach, through a complete numerical example.
Key words: Contingency tables, Generalized linear model, Levels sets, Logit model.
Se discute la situación en la que, una vez ajustado un modelo logit a los datos contenidos en una tabla de contingencia, se selecciona un factor cualquiera de los participantes y se agregan algunos de sus niveles. Generalmente los investigadores proceden a postular nuevamente un modelo logit sobre los datos agrupados, sin embargo, este proceder conduce a la violación del supuesto distribucional original, cuando las probabilidades de éxito de las variables aleatorias de la agregación, son disímiles. En este trabajo se sugiere un procedimiento alternativo que opera en el marco del modelo logit binomial no saturado, multifactorial. Con base en la teoría asintótica y aprovechando la disminución en la varianza cuando se postula el modelo distribucional correcto, el procedimiento sugerido mejora apreciablemente las estimaciones, reduce el error estándar, produce valores residuales más cercanos al cero y menores probabilidades de rechazo en la prueba de bondad del ajuste del modelo. Sustentan tales afirmaciones tanto los desarrollos teóricos necesarios, como los resultados de una extensa simulación diseñada al efecto. También se expone el procedimiento sugerido contrastado con el habitual, mediante un ejemplo numérico completo.
Palabras clave: conjuntos de niveles, modelo lineal generalizado, modelo logit, tablas de contingencia.
Texto completo disponible en PDF
References
1. Christensen, R. (2002), Plain Answers to Complex Questions. The Theory of Linear Models, 3 edn, Springer-Verlag, Nueva York, Estados Unidos.
2. Graybill, F. (1969), Introduction to Matrices with Applications in Statistics, 1 edn, Wadsworth Publishing, California, Estados Unidos.
3. Hilbe, J. M. (2009), Logistic Regression Models, 1 edn, Chapman & Hall, Florida, Estados Unidos.
4. Hosmer, D. W. & Lemeshow, S. (2000), Applied Logistic Regression, 2 edn, John Wiley & Sons, Nueva York, Estados Unidos.
5. Lehmann, E. L. (1999), Elements of Large-Sample Theory, 1 edn, Springer-Verlag, Nueva York, Estados Unidos.
6. McCullagh, P. & Nelder, J. (1989), Generalized Linear Models, 2 edn, Chapman & Hall, London, United Kingdom.
7. Menard, S. (2010), Logistic Regression: From Introductory to Advanced Concepts and Applications, 1 edn, SAGE Publications, Inc., California, Estados Unidos.
8. Nelder, J. .. & Wedderburn, R. W. M. (1972), 'Generalized Linear Models', Journal of the Royal Statistical Society. Serie A(135), 370-384.
9. Ponsot, E. (2011), Estudio de la Agrupación de Niveles en el Modelo Logit, Unpublisehd PhD Thesis, Instituto de Estadística Aplicada y Computación, Facultad de Ciencias Económicas y Sociales, Universidad de Los Andes, Mérida, Venezuela.
10. Ponsot, E., Sinha, S. & Goitía, A. (2009), 'Sobre la agrupación de niveles del factor explicativo en el modelo logit binario', Revista Colombiana de Estadística 32(2), 157-187.
11. R Development Core Team, (2007), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. *http://www.R-project.org [ Links ]
12. Rodríguez, G. (2008), 'Lectures notes about generalized linear models'. *http://data.princeton.edu/wws509/notes [ Links ]
13. SAS Institute Inc., (2004), SAS/STAT(R) 9.1 User's Guide, SAS Institute Inc., Carolina del Norte, Estados Unidos.
14. Searle, S., Casella, G. & McCulloch, C. (2006), Variance Components, 1 edn, John Wiley and Sons, Inc., Nueva Jersey, Estados Unidos.
Este artículo se puede citar en LaTeX utilizando la siguiente referencia bibliográfica de BibTeX:
@ARTICLE{RCEv35n1a09,AUTHOR = {Ponsot-Balaguer, Ernesto and Sinha, Surendra and Goitía, Arnaldo},
TITLE = {{Aggregation of Explanatory Factor Levels in a Binomial Logit Model: Generalization to the Multifactorial Unsaturated Case}},
JOURNAL = {Revista Colombiana de Estadística},
YEAR = {2012},
volume = {35},
number = {1},
pages = {139-166}
}
How to Cite
APA
ACM
ACS
ABNT
Chicago
Harvard
IEEE
MLA
Turabian
Vancouver
Download Citation
Article abstract page views
Downloads
License
Copyright (c) 2012 Revista Colombiana de Estadística
This work is licensed under a Creative Commons Attribution 4.0 International License.
- Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution License that allows others to share the work with an acknowledgement of the work's authorship and initial publication in this journal.
- Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgement of its initial publication in this journal.
- Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work (See The Effect of Open Access).