1Universidad de Los Andes, Instituto de Estadística Aplicada y Computación (IEAC/FACES), Programa de Doctorado en Estadística, Mérida, Venezuela. Estudiante de doctorado. Email: ernesto@ula.ve
2Universidad de Los Andes, Instituto de Estadística Aplicada y Computación (IEAC/FACES), Programa de Doctorado en Estadística, Mérida, Venezuela. Profesor titular. Email: sinha32@yahoo.com
3Universidad de Los Andes, Instituto de Estadística Aplicada y Computación (IEAC/FACES), Programa de Doctorado en Estadística, Mérida, Venezuela. Profesor titular. Email: goitia@ula.ve
Se discute el efecto que se produce sobre el modelo logit binario con un único factor explicativo cuando el investigador decide agrupar algunos niveles de dicho factor. Con base en la parametrización de referencia y el modelo saturado se sugiere un procedimiento que, aprovechando los cómputos de un primer ajuste logit y corrigiendo el supuesto distribucional sobre la varianza, produce estimaciones más eficientemente y con mayor precisión que las que se producen si solo se decide reiterar un ajuste logit. Una vez colocado el tema en perspectiva, se desarrollan las ecuaciones que sustentan el procedimiento sugerido, apelando a la teoría asintótica. Se ilustra mediante un ejemplo la diferencia entre el procedimiento sugerido y el habitual y, con base en una extensa simulación, se muestran tendencias sólidas a favor del primero, en la medida en que las probabilidades de éxito de la variable respuesta (Y=1), asociadas con las categorías del factor explicativo incluidas en la agrupación, sean más disímiles entre sí.
Palabras clave: modelo logit, agregación de niveles, datos agregados, tablas de contingencia, modelo lineal generalizado.
We discuss the effect that is produced on the binary logit model with one explanatory factor, when the researcher decides to join some levels of the factor. Based on the reference parametrization and the saturated model a procedure is suggested, that takes advantage of the calculations of the first adjustment and corrects the distribucional supposition around the variance. As a result, it produces estimations more efficiently and with more precision, than those which take place if it is decided to repeat the usual logit fit. Once placed the topic in perspective, we develop the equations that support the suggested procedure, based on asymptotic theory. We illustrate with an example the difference between the suggested procedure and the usual one. By developing an extensive simulation, some solid trends appear in favour of the first one, especially when the probabilities of success of the response (Y=1), associated with the categories of the explanatory factor included in the group, are less similar each other.
Key words: Logit model, Joining levels, Aggregate data, Contingency tables, Generalized linear model.
Texto completo disponible en PDF
Referencias
1. Agresti, A. (2007), An Introduction to Categorical Data Analysis, 2 edn, John Wiley & Sons, Inc., New Jersey, United States.
2. Christensen, R. (1997), Log-Linear Models and Logistic Regression, 2 edn, Springer-Verlag, New York, United States.
3. Christensen, R. (2002), Plane Answers to Complex Questions. The Theory of Linear Models, 3 edn, Springer-Verlag, New York, United States.
4. Collett, D. (2002), Modelling binary data, 2 edn, Chapman & Hall/CRC, Boca Raton, United States.
5. Cox, D. R. (1970), Analysis of Binary Data, 1 edn, Methuen and Co Ltd., London, England.
6. Feller, W. (1968), An Introduction to Probability Theory and Its Applications, Vol. 1, 3 edn, John Wiley & Sons. Inc., New York, United States.
7. Grizzle, J. E., Starmer, C. F. & Koch, G. G. (1969), 'Analysis of Categorical Data by Linear Models', Biometrics25(3), 489-504.
8. Hilbe, J. M. (2009), Logistic Regression Models, 1 edn, Chapman & Hall, Florida, United States.
9. Hodges, J. L. & Le Cam, L. (1960), 'The Poisson Approximation to the Poisson Binomial Distribution', The Annals of Mathematical Statistics 31(3), 737-740.
10. Hosmer, D. W. & Lemeshow, S. (2000), Applied Logistic Regression, 2 edn, John Wiley & Sons, New York, United States.
11. Lehmann, E. L. (1999), Elements of Large-Sample Theory, 1 edn, Springer-Verlag, New York, United States.
12. McCullagh, P. & Nelder, J. (1989), Generalized Linear Models, 2 edn, Chapman & Hall, London, England.
13. McCulloch, C. E. & Searle, S. R. (2001), Generalized, Linear, and Mixed Models, 1 edn, John Wiley & Sons, Inc., New York, United States.
14. Neammanee, K. (2005), 'A refinement of Normal approximation to Poisson Binomial', International Journal of Mathematics and Mathematical Sciences(5), 717-728.
15. Nedelman, J. & Wallenius, T. (1986), 'Bernoulli Trials, Poisson Trials, Surprising Variances, and Jensen's Inequality', The American Statistician 40(4), 286-289.
16. Nelder, J. A. & Wedderburn, R. W. M. (1972), 'Generalized Linear Models', Journal of the Royal Statistical Society. Serie A(135), 370-384.
17. Neyman, J. (1939), 'On a new class of contagious distributions, applicable in entomology and bacteriology',The Annals of Mathematical Statistics 10(1), 35-57.
18. Ollero, H. J. & Ramos, R. H. M. (1991), 'La distribución hipergeométrica como binomial de poisson', Trabajos de Estadística 6(1), 35-43.
19. Ponsot, E. (2009), Estudio de la agrupación de niveles en el modelo logit, tesis de doctorado, Instituto de Estadística Aplicada y Computación, Facultad de Ciencias Económicas y Sociales, Universidad de Los Andes, Mérida, Venezuela.
20. Powers, D. A. & Xie, Y. (1999), Statistical Methods for Categorical Data Analysis, 1 edn, Academic Press, United States.
21. R Development Core Team, (2007), 'R: a language and environment for statistical computing', Vienna, Austria. *http://www.R-project.org [ Links ]
22. Rodríguez, G. (2008), 'Lectures notes about generalized linear models', New Jersey, United States. *http://data.princeton.edu/wws509/notes [ Links ]
23. Rohatgi, V. & Ehsanes, A. (2001), An Introduction to Probability and Statistics, 2 edn, John Wiley & Sons, Inc., New York, United States.
24. Roos, B. (1999), 'Asymptotics and Sharp Bounds in the Poisson Approximation to the Poisson-Binomial Distribution', Bernoulli 5(6), 1021-1034.
25. Sprott, D. A. (1958), 'The Method of Maximum Likelihood Applied to the Poisson Binomial Distribution',Biometrics 14(1), 97-106.
26. Wang, Y. H. (1993), 'On the Number of Successes in Independent Trials', Statistica Sinica 3, 295-312.
27. Weba, M. (1999), 'Bounds for the Total Variation Distance between the Binomial and the Poisson Distribution in case of Medium-Sized Success Probabilities', Journal of Applied Probability(36), 497-104.
28. Wedderburn, R. W. M. (1974), 'Quasi-Likelihood Functions, Generalized Linear Models, and the Gauss-Newton Method', Biometrika 61(3), 439-447.
Este artículo se puede citar en LaTeX utilizando la siguiente referencia bibliográfica de BibTeX:
@ARTICLE{RCEv32n2a01,