Published

2009-07-01

SOBRE LA AGRUPACIÓN DE NIVELES DEL FACTOR

ABOUT JOINING EXPLANATION FACTOR LEVELS IN THE BINARY LOGIT MODEL

Keywords:

modelo logit, agregación de niveles, datos agregados, tablas de contingencia, modelo lineal generalizado (es)
Logit model, Joining levels, Aggregate data, Contingency tables, Generalized linear model (en)

Authors

  • Ernesto Ponsot Balaguer Universidad de Los Andes - Venezuela
  • Surendra Sinha Universidad de Los Andes - Venezuela
  • Arnaldo Goitía Universidad de Los Andes - Venezuela
Se discute el efecto que se produce sobre el modelo logit binario con un único factor explicativo cuando el investigador decide agrupar algunos niveles de dicho factor. Con base en la parametrización de referencia y el modelo saturado se sugiere un procedimiento que, aprovechando los cómputos de un primer ajuste logit y corrigiendo el supuesto distribucional sobre la varianza, produce estimaciones más eficientemente y con mayor precisión que las que se producen si solo se decide reiterar un ajuste logit. Una vez colocado el tema en perspectiva, se desarrollan las ecuaciones que sustentan el procedimiento sugerido, apelando a la teoría asintótica. Se ilustra mediante un ejemplo la diferencia entre el procedimiento sugerido y el habitual y, con base en una extensa simulación, se muestran tendencias sólidas a favor del primero, en la medida en que las probabilidades de éxito de la variable respuesta (Y = 1), asociadas con las categorías del factor explicativo incluidas en la agrupación, sean más disímiles entre sí.
We discuss the effect that is produced on the binary logit model with one explanatory factor, when the researcher decides to join some levels of the factor. Based on the reference parametrization and the saturated model a procedure is suggested, that takes advantage of the calculations of the first adjustment and corrects the distribucional supposition around the variance. As a result, it produces estimations more efficiently and with more precision, than those which take place if it is decided to repeat the usual logit fit. Once placed the topic in perspective, we develop the equations that support the suggested procedure, based on asymptotic theory. We illustrate with an example the difference between the suggested procedure and the usual one. By developing an extensive simulation, some solid trends appear in favour of the first one, especially when the probabilities of success of the response (Y = 1), associated with the categories of the explanatory factor included in the group, are less similar each other.
Untitled Document
Sobre la agrupación de niveles del factor explicativo en el modelo logit binario

About Joining Explanation Factor Levels in the Binary Logit Model
ERNESTO PONSOT BALAGUER1, SURENDRA SINHA2, ARNALDO GOITÍA3

1Universidad de Los Andes, Instituto de Estadística Aplicada y Computación (IEAC/FACES), Programa de Doctorado en Estadística, Mérida, Venezuela. Estudiante de doctorado. Email: ernesto@ula.ve 
2Universidad de Los Andes, Instituto de Estadística Aplicada y Computación (IEAC/FACES), Programa de Doctorado en Estadística, Mérida, Venezuela. Profesor titular. Email: sinha32@yahoo.com 
3Universidad de Los Andes, Instituto de Estadística Aplicada y Computación (IEAC/FACES), Programa de Doctorado en Estadística, Mérida, Venezuela. Profesor titular. Email: goitia@ula.ve 


Resumen

Se discute el efecto que se produce sobre el modelo logit binario con un único factor explicativo cuando el investigador decide agrupar algunos niveles de dicho factor. Con base en la parametrización de referencia y el modelo saturado se sugiere un procedimiento que, aprovechando los cómputos de un primer ajuste logit y corrigiendo el supuesto distribucional sobre la varianza, produce estimaciones más eficientemente y con mayor precisión que las que se producen si solo se decide reiterar un ajuste logit. Una vez colocado el tema en perspectiva, se desarrollan las ecuaciones que sustentan el procedimiento sugerido, apelando a la teoría asintótica. Se ilustra mediante un ejemplo la diferencia entre el procedimiento sugerido y el habitual y, con base en una extensa simulación, se muestran tendencias sólidas a favor del primero, en la medida en que las probabilidades de éxito de la variable respuesta (Y=1), asociadas con las categorías del factor explicativo incluidas en la agrupación, sean más disímiles entre sí.

Palabras clave: modelo logit, agregación de niveles, datos agregados, tablas de contingencia, modelo lineal generalizado.


Abstract

We discuss the effect that is produced on the binary logit model with one explanatory factor, when the researcher decides to join some levels of the factor. Based on the reference parametrization and the saturated model a procedure is suggested, that takes advantage of the calculations of the first adjustment and corrects the distribucional supposition around the variance. As a result, it produces estimations more efficiently and with more precision, than those which take place if it is decided to repeat the usual logit fit. Once placed the topic in perspective, we develop the equations that support the suggested procedure, based on asymptotic theory. We illustrate with an example the difference between the suggested procedure and the usual one. By developing an extensive simulation, some solid trends appear in favour of the first one, especially when the probabilities of success of the response (Y=1), associated with the categories of the explanatory factor included in the group, are less similar each other.

Key words: Logit model, Joining levels, Aggregate data, Contingency tables, Generalized linear model.


Texto completo disponible en PDF


Referencias

1. Agresti, A. (2007), An Introduction to Categorical Data Analysis, 2 edn, John Wiley & Sons, Inc., New Jersey, United States.

2. Christensen, R. (1997), Log-Linear Models and Logistic Regression, 2 edn, Springer-Verlag, New York, United States.

3. Christensen, R. (2002), Plane Answers to Complex Questions. The Theory of Linear Models, 3 edn, Springer-Verlag, New York, United States.

4. Collett, D. (2002), Modelling binary data, 2 edn, Chapman & Hall/CRC, Boca Raton, United States.

5. Cox, D. R. (1970), Analysis of Binary Data, 1 edn, Methuen and Co Ltd., London, England.

6. Feller, W. (1968), An Introduction to Probability Theory and Its Applications, Vol. 1, 3 edn, John Wiley & Sons. Inc., New York, United States.

7. Grizzle, J. E., Starmer, C. F. & Koch, G. G. (1969), 'Analysis of Categorical Data by Linear Models', Biometrics25(3), 489-504.

8. Hilbe, J. M. (2009), Logistic Regression Models, 1 edn, Chapman & Hall, Florida, United States.

9. Hodges, J. L. & Le Cam, L. (1960), 'The Poisson Approximation to the Poisson Binomial Distribution', The Annals of Mathematical Statistics 31(3), 737-740.

10. Hosmer, D. W. & Lemeshow, S. (2000), Applied Logistic Regression, 2 edn, John Wiley & Sons, New York, United States.

11. Lehmann, E. L. (1999), Elements of Large-Sample Theory, 1 edn, Springer-Verlag, New York, United States.

12. McCullagh, P. & Nelder, J. (1989), Generalized Linear Models, 2 edn, Chapman & Hall, London, England.

13. McCulloch, C. E. & Searle, S. R. (2001), Generalized, Linear, and Mixed Models, 1 edn, John Wiley & Sons, Inc., New York, United States.

14. Neammanee, K. (2005), 'A refinement of Normal approximation to Poisson Binomial', International Journal of Mathematics and Mathematical Sciences(5), 717-728.

15. Nedelman, J. & Wallenius, T. (1986), 'Bernoulli Trials, Poisson Trials, Surprising Variances, and Jensen's Inequality', The American Statistician 40(4), 286-289.

16. Nelder, J. A. & Wedderburn, R. W. M. (1972), 'Generalized Linear Models', Journal of the Royal Statistical Society. Serie A(135), 370-384.

17. Neyman, J. (1939), 'On a new class of contagious distributions, applicable in entomology and bacteriology',The Annals of Mathematical Statistics 10(1), 35-57.

18. Ollero, H. J. & Ramos, R. H. M. (1991), 'La distribución hipergeométrica como binomial de poisson', Trabajos de Estadística 6(1), 35-43.

19. Ponsot, E. (2009), Estudio de la agrupación de niveles en el modelo logit, tesis de doctorado, Instituto de Estadística Aplicada y Computación, Facultad de Ciencias Económicas y Sociales, Universidad de Los Andes, Mérida, Venezuela.

20. Powers, D. A. & Xie, Y. (1999), Statistical Methods for Categorical Data Analysis, 1 edn, Academic Press, United States.

21. R Development Core Team, (2007), 'R: a language and environment for statistical computing', Vienna, Austria. *http://www.R-project.org         [ Links ]

22. Rodríguez, G. (2008), 'Lectures notes about generalized linear models', New Jersey, United States. *http://data.princeton.edu/wws509/notes         [ Links ]

23. Rohatgi, V. & Ehsanes, A. (2001), An Introduction to Probability and Statistics, 2 edn, John Wiley & Sons, Inc., New York, United States.

24. Roos, B. (1999), 'Asymptotics and Sharp Bounds in the Poisson Approximation to the Poisson-Binomial Distribution', Bernoulli 5(6), 1021-1034.

25. Sprott, D. A. (1958), 'The Method of Maximum Likelihood Applied to the Poisson Binomial Distribution',Biometrics 14(1), 97-106.

26. Wang, Y. H. (1993), 'On the Number of Successes in Independent Trials', Statistica Sinica 3, 295-312.

27. Weba, M. (1999), 'Bounds for the Total Variation Distance between the Binomial and the Poisson Distribution in case of Medium-Sized Success Probabilities', Journal of Applied Probability(36), 497-104.

28. Wedderburn, R. W. M. (1974), 'Quasi-Likelihood Functions, Generalized Linear Models, and the Gauss-Newton Method', Biometrika 61(3), 439-447.

[Recibido en junio de 2009. Aceptado en agosto de 2009]

Este artículo se puede citar en LaTeX utilizando la siguiente referencia bibliográfica de BibTeX:

@ARTICLE{RCEv32n2a01, 
    AUTHOR  = {Ponsot Balaguer, Ernesto and Sinha, Surendra and Goitía, Arnaldo}, 
    TITLE   = {{Sobre la agrupación de niveles del factor explicativo en el modelo logit binario}}, 
    JOURNAL = {Revista Colombiana de Estadística}, 
    YEAR    = {2009}, 
    volume  = {32}, 
    number  = {2}, 
    pages   = {157-187} 
}

How to Cite

APA

Ponsot Balaguer, E., Sinha, S. and Goitía, A. (2009). SOBRE LA AGRUPACIÓN DE NIVELES DEL FACTOR. Revista Colombiana de Estadística, 32(2), 157–187. https://revistas.unal.edu.co/index.php/estad/article/view/29760

ACM

[1]
Ponsot Balaguer, E., Sinha, S. and Goitía, A. 2009. SOBRE LA AGRUPACIÓN DE NIVELES DEL FACTOR. Revista Colombiana de Estadística. 32, 2 (Jul. 2009), 157–187.

ACS

(1)
Ponsot Balaguer, E.; Sinha, S.; Goitía, A. SOBRE LA AGRUPACIÓN DE NIVELES DEL FACTOR. Rev. colomb. estad. 2009, 32, 157-187.

ABNT

PONSOT BALAGUER, E.; SINHA, S.; GOITÍA, A. SOBRE LA AGRUPACIÓN DE NIVELES DEL FACTOR. Revista Colombiana de Estadística, [S. l.], v. 32, n. 2, p. 157–187, 2009. Disponível em: https://revistas.unal.edu.co/index.php/estad/article/view/29760. Acesso em: 20 apr. 2024.

Chicago

Ponsot Balaguer, Ernesto, Surendra Sinha, and Arnaldo Goitía. 2009. “SOBRE LA AGRUPACIÓN DE NIVELES DEL FACTOR”. Revista Colombiana De Estadística 32 (2):157-87. https://revistas.unal.edu.co/index.php/estad/article/view/29760.

Harvard

Ponsot Balaguer, E., Sinha, S. and Goitía, A. (2009) “SOBRE LA AGRUPACIÓN DE NIVELES DEL FACTOR”, Revista Colombiana de Estadística, 32(2), pp. 157–187. Available at: https://revistas.unal.edu.co/index.php/estad/article/view/29760 (Accessed: 20 April 2024).

IEEE

[1]
E. Ponsot Balaguer, S. Sinha, and A. Goitía, “SOBRE LA AGRUPACIÓN DE NIVELES DEL FACTOR”, Rev. colomb. estad., vol. 32, no. 2, pp. 157–187, Jul. 2009.

MLA

Ponsot Balaguer, E., S. Sinha, and A. Goitía. “SOBRE LA AGRUPACIÓN DE NIVELES DEL FACTOR”. Revista Colombiana de Estadística, vol. 32, no. 2, July 2009, pp. 157-8, https://revistas.unal.edu.co/index.php/estad/article/view/29760.

Turabian

Ponsot Balaguer, Ernesto, Surendra Sinha, and Arnaldo Goitía. “SOBRE LA AGRUPACIÓN DE NIVELES DEL FACTOR”. Revista Colombiana de Estadística 32, no. 2 (July 1, 2009): 157–187. Accessed April 20, 2024. https://revistas.unal.edu.co/index.php/estad/article/view/29760.

Vancouver

1.
Ponsot Balaguer E, Sinha S, Goitía A. SOBRE LA AGRUPACIÓN DE NIVELES DEL FACTOR. Rev. colomb. estad. [Internet]. 2009 Jul. 1 [cited 2024 Apr. 20];32(2):157-8. Available from: https://revistas.unal.edu.co/index.php/estad/article/view/29760

Download Citation

Article abstract page views

211

Downloads

Download data is not yet available.