Publicado

2022-07-14

Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data

Comportamiento de algunas pruebas de hipótesis para la matriz de covarianza de datos de dimensión alta

DOI:

https://doi.org/10.15446/rce.v45n2.98550

Palabras clave:

Hypothesis test, covariance matrix, high dimensional data, Tracy-Widom law, multivariate Gaussian data (en)
Pruebas de hipótesis, matriz de covarianza, datos de dimensión alta, ley Tracy-Widom, datos Gaussianos multivariados (es)

Descargas

Autores/as

  • Addy Bolivar-Cime División Académica de Ciencias Básicas, Universidad Juárez Autónoma de Tabasco, Cunduacán, México https://orcid.org/0000-0002-7342-0888
  • Didier Cortez-Elizalde División Académica de Ciencias Básicas, Universidad Juárez Autónoma de Tabasco, Cunduacán, México

The study of the structure of the covariance matrix when the dimension of the data is much greater than the sample size (high dimensional data) is a complicated problem, since we have many unknown parameters and few data. Several hypothesis tests for the covariance matrix, in the high dimensional context and in the classical case (where the dimension of the data is less than the sample size), can be found in the literature. It has been of interest the tests for the null hypothesis that the covariance matrix of Gaussian data is equal or proportional to the identity matrix, considering the classical case as well as the high dimensional context. Since it is important to have a wide comparison between these tests found in the literature, and for some of them it is difficult to have theoretical results about their powers, in this work we compare several tests by simulations, in terms of the size and power of the test. We also present some examples of application with real high dimensional data found in the literature.

El estudio de la matriz de covarianza cuando la dimensión de los datos es mucho más grande que el tamaño de la muestra (datos de dimensión alta) es un problema complicado, ya que se tienen muchos parámetros desconocidos y pocos datos. Se pueden encontrar en la literatura varias pruebas de hipótesis para la matriz de covarianza, en el contexto de datos de dimensión alta y en el caso clásico (donde la dimensión de los datos es menor que el tamaño de la muestra). Han sido de interés las pruebas para la hipótesis nula de que la matriz de covarianza de datos Gaussianos es igual o proporcional a la matriz identidad, considerando el contexto clásico como el de dimensión alta. Ya que es importante tener una amplia comparación entre estas pruebas encontradas en la literatura, y para algunas de ellas es difícil tener resultados teóricos acerca de sus potencias, en este trabajo comparamos varias pruebas mediante simulaciones, en términos del tamaño y la potencia de la prueba. También presentamos algunos ejemplos de aplicación con datos de dimensión alta reales encontrados en la literatura.

Referencias

Anderson, T. W. (1984), An Introduction to Multivariate Statistical Analysis, John Wiley & Sons, Inc.

Bai, Z., Jiang, D., Yao, J. F. & Zheng, S. (2009), 'Corrections to LRT on large-dimensional covariance matrix by RMT', The Annals of Statistics 37(6B), 3822-3840. DOI: https://doi.org/10.1214/09-AOS694

Cai, T. T. & Ma, Z. (2013), 'Optimal hypothesis testing for high dimensional covariance matrices', Bernoulli 19(5B), 2359-2388. DOI: https://doi.org/10.3150/12-BEJ455

Chen, S. X., Zhang, L.-X. & Zhong, P.-S. (2010), 'Tests for high-dimensional covariance matrices', Journal of the American Statistical Association 105(490), 810-819. DOI: https://doi.org/10.1198/jasa.2010.tm09560

Cortez-Elizalde, D. (2020), Pruebas de hipótesis para la matriz de covarianza poblacional de datos de dimensión alta, Tesis de Maestría, Universidad Juárez Autónoma de Tabasco, División Académica de Ciencias Básicas, Cunduacán, México.

Hallin, M. & Paindaveine, D. (2006), 'Semiparametrically efficient rank-based inference for shape. i. optimal rank-based tests for sphericity', The annals of statistics 34(6), 2707-2756. DOI: https://doi.org/10.1214/009053606000000731

Hastie, T., Tibshirani, R. & Friedman, J. H. (2009), Elements of statistical learning: data mining, inference, and prediction, Springer. DOI: https://doi.org/10.1007/978-0-387-84858-7

John, S. (1971), 'Some optimal multivariate tests', Biometrika 58(1), 123-127. John, S. (1972), 'The distribution of a statistic used for testing sphericity of normal distributions', Biometrika 59(1), 169-173. DOI: https://doi.org/10.1093/biomet/59.1.169

Johnstone, I. M. (2001), 'On the Distribution of the Largest Eigenvalue in Principal Components Analysis', The Annals of Statistics 29(2), 295-327. DOI: https://doi.org/10.1214/aos/1009210544

Ledoit, O. & Wolf, M. (2002), 'Some hypothesis tests for the covariance matrix when the dimension is large compared to the sample size', The Annals of Statistics 30(4), 1081-1102. DOI: https://doi.org/10.1214/aos/1031689018

Li, Z. & Yao, J. (2016), 'Testing the sphericity of a covariance matrix when the dimension is much larger than the sample size', Electronic Journal of Statistics 10(2), 2973-3010. DOI: https://doi.org/10.1214/16-EJS1199

Ma, Z. (2012), 'Accuracy of the tracy-widom limits for the extreme eigenvalues in white wishart matrices', Bernoulli 18(1), 322-359. DOI: https://doi.org/10.3150/10-BEJ334

Muirhead, R. J. (2005), Aspects of Multivariate Statistical Theory, John Wiley & Sons, Inc.

Nagao, H. (1973), 'On some test criteria for covariance matrix', The Annals of Statistics (1), 700-709. DOI: https://doi.org/10.1214/aos/1176342464

Rosenwald, A., Wright, G., Chan, W. C., Connors, J. M., Campo, E., Fisher, R. I. & et al. (2002), 'The use of molecular profling to predict survival after chemotherapy for diffuse large-B-cell lymphoma', New England Journal of Medicine 346(25), 1937-1947. DOI: https://doi.org/10.1056/NEJMoa012914

Ross, D. T., Scherf, U., Eisen, M. B., Perou, C. M., Rees, C., Spellman, P. & et al. (2000), 'Systematic variation in gene expression patterns in human cancer cell lines', Nature genetics 24(3), 227-235. DOI: https://doi.org/10.1038/73432

Srivastava, M. S. (2005), 'Some tests concerning the covariance matrix in high dimensional data', Journal of the Japan Statistical Society 35(2), 251-272. DOI: https://doi.org/10.14490/jjss.35.251

Srivastava, M. S., Yanagihara, H. & Kubokawa, T. (2014), 'Tests for covariance matrices in high dimension with less sample size', Journal of Multivariate Analysis 130, 289-309. DOI: https://doi.org/10.1016/j.jmva.2014.06.003

Zou, C., Peng, L., Feng, L. & Wang, Z. (2014), 'Multivariate sign-based highdimensional tests for sphericity', Biometrika 101(1), 229-236. DOI: https://doi.org/10.1093/biomet/ast040

Cómo citar

APA

Bolivar-Cime, A. y Cortez-Elizalde, D. (2022). Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data. Revista Colombiana de Estadística, 45(2), 373–399. https://doi.org/10.15446/rce.v45n2.98550

ACM

[1]
Bolivar-Cime, A. y Cortez-Elizalde, D. 2022. Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data. Revista Colombiana de Estadística. 45, 2 (jul. 2022), 373–399. DOI:https://doi.org/10.15446/rce.v45n2.98550.

ACS

(1)
Bolivar-Cime, A.; Cortez-Elizalde, D. Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data. Rev. colomb. estad. 2022, 45, 373-399.

ABNT

BOLIVAR-CIME, A.; CORTEZ-ELIZALDE, D. Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data. Revista Colombiana de Estadística, [S. l.], v. 45, n. 2, p. 373–399, 2022. DOI: 10.15446/rce.v45n2.98550. Disponível em: https://revistas.unal.edu.co/index.php/estad/article/view/98550. Acesso em: 28 ene. 2025.

Chicago

Bolivar-Cime, Addy, y Didier Cortez-Elizalde. 2022. «Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data». Revista Colombiana De Estadística 45 (2):373-99. https://doi.org/10.15446/rce.v45n2.98550.

Harvard

Bolivar-Cime, A. y Cortez-Elizalde, D. (2022) «Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data», Revista Colombiana de Estadística, 45(2), pp. 373–399. doi: 10.15446/rce.v45n2.98550.

IEEE

[1]
A. Bolivar-Cime y D. Cortez-Elizalde, «Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data», Rev. colomb. estad., vol. 45, n.º 2, pp. 373–399, jul. 2022.

MLA

Bolivar-Cime, A., y D. Cortez-Elizalde. «Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data». Revista Colombiana de Estadística, vol. 45, n.º 2, julio de 2022, pp. 373-99, doi:10.15446/rce.v45n2.98550.

Turabian

Bolivar-Cime, Addy, y Didier Cortez-Elizalde. «Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data». Revista Colombiana de Estadística 45, no. 2 (julio 14, 2022): 373–399. Accedido enero 28, 2025. https://revistas.unal.edu.co/index.php/estad/article/view/98550.

Vancouver

1.
Bolivar-Cime A, Cortez-Elizalde D. Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data. Rev. colomb. estad. [Internet]. 14 de julio de 2022 [citado 28 de enero de 2025];45(2):373-99. Disponible en: https://revistas.unal.edu.co/index.php/estad/article/view/98550

Descargar cita

CrossRef Cited-by

CrossRef citations0

Dimensions

PlumX

Visitas a la página del resumen del artículo

282

Descargas

Los datos de descargas todavía no están disponibles.