Published

2012-09-01

Sobre la entropía del español escrito

On the Entropy of Written Spanish

Keywords:

entropía de Shannon, ley de grandes números, ley de Zipf, procesos estocásticos (es)
Law of large numbers, Shannon entropy, Stochastic process, Zipf’s law (en)

Authors

  • Fabio G. Guerrero Escuela de Ingeniería Eléctrica y Electrónica, Facultad de Ingeniería, Universidad del Valle
Se presenta una discusión sobre la entropía de la lengua española por medio de un método práctico para el cálculo de la entropía de un texto mediante procesamiento informático directo. Como un ejemplo de aplicación, se analizan treinta muestras de texto español, sumando un total de 22,8 millones de caracteres. Longitudes de símbolos desde n = 1 hasta 500 fueron consideradas tanto para palabras como caracteres. Para el cálculo de la distribución de probabilidad de los símbolos se emplearon procesamiento directo por computador y la ley de probabilidad de los grandes números. Se presenta una relación empírica de la entropía con la longitud del texto (en caracteres) y el número de palabras diferentes en el texto. Se analizan también propiedades estadísticas de la lengua española cuando se considera como producida por una fuente estocástica, tales como la invarianza al desplazamiento del origen, ergodicidad y la propiedad de equipartición asintótica.
A discussion on the entropy of the Spanish language by means of a practical method for calculating the entropy of a text by direct computer processing is presented. As an example of application, thirty samples of Spanish text are analyzed, totaling 22.8 million characters. Symbol lengths from n = 1 to 500 were considered for both words and characters. Both direct computer processing and the probability law of large numbers were employed for calculating the probability distribution of the symbols. An empirical relation on entropy involving the length of the text (in characters) and the number of different words in the text is presented. Statistical properties of the Spanish language when viewed as produced by a stochastic source, (such as origin shift invariance, ergodicity and asymptotic equipartition property) are also analyzed.

On the Entropy of Written Spanish

Sobre la entropía del español escrito

FABIO G. GUERRERO1

1Universidad del Valle, Facultad de Ingeniería, Escuela de Ingeniería Eléctrica y Electrónica, Cali, Colombia. Assistant Professor. Email: fabio.guerrero@correounivalle.edu.co


Abstract

A discussion on the entropy of the Spanish language by means of a practical method for calculating the entropy of a text by direct computer processing is presented. As an example of application, thirty samples of Spanish text are analyzed, totaling 22.8 million characters. Symbol lengths from n = 1 to 500 were considered for both words and characters. Both direct computer processing and the probability law of large numbers were employed for calculating the probability distribution of the symbols. An empirical relation on entropy involving the length of the text (in characters) and the number of different words in the text is presented. Statistical properties of the Spanish language when viewed as produced by a stochastic source, (such as origin shift invariance, ergodicity and asymptotic equipartition property) are also analyzed.

Key words: Law of large numbers, Shannon entropy, Stochastic process, Zipf's law.


Resumen

Se presenta una discusión sobre la entropía de la lengua española por medio de un método práctico para el cálculo de la entropía de un texto mediante procesamiento informático directo. Como un ejemplo de aplicación, se analizan treinta muestras de texto español, sumando un total de 22,8 millones de caracteres. Longitudes de símbolos desde n = 1 hasta 500 fueron consideradas tanto para palabras como caracteres. Para el cálculo de la distribución de probabilidad de los símbolos se emplearon procesamiento directo por computador y la ley de probabilidad de los grandes números. Se presenta una relación empírica de la entropía con la longitud del texto (en caracteres) y el número de palabras diferentes en el texto. Se analizan también propiedades estadísticas de la lengua española cuando se considera como producida por una fuente estocástica, tales como la invarianza al desplazamiento del origen, ergodicidad y la propiedad de equipartición asintótica.

Palabras clave: entropía de Shannon, ley de grandes números, ley de Zipf, procesos estocásticos.


Texto completo disponible en PDF


References

1. Slepian, D. (1976), 'On bandwidth', Proceedings of the IEEE 34(3).


[Recibido en noviembre de 2011. Aceptado en septiembre de 2012]

Este artículo se puede citar en LaTeX utilizando la siguiente referencia bibliográfica de BibTeX:

@ARTICLE{RCEv35n3a06,
    AUTHOR  = {Guerrero, Fabio G.},
    TITLE   = {{On the Entropy of Written Spanish}},
    JOURNAL = {Revista Colombiana de Estadística},
    YEAR    = {2012},
    volume  = {35},
    number  = {3},
    pages   = {425-442}
}

How to Cite

APA

Guerrero, F. G. (2012). Sobre la entropía del español escrito. Revista Colombiana de Estadística, 35(3), 423–440. https://revistas.unal.edu.co/index.php/estad/article/view/36878

ACM

[1]
Guerrero, F.G. 2012. Sobre la entropía del español escrito. Revista Colombiana de Estadística. 35, 3 (Sep. 2012), 423–440.

ACS

(1)
Guerrero, F. G. Sobre la entropía del español escrito. Rev. colomb. estad. 2012, 35, 423-440.

ABNT

GUERRERO, F. G. Sobre la entropía del español escrito. Revista Colombiana de Estadística, [S. l.], v. 35, n. 3, p. 423–440, 2012. Disponível em: https://revistas.unal.edu.co/index.php/estad/article/view/36878. Acesso em: 25 apr. 2024.

Chicago

Guerrero, Fabio G. 2012. “Sobre la entropía del español escrito”. Revista Colombiana De Estadística 35 (3):423-40. https://revistas.unal.edu.co/index.php/estad/article/view/36878.

Harvard

Guerrero, F. G. (2012) “Sobre la entropía del español escrito”, Revista Colombiana de Estadística, 35(3), pp. 423–440. Available at: https://revistas.unal.edu.co/index.php/estad/article/view/36878 (Accessed: 25 April 2024).

IEEE

[1]
F. G. Guerrero, “Sobre la entropía del español escrito”, Rev. colomb. estad., vol. 35, no. 3, pp. 423–440, Sep. 2012.

MLA

Guerrero, F. G. “Sobre la entropía del español escrito”. Revista Colombiana de Estadística, vol. 35, no. 3, Sept. 2012, pp. 423-40, https://revistas.unal.edu.co/index.php/estad/article/view/36878.

Turabian

Guerrero, Fabio G. “Sobre la entropía del español escrito”. Revista Colombiana de Estadística 35, no. 3 (September 1, 2012): 423–440. Accessed April 25, 2024. https://revistas.unal.edu.co/index.php/estad/article/view/36878.

Vancouver

1.
Guerrero FG. Sobre la entropía del español escrito. Rev. colomb. estad. [Internet]. 2012 Sep. 1 [cited 2024 Apr. 25];35(3):423-40. Available from: https://revistas.unal.edu.co/index.php/estad/article/view/36878

Download Citation

Article abstract page views

267

Downloads

Download data is not yet available.