UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias

José Luis Pemberty Tamayo; Jorge Mauricio Molina Mejía; Víctor Julián Vallejo Zapata

doi:10.15446/fyf.v36n2.101984

Publicado

2023-07-06

UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias

UnderRL Tagger: A Grammar Tagger for Technologically Under-Supported and Minority Languages

DOI:

https://doi.org/10.15446/fyf.v36n2.101984

Palabras clave:

etiquetado morfosintáctico, lenguas infrasoportadas tecnológicamente, lenguas minoritarias, corpus textuales, procesamiento del lenguaje natural (es)
morphosyntactic tagging, technologically under-supported languages, minority languages, text corpora, natural language processing (en)
marcação gramatical, línguas tecnologicamente pouco suportadas, línguas minoritárias, corpus textuales, processamento de linguagem natural (pt)

Descargas

XML
PDF

Autores/as

José Luis Pemberty Tamayo Universidad de Antioquia jose.pemberty@udea.edu.co https://orcid.org/0000-0001-9498-874X
Jorge Mauricio Molina Mejía Universidad de Antioquia jorge.molina@udea.edu.co https://orcid.org/0000-0002-1430-6364
Víctor Julián Vallejo Zapata Universidad de Antioquia victor.vallejo@udea.edu.co https://orcid.org/0000-0002-5965-4880

En este artículo se presenta UnderRL Tagger, un programa informático de acceso libre diseñado para el etiquetado morfosintáctico (POS tagging) en lenguas que no cuentan con etiquetadores automáticos. El programa busca facilitar el trabajo con corpus en estas lenguas infrasoportadas tecnológicamente y en las lenguas minoritarias, aportando así a los procesos de revitalización desde la investigación descriptiva y las herramientas computacionales. UnderRL Tagger permite que el proceso manual de etiquetado se convierta poco a poco en automático gracias a un sistema que permite recordar y reutilizar las etiquetas, manejar grandes cantidades de textos y generar archivos de salida en formato XML con etiquetas basadas en el sistema estandarizado EAGLES. Este artículo muestra el proceso de modelado y elaboración del sistema, sus diferentes funcionalidades y las perspectivas de trabajos posteriores.

This article presents UnderRL Tagger, a free software designed for POS tagging in languages that do not have automatic taggers. The program attempts to facilitate work with corpus in these under-resourced languages and in minority languages, thus contributing to revitalization processes from descriptive research and computational tools. UnderRL Tagger allows the manual tagging process to gradually become automatic thanks to a system that allows the user to remember and reuse tags, manage large amounts of text and generate output files in XML format with tags based on the standardized EAGLES system. This article shows the process of modeling and elaboration of the system, its different functionalities and the perspectives of later works.

Este artigo apresenta o UnderRL Tagger, um software disponível gratuitamente desenvolvido para marcação gramatical (POS tagging) em idiomas que não possuem anotadores automáticos. O programa busca facilitar o trabalho com corpus nessas línguas tecnologicamente pouco suportadas e em línguas minoritárias, contribuindo assim para processos de revitalização a partir de pesquisas descritivas e ferramentas computacionais. O UnderRL Tagger permite que o processo de marcação manual se torne gradualmente automático graças a um sistema que permite lembrar e reutilizar tags, gerenciar grandes quantidades de texto e gerar arquivos de saída em formato XML com tags baseadas no sistema EAGLES padronizado. Este artigo mostra o processo de modelagem e elaboração do sistema, suas diferentes funcionalidades e as perspectivas de trabalhos posteriores.

Referencias

Anthony, L. (2022). TagAnt (Version 2.0.5) [Software]. https://www.laurenceanthony.net/software

Besacier, L., Barnard, E., Karpov, A., & Schultz, T. (2014). Automatic speech recognition for under-resourced languages: A survey. Speech Communication, 56, 85-100. https://doi.org/10.1016/j.specom.2013.07.008

Bonilla, J. E., Rubio López, R. Y., Llanos Chávez, A. L., Bejarano, D. E., & Bernal Chávez, J. A. (2020). Proyecto de Digitalización y Nuevas Perspectivas Tecnológicas del Atlas Lingüístico-Etnográfico de Colombia. En Gallego, A., & Roca Urgell, F. (eds.), Dialectología digital del español, 13, pp. 13-28. Santiago de Compostela: Universidad de Santiago de Compostela.

Camacho, L., & Zevallos, R. (2020). Lingüística computacional para la revitalización y el poliglotismo. Letras, 91(134), 184-198. http://doi.org/10.30920/letras.91.134.9

Cunliffe, D., Vlachidis, A., Williams, D., & Tudhope, D. (2022). Natural language processing for under-resourced languages: Developing a Welsh natural language toolkit. Computer Speech & Language, 72, 101311. https://doi.org/10.1016/j.csl.2021.101311

Dueñas, G., & Gómez, D. (2015). Diccionario electrónico sáliba-español: una herramienta interactiva para la documentación de la lengua y de la cultura sálibas. Forma y Función, 28(2), 49-61. http://dx.doi.org/10.15446/fyf.v28n2.53539

Dueñas, G., & Gómez, D. (2016). Building Bilingual Dictionaries for Minority and Endangered Languages with Mediawiki. CCURL 2016 Collaboration and Computing for Under-Resourced Languages: Towards an Alliance for Digital Language Diversity (pp. 9-15).

Eberhard, D., Simons, G., & Fennig, C. (eds.) (2019). Ethnologue: Languages of the World (22 ed.). SIL International.

El-Haj, M., Kruschwitz, U., & Fox, C. (2015). Creating language resources for under-resourced languages: Methodologies, and experiments with Arabic. Language Resources and Evaluation, 49(3), 549-580. https://doi.org/10.1007/s10579-014-9274-3

García, M., Gómez-Rodríguez, C., & Alonso, M. (2016). Creación de un treebank de dependencias universales mediante recursos existentes para lenguas próximas: el caso del gallego. Procesamiento del Lenguaje Natural, 57, 33-40. https://www.redalyc.org/articulo.oa?id=515754424003

Leech, G., & Wilson, A. (1996). EAGLES recommendations for the morphosyntactic annotation of corpora. Istituto di Linguistica Computazionale. http://www.ilc.cnr.it/EAGLES96/annotate/node1.html

Maxwell, M., & Hughes, B. (2006). Frontiers in linguistic annotation for lower-density languages. Proceedings of the workshop on frontiers in linguistically annotated corpora 2006, 29-37. https://minerva-access.unimelb.edu.au/handle/11343/34524 DOI: https://doi.org/10.3115/1641991.1641996

McCrae, J., & Doyle, A. (2019). Adapting Term Recognition to an Under-Resourced Language: the Case of Irish. En Lynn, T., Prys, D., Batchelor, C., & Tyers, F. (eds.), Proceedings of the Celtic Language Technology Workshop (pp. 48-57). European Association for Machine Translation. https://aclanthology.org/W19-6907/

McCrae, J., Ojha, A., Chakravarthi, B., Kelly, I., Buffini, P., Tang, G., Paquin, E., & Locria, M. (2021). Enriching a terminology for under-resourced languages using knowledge graphs. En Kosem, I., Cukr, M., Jakubíček, M., Kallas, J., Krek, S., & Tiberius, C. (eds.), Electronic lexicography in the 21st century: post-editing lexicography. Proceedings of the eLex 2021 conference (pp. 560-571). Lexical Computing CZ. https://elex.link/elex2021/wp-content/uploads/eLex_2021-proceedings_compressed.pdf

Mikheev, A. (2014). Text Segmentation. En Mitkov, R. (ed.), The Oxford Handbook of Computational Linguistics 2nd edition. Oxford University Press. https://doi.org/10.1093/oxfordhb/9780199573691.013.34

Mohammed, S. (2020). Using machine learning to build POS tagger for under-resourced language: the case of Somali. International Journal of Information Technology, 12, 717-729. https://doi.org/10.1007/s41870-020-00480-2

Montenegro, A., & Guaquetá, M. (2020). Identificación de los posibles fonemas vocálicos de la lengua tanimuka aplicando Machine Learning. En Molina, A., Valdivia, P., & Venegas, R. (eds.), III Congreso Internacional de Lingüística Computacional y de Corpus: Una mirada desde las tecnologías del lenguaje y las Humanidades Digitales (CILCC 2020) y V Workshop en Procesamiento Automatizado de Textos y Corpus (WOPATEC_2020) (p. 52). Universidad de Antioquia/University of Groningen. https://dialnet.unirioja.es/servlet/libro?codigo=786453

Núñez, E. (2013). Minorías lingüísticas y derecho a las lenguas. Revista Internacional d'Humanitats, 27, 7-28. http://www.hottopos.com/rih27/

Ostler, N. (2014). Endangered languages in the New Multilingual Order per genus et differentiam. En Jones, M. C. (ed.), Endangered Languages and New Technologies (pp. 1-13). Cambridge University Press. https://doi.org/10.1017/CBO9781107279063.002

Padró, L., Collado, M., Reese, S., Lloberes M., & Castellón, I. (2010). FreeLing 2.1: Five Years of Open-Source Language Processing Tools. En Calzolari, N., Choukri, K., Maegaard, B., Mariani, J., Odij, J., Piperidis, S., Rosner, M., & Tapias, D. (eds.), Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC 2010) (pp. 931-936). ELRA.

Passonneau, R., & Mani, I. (2014). Evaluation. En Mitkov, R. (ed.), The Oxford Handbook of Computational Linguistics 2nd edition. Oxford University Press. https://doi.org/10.1093/oxfordhb/9780199573691.013.014

Pemberty Tamayo, J. L. (2020). Concepción y elaboración de un sistema de etiquetado semiautomático para under-resourced languages [tesis de pregrado, Universidad de Antioquia]. http://bibliotecadigital.udea.edu.co/handle/10495/16570

Pemberty Tamayo, J. L., Molina Mejía, J. M., & Marín Morales, M. I. (2020). UnderRL Tagger (Versión 1.0) [Software]. Universidad de Antioquia. https://github.com/jluispemberty/UnderRlTagger

Pereira, J. H. (2018). Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo [tesis de pregrado, Pontificia Universidad Católica del Perú]. https://tesis.pucp.edu.pe/repositorio/handle/20.500.12404/13495

Ramírez-Cruz, H., & Chaparro Rojas, J. F. (2021). Introducción: la diversidad lingüística y la investigación de lenguas en peligro. Forma y Función, 34(2). http://doi.org/10.15446/fyf.v34n2.96558

Rojas Curieux, T. (comp.) (2017). Corpus lingüísticos: estudio y aplicación en revitalización de lenguas indígenas. Universidad del Cauca.

Sanmiguel Ardila, R., Schoch Angel, M., & Loaiza-Camacho, B. S. (2021). Retos y oportunidades contemporáneos del kriol en el archipiélago de San Andrés, Providencia y Santa Catalina, Colombia. Forma y Función, 34(2). https://doi.org/10.15446/fyf.v34n2.88613

Schmid, H. (1994). TreeTagger - a part-of-speech tagger for many languages [Software]. https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

Schuster, S., & Manning, C. D. (2016). Enhanced English Universal Dependencies: An Improved Representation for Natural Language Understanding Tasks. En Calzolari, N., Choukri, J., Declerck, T., & Moreno, A. (eds.), 10th conference on International Language Resources and Evaluation (LREC'16). LREC. https://aclanthology.org/L16-1376/

Sene-Mongaba, B. (2015). The Making of Lingala Corpus: An Under-resourced Language and the Internet. Procedia - Social and Behavioral Sciences, 198, 442-450. https://doi.org/10.1016/j.sbspro.2015.07.464

Somers, H. (2003). Translation technologies and minority languages. En. Somers, H. (ed.), Computers and Translation (pp. 87-103). John Benjamins. https://doi.org/10.1075/btl.35.09som

Summer Institute of Linguistics (SIL). (2019). Field Linguist's ToolBox (Version 1.6.4). [Software] https://software.sil.org/toolbox/

Summer Institute of Linguistics (SIL). (2021). FieldWorks Language Explorer (Version 9.0). [Software] https://software.sil.org/fieldworks/

UNESCO. (2014). Una cátedra al servicio de comunidades indígenas. Cátedra Unesco en Tecnologías Lingüísticas. https://www.teclin.org/Una-catedra-al-servicio-de-comunidades-indigenas_a6.html

Weisser, M. (2018). Automatically Enhancing Tagging Accuracy and Readability for Common Freeware Taggers. En Tono, Y., & Isahara, H. (eds.), Proceedings of APCLC 2018 (pp. 502-505). Asia Pacific Corpus Linguistics Association.

Woodbury, A. C. (2014). Archives and audiences: Toward making endangered language documentations people can read, use, understand, and admire. Language documentation and description, 12, 19-36.

Cómo citar

APA

Pemberty Tamayo, J. L., Molina Mejía, J. M. & Vallejo Zapata, V. J. (2023). UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias. Forma y Función, 36(2). https://doi.org/10.15446/fyf.v36n2.101984

ACM

[1]

Pemberty Tamayo, J.L., Molina Mejía, J.M. y Vallejo Zapata, V.J. 2023. UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias. Forma y Función. 36, 2 (jul. 2023). DOI:https://doi.org/10.15446/fyf.v36n2.101984.

ACS

(1)

Pemberty Tamayo, J. L.; Molina Mejía, J. M.; Vallejo Zapata, V. J. UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias. Forma. func. 2023, 36.

ABNT

PEMBERTY TAMAYO, J. L.; MOLINA MEJÍA, J. M.; VALLEJO ZAPATA, V. J. UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias. Forma y Función, [S. l.], v. 36, n. 2, 2023. DOI: 10.15446/fyf.v36n2.101984. Disponível em: https://revistas.unal.edu.co/index.php/formayfuncion/article/view/101984. Acesso em: 14 may. 2026.

Chicago

Pemberty Tamayo, José Luis, Jorge Mauricio Molina Mejía, y Víctor Julián Vallejo Zapata. 2023. «UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias». Forma Y Función 36 (2). https://doi.org/10.15446/fyf.v36n2.101984.

Harvard

Pemberty Tamayo, J. L., Molina Mejía, J. M. y Vallejo Zapata, V. J. (2023) «UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias», Forma y Función, 36(2). doi: 10.15446/fyf.v36n2.101984.

IEEE

[1]

J. L. Pemberty Tamayo, J. M. Molina Mejía, y V. J. Vallejo Zapata, «UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias», Forma. func., vol. 36, n.º 2, jul. 2023.

MLA

Pemberty Tamayo, J. L., J. M. Molina Mejía, y V. J. Vallejo Zapata. «UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias». Forma y Función, vol. 36, n.º 2, julio de 2023, doi:10.15446/fyf.v36n2.101984.

Turabian

Pemberty Tamayo, José Luis, Jorge Mauricio Molina Mejía, y Víctor Julián Vallejo Zapata. «UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias». Forma y Función 36, no. 2 (julio 6, 2023). Accedido mayo 14, 2026. https://revistas.unal.edu.co/index.php/formayfuncion/article/view/101984.

Vancouver

1.

Pemberty Tamayo JL, Molina Mejía JM, Vallejo Zapata VJ. UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias. Forma. func. [Internet]. 6 de julio de 2023 [citado 14 de mayo de 2026];36(2). Disponible en: https://revistas.unal.edu.co/index.php/formayfuncion/article/view/101984

Descargar cita

CrossRef Cited-by

0

Dimensions

PlumX

Visitas a la página del resumen del artículo

1417

Descargas

Los datos de descargas todavía no están disponibles.

Licencia

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Forma y Función está suscrita al convenio Open Journal System, lo que significa que tiene el carácter de acceso abierto. Se provee acceso libre e inmediato a su contenido, bajo el principio de que hacer disponible gratuitamente los resultados de investigación contribuye a la divulgación global del conocimiento, así como al intercambio académico que propicia vínculos entre las comunidades científicas. Los usuarios pueden buscar, leer, copiar, descargar y compartir la totalidad de los textos publicados. Se autoriza su uso, siempre y cuando se conceda el crédito a los autores de los textos y a Forma y Función como fuente original de la publicación. No se permite el uso comercial de copia o distribución de contenidos, así como tampoco la adaptación, derivación o transformación alguna de estos sin la autorización previa de los autores y del editor de Forma y Función.
Los contenidos de la revista son publicados en acceso abierto bajo la Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional. Para mayor información sobre los términos de la licencia, se puede consultar: http://creativecommons.org/licenses/by-nc-sa/4.0/legalcode.
En consonancia con la política de acceso abierto, Forma y Función no aplica cargos por el procesamiento de los textos enviados, ni por su publicación.