UnderRL Tagger: un etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias
UnderRL Tagger: A Grammar Tagger for Technologically Under-Supported and Minority Languages
DOI:
https://doi.org/10.15446/fyf.v36n2.101984Palabras clave:
etiquetado morfosintáctico, lenguas infrasoportadas tecnológicamente, lenguas minoritarias, corpus textuales, procesamiento del lenguaje natural (es)morphosyntactic tagging, technologically under-supported languages, minority languages, text corpora, natural language processing (en)
marcação gramatical, línguas tecnologicamente pouco suportadas, línguas minoritárias, corpus textuales, processamento de linguagem natural (pt)
En este artículo se presenta UnderRL Tagger, un programa informático de acceso libre diseñado para el etiquetado morfosintáctico (POS tagging) en lenguas que no cuentan con etiquetadores automáticos. El programa busca facilitar el trabajo con corpus en estas lenguas infrasoportadas tecnológicamente y en las lenguas minoritarias, aportando así a los procesos de revitalización desde la investigación descriptiva y las herramientas computacionales. UnderRL Tagger permite que el proceso manual de etiquetado se convierta poco a poco en automático gracias a un sistema que permite recordar y reutilizar las etiquetas, manejar grandes cantidades de textos y generar archivos de salida en formato XML con etiquetas basadas en el sistema estandarizado EAGLES. Este artículo muestra el proceso de modelado y elaboración del sistema, sus diferentes funcionalidades y las perspectivas de trabajos posteriores.
This article presents UnderRL Tagger, a free software designed for POS tagging in languages that do not have automatic taggers. The program attempts to facilitate work with corpus in these under-resourced languages and in minority languages, thus contributing to revitalization processes from descriptive research and computational tools. UnderRL Tagger allows the manual tagging process to gradually become automatic thanks to a system that allows the user to remember and reuse tags, manage large amounts of text and generate output files in XML format with tags based on the standardized EAGLES system. This article shows the process of modeling and elaboration of the system, its different functionalities and the perspectives of later works.
Este artigo apresenta o UnderRL Tagger, um software disponível gratuitamente desenvolvido para marcação gramatical (POS tagging) em idiomas que não possuem anotadores automáticos. O programa busca facilitar o trabalho com corpus nessas línguas tecnologicamente pouco suportadas e em línguas minoritárias, contribuindo assim para processos de revitalização a partir de pesquisas descritivas e ferramentas computacionais. O UnderRL Tagger permite que o processo de marcação manual se torne gradualmente automático graças a um sistema que permite lembrar e reutilizar tags, gerenciar grandes quantidades de texto e gerar arquivos de saída em formato XML com tags baseadas no sistema EAGLES padronizado. Este artigo mostra o processo de modelagem e elaboração do sistema, suas diferentes funcionalidades e as perspectivas de trabalhos posteriores.
Referencias
Anthony, L. (2022). TagAnt (Version 2.0.5) [Software]. https://www.laurenceanthony.net/software
Besacier, L., Barnard, E., Karpov, A., & Schultz, T. (2014). Automatic speech recognition for under-resourced languages: A survey. Speech Communication, 56, 85-100. https://doi.org/10.1016/j.specom.2013.07.008
Bonilla, J. E., Rubio López, R. Y., Llanos Chávez, A. L., Bejarano, D. E., & Bernal Chávez, J. A. (2020). Proyecto de Digitalización y Nuevas Perspectivas Tecnológicas del Atlas Lingüístico-Etnográfico de Colombia. En Gallego, A., & Roca Urgell, F. (eds.), Dialectología digital del español, 13, pp. 13-28. Santiago de Compostela: Universidad de Santiago de Compostela.
Camacho, L., & Zevallos, R. (2020). Lingüística computacional para la revitalización y el poliglotismo. Letras, 91(134), 184-198. http://doi.org/10.30920/letras.91.134.9
Cunliffe, D., Vlachidis, A., Williams, D., & Tudhope, D. (2022). Natural language processing for under-resourced languages: Developing a Welsh natural language toolkit. Computer Speech & Language, 72, 101311. https://doi.org/10.1016/j.csl.2021.101311
Dueñas, G., & Gómez, D. (2015). Diccionario electrónico sáliba-español: una herramienta interactiva para la documentación de la lengua y de la cultura sálibas. Forma y Función, 28(2), 49-61. http://dx.doi.org/10.15446/fyf.v28n2.53539
Dueñas, G., & Gómez, D. (2016). Building Bilingual Dictionaries for Minority and Endangered Languages with Mediawiki. CCURL 2016 Collaboration and Computing for Under-Resourced Languages: Towards an Alliance for Digital Language Diversity (pp. 9-15).
Eberhard, D., Simons, G., & Fennig, C. (eds.) (2019). Ethnologue: Languages of the World (22 ed.). SIL International.
El-Haj, M., Kruschwitz, U., & Fox, C. (2015). Creating language resources for under-resourced languages: Methodologies, and experiments with Arabic. Language Resources and Evaluation, 49(3), 549-580. https://doi.org/10.1007/s10579-014-9274-3
García, M., Gómez-Rodríguez, C., & Alonso, M. (2016). Creación de un treebank de dependencias universales mediante recursos existentes para lenguas próximas: el caso del gallego. Procesamiento del Lenguaje Natural, 57, 33-40. https://www.redalyc.org/articulo.oa?id=515754424003
Leech, G., & Wilson, A. (1996). EAGLES recommendations for the morphosyntactic annotation of corpora. Istituto di Linguistica Computazionale. http://www.ilc.cnr.it/EAGLES96/annotate/node1.html
Maxwell, M., & Hughes, B. (2006). Frontiers in linguistic annotation for lower-density languages. Proceedings of the workshop on frontiers in linguistically annotated corpora 2006, 29-37. https://minerva-access.unimelb.edu.au/handle/11343/34524 DOI: https://doi.org/10.3115/1641991.1641996
McCrae, J., & Doyle, A. (2019). Adapting Term Recognition to an Under-Resourced Language: the Case of Irish. En Lynn, T., Prys, D., Batchelor, C., & Tyers, F. (eds.), Proceedings of the Celtic Language Technology Workshop (pp. 48-57). European Association for Machine Translation. https://aclanthology.org/W19-6907/
McCrae, J., Ojha, A., Chakravarthi, B., Kelly, I., Buffini, P., Tang, G., Paquin, E., & Locria, M. (2021). Enriching a terminology for under-resourced languages using knowledge graphs. En Kosem, I., Cukr, M., Jakubíček, M., Kallas, J., Krek, S., & Tiberius, C. (eds.), Electronic lexicography in the 21st century: post-editing lexicography. Proceedings of the eLex 2021 conference (pp. 560-571). Lexical Computing CZ. https://elex.link/elex2021/wp-content/uploads/eLex_2021-proceedings_compressed.pdf
Mikheev, A. (2014). Text Segmentation. En Mitkov, R. (ed.), The Oxford Handbook of Computational Linguistics 2nd edition. Oxford University Press. https://doi.org/10.1093/oxfordhb/9780199573691.013.34
Mohammed, S. (2020). Using machine learning to build POS tagger for under-resourced language: the case of Somali. International Journal of Information Technology, 12, 717-729. https://doi.org/10.1007/s41870-020-00480-2
Montenegro, A., & Guaquetá, M. (2020). Identificación de los posibles fonemas vocálicos de la lengua tanimuka aplicando Machine Learning. En Molina, A., Valdivia, P., & Venegas, R. (eds.), III Congreso Internacional de Lingüística Computacional y de Corpus: Una mirada desde las tecnologías del lenguaje y las Humanidades Digitales (CILCC 2020) y V Workshop en Procesamiento Automatizado de Textos y Corpus (WOPATEC_2020) (p. 52). Universidad de Antioquia/University of Groningen. https://dialnet.unirioja.es/servlet/libro?codigo=786453
Núñez, E. (2013). Minorías lingüísticas y derecho a las lenguas. Revista Internacional d'Humanitats, 27, 7-28. http://www.hottopos.com/rih27/
Ostler, N. (2014). Endangered languages in the New Multilingual Order per genus et differentiam. En Jones, M. C. (ed.), Endangered Languages and New Technologies (pp. 1-13). Cambridge University Press. https://doi.org/10.1017/CBO9781107279063.002
Padró, L., Collado, M., Reese, S., Lloberes M., & Castellón, I. (2010). FreeLing 2.1: Five Years of Open-Source Language Processing Tools. En Calzolari, N., Choukri, K., Maegaard, B., Mariani, J., Odij, J., Piperidis, S., Rosner, M., & Tapias, D. (eds.), Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC 2010) (pp. 931-936). ELRA.
Passonneau, R., & Mani, I. (2014). Evaluation. En Mitkov, R. (ed.), The Oxford Handbook of Computational Linguistics 2nd edition. Oxford University Press. https://doi.org/10.1093/oxfordhb/9780199573691.013.014
Pemberty Tamayo, J. L. (2020). Concepción y elaboración de un sistema de etiquetado semiautomático para under-resourced languages [tesis de pregrado, Universidad de Antioquia]. http://bibliotecadigital.udea.edu.co/handle/10495/16570
Pemberty Tamayo, J. L., Molina Mejía, J. M., & Marín Morales, M. I. (2020). UnderRL Tagger (Versión 1.0) [Software]. Universidad de Antioquia. https://github.com/jluispemberty/UnderRlTagger
Pereira, J. H. (2018). Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo [tesis de pregrado, Pontificia Universidad Católica del Perú]. https://tesis.pucp.edu.pe/repositorio/handle/20.500.12404/13495
Ramírez-Cruz, H., & Chaparro Rojas, J. F. (2021). Introducción: la diversidad lingüística y la investigación de lenguas en peligro. Forma y Función, 34(2). http://doi.org/10.15446/fyf.v34n2.96558
Rojas Curieux, T. (comp.) (2017). Corpus lingüísticos: estudio y aplicación en revitalización de lenguas indígenas. Universidad del Cauca.
Sanmiguel Ardila, R., Schoch Angel, M., & Loaiza-Camacho, B. S. (2021). Retos y oportunidades contemporáneos del kriol en el archipiélago de San Andrés, Providencia y Santa Catalina, Colombia. Forma y Función, 34(2). https://doi.org/10.15446/fyf.v34n2.88613
Schmid, H. (1994). TreeTagger - a part-of-speech tagger for many languages [Software]. https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
Schuster, S., & Manning, C. D. (2016). Enhanced English Universal Dependencies: An Improved Representation for Natural Language Understanding Tasks. En Calzolari, N., Choukri, J., Declerck, T., & Moreno, A. (eds.), 10th conference on International Language Resources and Evaluation (LREC'16). LREC. https://aclanthology.org/L16-1376/
Sene-Mongaba, B. (2015). The Making of Lingala Corpus: An Under-resourced Language and the Internet. Procedia - Social and Behavioral Sciences, 198, 442-450. https://doi.org/10.1016/j.sbspro.2015.07.464
Somers, H. (2003). Translation technologies and minority languages. En. Somers, H. (ed.), Computers and Translation (pp. 87-103). John Benjamins. https://doi.org/10.1075/btl.35.09som
Summer Institute of Linguistics (SIL). (2019). Field Linguist's ToolBox (Version 1.6.4). [Software] https://software.sil.org/toolbox/
Summer Institute of Linguistics (SIL). (2021). FieldWorks Language Explorer (Version 9.0). [Software] https://software.sil.org/fieldworks/
UNESCO. (2014). Una cátedra al servicio de comunidades indígenas. Cátedra Unesco en Tecnologías Lingüísticas. https://www.teclin.org/Una-catedra-al-servicio-de-comunidades-indigenas_a6.html
Weisser, M. (2018). Automatically Enhancing Tagging Accuracy and Readability for Common Freeware Taggers. En Tono, Y., & Isahara, H. (eds.), Proceedings of APCLC 2018 (pp. 502-505). Asia Pacific Corpus Linguistics Association.
Woodbury, A. C. (2014). Archives and audiences: Toward making endangered language documentations people can read, use, understand, and admire. Language documentation and description, 12, 19-36.
Cómo citar
APA
ACM
ACS
ABNT
Chicago
Harvard
IEEE
MLA
Turabian
Vancouver
Descargar cita
Licencia

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Forma y Función está suscrita al convenio Open Journal System, lo que significa que tiene el carácter de acceso abierto. Se provee acceso libre e inmediato a su contenido, bajo el principio de que hacer disponible gratuitamente los resultados de investigación contribuye a la divulgación global del conocimiento, así como al intercambio académico que propicia vínculos entre las comunidades científicas. Los usuarios pueden buscar, leer, copiar, descargar y compartir la totalidad de los textos publicados. Se autoriza su uso, siempre y cuando se conceda el crédito a los autores de los textos y a Forma y Función como fuente original de la publicación. No se permite el uso comercial de copia o distribución de contenidos, así como tampoco la adaptación, derivación o transformación alguna de estos sin la autorización previa de los autores y del editor de Forma y Función.
Los contenidos de la revista son publicados en acceso abierto bajo la Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional. Para mayor información sobre los términos de la licencia, se puede consultar: http://creativecommons.org/licenses/by-nc-sa/4.0/legalcode.
En consonancia con la política de acceso abierto, Forma y Función no aplica cargos por el procesamiento de los textos enviados, ni por su publicación.














