Reconocimiento de rutas biosintéticas para semioquímicos mediante técnicas de aprendizaje de máquina
Recognition of biosynthetic pathways for semiochemicals using machine learning techniques
Reconhecimento de vias biossintéticas para semioquímicos usando técnicas de aprendizado de máquina
DOI:
https://doi.org/10.15446/rev.colomb.quim.v51n2.101546Palabras clave:
Bosques aleatorios, C-means, Descriptores Moleculares, Familia Scarabaeidae, Perceptrón Multicapa, Redes Neuronales (es)Random Forests, C-means, Molecular Descriptors, Family Scarabaeidae, Multilayer Perceptron, Neural Networks (en)
Florestas Aleatórias, C-means, Descritores Moleculares, Família Scarabaeidae, Perceptron multicamadas, Redes neurais (pt)
En este trabajo consideramos 148 semioquímicos reportados para la familia Scarabaeidae, cuya estructura química fue caracterizada empleando un conjunto de 200 descriptores moleculares de cinco clases distintas. La selección de los descriptores más discriminantes se realizó con tres técnicas: análisis de componentes principales, por cada clase de descriptores, bosques aleatorios y Boruta-Shap, aplicados al total de descriptores. A pesar de que las tres técnicas son conceptualmente diferentes, seleccionan un número de descriptores similar de cada clase. Propusimos una combinación de técnicas de aprendizaje de máquina para buscar un patrón estructural en el conjunto de semioquímicos y posteriormente realizar la clasificación de estos. El patrón se estableció a partir de la alta pertenencia de un subconjunto de estos metabolitos a los grupos que fueron obtenidos por un método de agrupamiento basado en lógica difusa, C-means; el patrón descubierto corresponde a las rutas biosintéticas por las cuales se obtienen biológicamente. Esta primera clasificación se corroboró con el empleo de mapas autoorganizados de Kohonen. Para clasificar aquellos semioquímicos cuya pertenencia a una ruta no quedaba claramente definida, construimos dos modelos de perceptrones multicapa, los cuales tuvieron un desempeño aceptable.
In this work we consider 148 semiochemicals reported for the family Scarabaeidae, whose chemical structure was characterized using a set of 200 molecular descriptors from five different classes. The selection of the most discriminating descriptors was carried out with three different techniques: Principal Component Analysis, for each class of descriptors, Random Forests and Boruta-Shap, applied to the total of descriptors. Although the three techniques are conceptually different, they select a similar number of descriptors from each class. We proposed a combination of machine learning techniques to search for a structural pattern in the set of semiochemicals and then perform their classification. The pattern was established from the high belonging of a subset of these metabolites to the groups that were obtained by a grouping method based on fuzzy C-means logic; the discovered pattern corresponds to the biosynthetic pathway by which they are obtained biologically. This first classification was corroborated with Kohonen's self-organizing maps. To classify those semiochemicals whose belonging to a biosynthetic pathway was not clearly defined, we built two models of Multilayer Perceptrons which had an acceptable performance.
Neste trabalho consideramos 148 semioquímicos reportados para a família Scarabaeidae, cuja estrutura química foi caracterizada usando um conjunto de 200 descritores moleculares de 5 classes diferentes. A seleção dos descritores mais discriminantes foi realizada com três técnicas diferentes: Análise de Componentes Principais, para cada classe de descritores, Florestas Aleatórias e Boruta-Shap, aplicadas a todos os descritores. Embora as três técnicas sejam conceitualmente diferentes, elas selecionaram um número semelhante de descritores de cada classe. Nós propusemos uma combinação de técnicas de aprendizado de máquina para buscar um padrão estrutural no conjunto de semioquímicos e então realizar sua classificação. O padrão foi estabelecido a partir da alta pertinência de um subconjunto desses metabólitos aos grupos que foram obtidos por um método de agrupamento baseado em lógica fuzzy, C-means; o padrão descoberto corresponde às rotas biossintéticas pelas quais eles são obtidos biologicamente. Essa primeira classificação foi corroborada com o uso dos mapas auto-organizados de Kohonen. Para classificar os semioquímicos cuja pertença a uma rota não foi claramente definida, construímos dois modelos de Perceptrons Multicamadas que tiveram um desempenho aceitável.
Descargas
Citas
N. Bakthavatsalam, "Semiochemicals", en Ecofriendly Pest Management for Food Security. Elsevier, 2016, pp. 563–611. DOI: 10.1016/B978-0-12-803265-7.00019-1.
A. Sharma, R. K. Sandhi y G. V. P. Reddy, "A Review of Interactions between Insect Biological Control Agents and Semiochemicals", Insects, vol. 10, n.º 12, p. 439, 2019. DOI: 10.3390/insects10120439.
L. David, A. Thakkar, R. Mercado y O. Engkvist, "Molecular representations in AI-driven drug discovery: a review and practical guide", Journal of Cheminformatics, vol. 12, n.º 1, 2020. DOI: 10.1186/s13321-020-00460-5.
R. Todeschini, R. Mannhold, H. Kubinyi, V. Consonni y H. Timmerman, Handbook of Molecular Descriptors. Wiley & Sons, Limited, John, 2008.
A. Fernández-Torras, A. Comajuncosa-Creus, M. Duran-Frigola y P. Aloy, "Connecting chemistry and biology through molecular descriptors", Current Opinion in Chemical Biology, vol. 66, n.º 102090, 2022. DOI: 10.1016/j.cbpa.2021.09.001.
L. Xue y J. Bajorath, "Molecular Descriptors in Chemoinformatics, Computational Combinatorial Chemistry, and Virtual Screening", Combinatorial Chemistry & High Throughput Screening, vol. 3, n.º 5, pp. 363–372, 2000. DOI: 10.2174/1386207003331454.
M. Shahlaei, "Descriptor Selection Methods in Quantitative Structure–Activity Relationship Studies: A Review Study", Chemical Reviews, vol. 113, n.º 10, pp. 8093–8103, 2013. DOI: 10.1021/cr3004339.
R.-C. Chen, C. Dewi, S.-W. Huang y R. E. Caraka, "Selecting critical features for data classification based on machine learning methods", Journal of Big Data, vol. 7, n.º 1, 2020. DOI: 10.1186/s40537-020-00327-4.
T. Cova y A. Pais, «Deep Learning for Deep Chemistry: Optimizing the Prediction of Chemical Patterns», Frontiers in Chemistry, vol. 7, pp. 1-22, 2019. DOI: 10.3389/fchem.2019.00809.
Mushliha, A. Bustamam, A. Yanuar, W. Mangunwardoyo, P. Anki y R. Amalia, "Comparison Accuracy of Multi-Layer Perceptron and DNN in QSAR Classification for Acetylcholinesterase Inhibitors", en 2021 International Conference on Artificial Intelligence and Mechatronics Systems (AIMS), Bandung, Indonesia, 28–30 de abril de 2021. IEEE, 2021. DOI: 10.1109/aims52415.2021.9466040.
M. Hamadache, O. Benkortbi, S. Hanini y A. Amrane, "Application of multilayer perceptron for prediction of the rat acute toxicity of insecticides", Energy Procedia, vol. 139, pp. 37–42, 2017. DOI: 10.1016/j.egypro.2017.11.169.
M. AB, MySQL Language Reference. Upper Saddle River: Pearson Education, 2005.
G. Landrum, "Rdkit documentation", Release, vol. 1, n.º 1-79, p. 4, 2013.
G. Zheng, L. Sonnenberg, M. Hada, M. Ehara, K. Toyota, R. Fukuda, J. Hase-gawa, M. Ishida, T. Nakajima, Y. Honda y col., Gaussian 09, 2009.
H. Abdi y L. J. Williams, "Principal component analysis", Wiley Interdisciplinary Reviews: Computational Statistics, vol. 2, n.º 4, pp. 433–459, 2010. DOI: 10.1002/wics.101.
G. Biau y E. Scornet, "A random forest guided tour", TEST, vol. 25, n.º 2, pp. 197–227, 2016. DOI: 10.1007/s11749-016-0481-7.
E. Keany, BorutaShap 1.0.16 2021, 2021.
R. C. Team y col., “R: A language and environment for statistical computing”, 2013.
G. v. Rossum y P. D. Team, The Python Language Reference: Release 3.6.4. 12th Media Services, 2018.
J. C. Bezdek, R. Ehrlich y W. Full, "FCM: The fuzzy c-means clustering algorithm", Computers & Geosciences, vol. 10, n.º 2-3, pp. 191–203, 1984. DOI: 10.1016/0098-3004(84)90020-7.
T. Kohonen, "The self-organizing map", Proceedings of the IEEE, vol. 78, n.º 9, pp. 1464–1480, 1990. DOI: 10.1109/5.58325.
F. Murtagh y P. Contreras, "Algorithms for hierarchical clustering: an overview", WIREs Data Mining and Knowledge Discovery, vol. 2, n.º 1, pp. 86–97, 2011. DOI: 10.1002/widm.53.
G. Vettigli, “MiniSom: minimalistic and NumPy-based implementation of the Self Organizing Map”, 2013.
H. Ramchoun, M. Amine, J. Idrissi, Y. Ghanou y M. Ettaouil, "Multilayer Perceptron: Architecture Optimization and Training", International Journal of Interactive Multimedia and Artificial Intelligence, vol. 4, n.º 1, p. 26, 2016. DOI: 10.9781/ijimai.2016.415.
F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel,M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos,D. Cournapeau, M. Brucher, M. Perrot y E. Duchesnay, “Scikit-learn: Machine Learning in Python”, Journal of Machine Learning Research, vol. 12, pp. 2825-2830, 2011.
A. M. El-Sayed, “The pherobase: database of insect pheromones and semiochemicals”, HortResearch, 2019.
E. D. Morgan, Biosynthesis in Insects: Advanced Edition. Royal Society of Chemistry, 2010.
M. Ashour, M. Wink y J. Gershenzon, "Biochemistry of Terpenoids: Monoterpenes, Sesquiterpenes and Diterpenes", en Biochemistry of Plant Secondary Metabolism. Oxford, UK: Wiley-Blackwell, pp. 258–303. DOI: 10.1002/9781444320503.ch5.
M. L. McHugh, "Interrater reliability: the kappa statistic", Biochemia Medica, pp. 276–282, 2012. DOI: 10.11613/bm.2012.031.
Licencia
Derechos de autor 2023 Edgar Eduardo Daza C

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Los autores/as conservarán sus derechos de autor y garantizarán a la revista el derecho de primera publicación de su obra, el cuál estará simultáneamente sujeto a la Licencia de reconocimiento de Creative Commons (CC. Atribución 4.0) que permite a terceros compartir la obra siempre que se indique su autor y su primera publicación en esta revista.
Los autores/as podrán adoptar otros acuerdos de licencia no exclusiva de distribución de la versión de la obra publicada (p. ej.: depositarla en un archivo telemático institucional o publicarla en un volumen monográfico) siempre que se indique la publicación inicial en esta revista.
Se permite y recomienda a los autores/as difundir su obra a través de Internet (p. ej.: en archivos telemáticos institucionales o en su página web) antes y durante el proceso de envío, lo cual puede producir intercambios interesantes y aumentar las citas de la obra publicada. (Véase El efecto del acceso abierto).
