The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis

Darlyn Juranny García Marín; Jerson Alexander García Zea

doi:10.15446/rcciquifa.v53n2.114447

Publicado

2024-06-06

The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis

El modelo de aprendizaje automático bosque aleatorio presenta un mejor desempeño para predecir el reposicionamiento de medicamentos usando redes: Revisión sistemática y Meta-análisis

O modelo de aprendizado de máquina Floresta Aleatória apresenta melhor desempenho para prever o reposicionamento de medicamentos utilizando redes: Revisão Sistemática e Meta-análise

DOI:

https://doi.org/10.15446/rcciquifa.v53n2.114447

Palabras clave:

Drug Repositioning, Drug development, Biological Networks, Machine Learning, Random Forest (en)
Reposicionamiento de medicamentos, Desarrollo de medicamentos, Redes biológicas, Aprendizaje automático, Bosque aleatorio (es)
Reposicionamento de medicamentos, Desenvolvimento de medicamentos, Redes biológicas, Aprendizado de máquina, Floresta Aleatória (pt)

Descargas

PDF ENG (English)

Autores/as

Darlyn Juranny García Marín Universidad EAFIT, Carrera 49, N° 7 Sur -50, Medellín, Antioquia, Colombia
Jerson Alexander García Zea Universidad EAFIT, Carrera 49, N° 7 Sur -50, Medellín, Antioquia, Colombia

Introduction: The lengthy and costly process of drug development can be expedited through drug repositioning (DR), a strategy that identifies new therapeutic targets using existing products. Supervised machine learning (SML) models, incorporating interaction networks, offer a promising approach for DR. This study aims to systematically review and meta-analyze SML models predicting DR, identifying key characteristics influencing their performance. Methodology: A systematic review was conducted to identify SML models that used networks to predict DR, which were evaluated by comparing their performance through a random-effects meta-analysis. Results: 19 studies were included in the qualitative synthesis and 17 in the quantitative evaluation, The Random Forest (RF) model emerged as the predominant classifier (63%), yielding the highest performance in AUC ROC comparisons (overall value: 0.91, 95% CI: 0.86 – 0.96). Validation efforts in 18 studies confirmed the predictions of the SML models, affirming the proposed drugs. The incorporation of chemical structure in model training was found to enhance performance by aiding in prediction discrimination. Conclusion: SML models can predict DR, the RF model was the most widely used SML model with the best performance results, which underscores the potential use of FR models for predicting DR using network form biomedical information.

Introducción: El proceso de investigación y desarrollo de fármacos se puede acelerar mediante el reposicionamiento de medicamentos (DR), una estrategia que identifica nuevos objetivos terapéuticos utilizando productos existentes. Los modelos de aprendizaje automático supervisado (SML), que incorporan redes de interacción, ofrecen un enfoque prometedor para DR. Este estudio tiene como objetivo revisar y meta-analizar sistemáticamente los modelos SML que predicen DR, identificando características clave que influyen en su desempeño. Metodología: Se realizó una revisión sistemática para identificar modelos SML que utilizaran redes para predecir DR, los cuales se evaluaron comparando su desempeño mediante un meta-análisis de efectos aleatorios. Resultados: Se incluyeron 19 estudios en la síntesis cualitativa y 17 en la evaluación cuantitativa. El modelo Bosque aleatorio surgió como el clasificador predominante (63%), obteniendo el mayor rendimiento en las comparaciones AUC ROC (valor general: 0,91, 95% IC: 0,86 – 0,96). Los esfuerzos de validación en 18 estudios confirmaron las predicciones de los modelos SML, afirmando los medicamentos propuestos. Se descubrió que la incorporación de estructura química en el entrenamiento de modelos mejora el rendimiento al ayudar en la discriminación de predicciones. Conclusión: Los modelos SML pueden predecir la DR, el modelo RF fue el modelo SML más utilizado con los mejores resultados de rendimiento, lo que resalta el uso potencial de modelos FR para predecir el DR utilizando redes de información biomédica.

Introdução: O processo longo e custoso de desenvolvimento de medicamentos pode ser acelerado por meio do reposicionamento de medicamentos (DR), uma estratégia que identifica novos alvos terapêuticos usando produtos existentes. Modelos de aprendizado de máquina supervisionado (SML), incorporando redes de interação, oferecem uma abordagem promissora para o DR. Este estudo tem como objetivo revisar sistematicamente e realizar meta-análises de modelos SML que preveem DR, identificando características-chave que influenciam seu desempenho. Metodologia: Foi realizada uma revisão sistemática para identificar modelos SML que usaram redes para prever DR, os quais foram avaliados comparando seu desempenho por meio de uma meta-análise de efeitos aleatórios. Resultados: 19 estudos foram incluídos na síntese qualitativa e 17 na avaliação quantitativa, o modelo Floresta Aleatória (RF) emergiu como o classificador predominante (63%), apresentando o melhor desempenho em comparações de AUC ROC (valor geral: 0,91, IC 95%: 0,86 - 0,96). Os esforços de validação em 18 estudos confirmaram as previsões dos modelos SML, afirmando os medicamentos propostos. A incorporação da estrutura química no treinamento do modelo mostrou-se capaz de melhorar o desempenho ao auxiliar na discriminação das previsões. Conclusão: Os modelos SML podem prever DR, o modelo RF foi o modelo SML mais amplamente utilizado com os melhores resultados de desempenho, o que destaca o potencial uso dos modelos FR para prever DR usando informações biomédicas de rede.

Referencias

M. Schlander, K. Hernandez-Villafuerte, C.Y. Cheng, J. Mestre-Ferrandiz, M. Baumann, How much does it cost to research and develop a new drug? A systematic review and assessment, Pharmacoeconomics, 39, 1243–1269 (2021). Doi: https://doi.org/10.1007/s40273-021-01065-y

PhRMA, Research and Development Policy Framework. URL: https://phrma.org/policy-issues/Research-and-Development-Policy-Framework, accessed May 2023.

D. Sun, W. Gao, H. Hu, S. Zhou, Why 90% of clinical drug development fails and how to improve it? Acta Pharmaceutica Sinica B, 12(7), 3049–3062 (2022). Doi: https://doi.org/10.1016/j.apsb.2022.02.002

H. Luo, M. Li, M. Yang, F.X. Wu, Y. Li, J. Wang, Biomedical data and computational models for drug repositioning: A comprehensive review, Briefings in Bioinformatics, 22(2), 1604–1619 (2021). Doi: https://doi.org/10.1093/bib/bbz176

M. Rudrapal, S.J. Khairnar, A.G. Jadhav, Drug repurposing (DR): An emerging approach in drug discovery, in: Badria, F.A., Drug Repurposing - Hypothesis, Molecular Aspects and Therapeutic Applications, IntechOpen Limited, London, 2020. Doi: https://doi.org/10.5772/intechopen.93193

B. Turanli, M. Grøtli, J. Boren, J. Nielsen, M. Uhlen, K.Y. Arga, A. Mardinoglu, Drug repositioning for effective prostate cancer treatment, Frontiers in Physiology, 9, 500 (2018). Doi: https://doi.org/10.3389/fphys.2018.00500

J. Li, S. Zheng, B. Chen, A.J. Butte, S.J. Swamidass, Z. Lu, A survey of current trends in computational drug repositioning, Briefings in Bioinformatics, 17(1), 2–12 (2016). Doi: https://doi.org/10.1093/bib/bbv020

J.L. Medina-Franco, M.A. Giulianotti, G.S. Welmaker, R.A. Houghten, Shifting from the single- to the multitarget paradigm in drug discovery, Drug Discovery Today, 18(9-10), 495–501 (2013). Doi: https://doi.org/10.1016/j.drudis.2013.01.008

X. Wei, Y. Zhang, Y. Huang, Y. Fang, Predicting drug–disease associations by network embedding and biomedical data integration, Data Technologies and Applications, 53(2), 217–229 (2019). Doi: https://doi.org/10.1108/dta-01-2019-0004

Y. Wang, S. Chen, N. Deng, Y. Wang, Drug repositioning by kernel-based integration of molecular structure, molecular activity, and phenotype data, PLoS One, 8(12), e78518 (2013). Doi: https://doi.org/10.1371/journal.pone.0078518

C. Gilvary, J. Elkhader, N. Madhukar, C. Henchcliffe, M.D. Goncalves, O. Elemento, A machine learning and network framework to discover new indications for small molecules, PLoS Computational Biology, 16(8), e1008098 (2020). Doi: https://doi.org/10.1371/journal.pcbi.1008098

J. Liu, Z. Zuo, G. Wu, Link prediction only with interaction data and its application on drug repositioning, IEEE Transactions in NanoBioscience, 19(3), 547–555 (2020). Doi: https://doi.org/10.1109/TNB.2020.2990291

H. Ding, I. Takigawa, H. Mamitsuka, S. Zhu, Similarity-based machine learning methods for predicting drug–target interactions: A brief review, Briefings in Bioinformatics, 15(5), 734–747 (2014). Doi: https://doi.org/10.1093/bib/bbt056

M.L. Shahreza, N. Ghadiri, S.R. Mousavi, J. Varshosaz, J.R. Green, A review of network-based approaches to drug repositioning, Briefings in Bioinformatics, 19(5), 878–892 (2018). Doi: https://doi.org/10.1093/bib/bbx017

A.B. Haidich, Meta-analysis in medical research, Hippokratia, 14(Suppl. 1), 29–37 (2010). URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3049418/, accessed May 2023.

M.J. Page, J.E. McKenzie, P.M. Bossuyt, I. Boutron, T.C. Hoffmann, C.D. Mulrow, L. Shamseer, J.M. Tetzlaff, E.A. Akl, S.E. Brennan, R. Chou, J. Glanville, J.M. Grimshaw, A. Hróbjartsson, et al., The PRISMA 2020 statement: an updated guideline for reporting systematic reviews, The BMJ, 372, 71 (2021). Doi: https://doi.org/10.1136/bmj.n71

M. Ouzzani, H. Hammady, Z. Fedorowicz, A. Elmagarmid, Rayyan -A web and mobile app for systematic reviews, Systematic Reviews, 5, 210 (2016). Doi: https://doi.org/10.1186/S13643-016-0384-4

Supervised learning — SciKit-Learn 1.4.0 documentation. URL: https://scikitlearn.org/stable/supervised_learning.html, accessed January, 2024.

M.I. Azeem, F. Palomba, L. Shi, Q. Wang, Machine learning techniques for code smell detection: A systematic literature review and meta-analysis, Information and Software Technology, 108, 115–138 (2019). Doi: https://doi.org/10.1016/j.infsof.2018.12.009

R. DerSimonian, N. Laird, Meta-analysis in clinical trials, Controlled Clinical Trials, 7(3), 177–188 (1986). Doi: https://doi.org/10.1016/0197-2456(86)90046-2

R Core Team, R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, 2023. URL: https://lib.stat.cmu.edu/R/CRAN/doc/manuals/r-devel/fullrefman.pdf, accessed January, 2024.

A. Qabaja, M. Alshalalfa, E. Alanazi, R. Alhajj, Prediction of novel drug indications using network driven biological data prioritization and integration, Journal of Cheminformatics, 6, 1 (2014). Doi: https://doi.org/10.1186/1758-2946-6-1

T. Lee, Y. Yoon, Drug repositioning using drug-disease vectors based on an integrated network, BMC Bioinformatics, 19, 446 (2018). Doi: https://doi.org/10.1186/S12859-018-2490-X

D.-S. Cao, L.-X. Zhang, G.-S. Tan, Z. Xiang, W.-B. Zeng, Q.-S. Xu, A.F. Chen, Computational prediction of drug target interactions using chemical, biological, and network features, Molecular Informatics, 33(10), 669–681 (2014). Doi: https://doi.org/10.1002/minf.201400009

H. Moghadam, M. Rahgozar, S. Gharaghani, Scoring multiple features to predict drug disease associations using information fusion and aggregation, SAR and QSAR in Environment Research, 27(8), 609–628 (2016). Doi: https://doi.org/10.1080/1062936X.2016.1209241

Z.-H. Chen, Z.-H. You, Z.-H. Guo, H.-C. Yi, G.-X. Luo, Y.-B. Wang, Prediction of drug–target interactions from multi-molecular network based on deep walk embedding model, Frontiers in Bioengineering and Biotechnology, 8, 338 (2020). Doi: https://doi.org/10.3389/fbioe.2020.00338

G. Fahimian, J. Zahiri, S.S. Arab, R.H. Sajedi, RepCOOL: Computational drug repositioning via integrating heterogeneous biological networks, Journal of Translational Medicine, 18, 375 (2020). Doi: https://doi.org/10.1186/S12967-020-02541-3

R. Zhou, Z. Lu, H. Luo, J. Xiang, M. Zeng, M. Li, NEDD: A network embedding based method for predicting drug-disease associations, BMC Bioinformatics, 21, 387 (2020). Doi: https://doi.org/10.1186/S12859-020-03682-4

C. Gilvary, J. Elkhader, N. Madhukar, C. Henchcliffe, M.D. Goncalves, O. Elemento, A machine learning and network framework to discover new indications for small molecules, PLoS Computational Biology, 16(8), e1008098 (2020). Doi: https://doi.org/10.1371/journal.pcbi.1008098

Y. Yue, S. He, DTI-HeNE: A novel method for drug-target interaction prediction based on heterogeneous network embedding, BMC Bioinformatics, 22, 418 (2021). Doi: https://doi.org/10.1186/S12859-021-04327-W

J. Yang, D. Zhang, L. Liu, G. Li, Y. Cai, Y. Zhang, H. Jin, X. Chen, Computational drug repositioning based on the relationships between substructure–indication, Briefings in Bioinformatics, 22(4), bbaa348 (2021). Doi: https://doi.org/10.1093/bib/bbaa348

S. Kitsiranuwat, A. Suratanee, K. Plaimas, Multi-data aspects of protein similarity with a learning technique to identify drug-disease associations, Applied Sciences (Basel), 11(7), 2914 (2021). Doi: https://doi.org/10.3390/app11072914

E. Amiri-Souri, R. Laddach, S.N. Karagiannis, L.G. Papageorgiou, S. Tsoka, Novel drug-target interactions via link prediction and network embedding, BMC Bioinformatics, 23, 121 (2022). Doi: https://doi.org/10.1186/S12859-022-04650-W

B.-W. Zhao, L. Hu, Z.-H. You, L. Wang, X.-R. Su, HINGRL: predicting drug–disease associations with graph representation learning on heterogeneous information networks, Briefings in Bioinformatics, 23(1), bbab515 (2022). Doi: https://doi.org/10.1093/bib/bbab515

M.-L. Zhang, B.-W. Zhao, X.-R. Su, Y.-Z. He, Y. Yang, L. Hu, RLFDDA: a metapath based graph representation learning model for drug–disease association prediction, BMC Bioinformatics, 23, 516 (2022). Doi: https://doi.org/10.1186/S12859-022-05069-Z

S. Kitsiranuwat, A. Suratanee, K. Plaimas, Integration of various protein similarities using random forest technique to infer augmented drug-protein matrix for enhancing drug-disease association prediction, Science Progress, 105(3), 1–30 (2022). Doi: https://doi.org/10.1177/00368504221109215

H. Jiang, Y. Huang, An effective drug-disease associations prediction model based on graphic representation learning over multi-biomolecular network, BMC Bioinformatics, 23, 9 (2022). Doi: https://doi.org/10.1186/S12859-021-04553-2

A.P. Bradley, The use of the area under the ROC curve in the evaluation of machine learning algorithms, Pattern Recognition, 30(7), 1145–1159 (1997). Doi: https://doi.org/10.1016/S0031-3203(96)00142-2

J.J. Deeks, J.P.T. Higgins, D.G. Altman, Chapter 10: Analysing data and undertaking meta-analyses, Cochrane Training: Online Learning. URL: https://training.cochrane.org/handbook/current/chapter-10#section-10-10 , accessed: January 2024.

M. Zakariah, Classification of large datasets using Random Forest Algorithm in various applications: Survey, International Journal of Engineering and Innovative Technology (IJEIT), 4(3), 2277–3754 (2008). URL: https://faculty.ksu.edu.sa/sites/default/files/classification_of_large_datasets_using_random.pdf

Cómo citar

APA

García Marín, D. J. y García Zea, J. A. (2024). The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis. Revista Colombiana de Ciencias Químico-Farmacéuticas, 53(2), 354–384. https://doi.org/10.15446/rcciquifa.v53n2.114447

ACM

[1]

García Marín, D.J. y García Zea, J.A. 2024. The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis. Revista Colombiana de Ciencias Químico-Farmacéuticas. 53, 2 (jun. 2024), 354–384. DOI:https://doi.org/10.15446/rcciquifa.v53n2.114447.

ACS

(1)

García Marín, D. J.; García Zea, J. A. The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis. Rev. Colomb. Cienc. Quím. Farm. 2024, 53, 354-384.

ABNT

GARCÍA MARÍN, D. J.; GARCÍA ZEA, J. A. The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis. Revista Colombiana de Ciencias Químico-Farmacéuticas, [S. l.], v. 53, n. 2, p. 354–384, 2024. DOI: 10.15446/rcciquifa.v53n2.114447. Disponível em: https://revistas.unal.edu.co/index.php/rccquifa/article/view/114447. Acesso em: 16 ene. 2025.

Chicago

García Marín, Darlyn Juranny, y Jerson Alexander García Zea. 2024. «The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis». Revista Colombiana De Ciencias Químico-Farmacéuticas 53 (2):354-84. https://doi.org/10.15446/rcciquifa.v53n2.114447.

Harvard

García Marín, D. J. y García Zea, J. A. (2024) «The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis», Revista Colombiana de Ciencias Químico-Farmacéuticas, 53(2), pp. 354–384. doi: 10.15446/rcciquifa.v53n2.114447.

IEEE

[1]

D. J. García Marín y J. A. García Zea, «The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis», Rev. Colomb. Cienc. Quím. Farm., vol. 53, n.º 2, pp. 354–384, jun. 2024.

MLA

García Marín, D. J., y J. A. García Zea. «The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis». Revista Colombiana de Ciencias Químico-Farmacéuticas, vol. 53, n.º 2, junio de 2024, pp. 354-8, doi:10.15446/rcciquifa.v53n2.114447.

Turabian

García Marín, Darlyn Juranny, y Jerson Alexander García Zea. «The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis». Revista Colombiana de Ciencias Químico-Farmacéuticas 53, no. 2 (junio 6, 2024): 354–384. Accedido enero 16, 2025. https://revistas.unal.edu.co/index.php/rccquifa/article/view/114447.

Vancouver

1.

García Marín DJ, García Zea JA. The random forest machine learning model performs better in predicting drug repositioning using networks: Systematic review and meta-analysis. Rev. Colomb. Cienc. Quím. Farm. [Internet]. 6 de junio de 2024 [citado 16 de enero de 2025];53(2):354-8. Disponible en: https://revistas.unal.edu.co/index.php/rccquifa/article/view/114447

Descargar cita

CrossRef Cited-by

0

Dimensions

PlumX

Visitas a la página del resumen del artículo

84

Descargas

Los datos de descargas todavía no están disponibles.

Licencia

Derechos de autor 2024 Revista Colombiana de Ciencias Químico-Farmacéuticas

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.

El Departamento de Farmacia de la Facultad de Ciencias de la Universidad Nacional de Colombia autoriza la fotocopia de artículos y textos para fines de uso académico o interno de las instituciones citando la fuente. Las ideas emitidas por los autores son responsabilidad expresa de estos y no de la revista.

Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons de Atribución 4.0 aprobada en Colombia. Consulte la normativa en: http://co.creativecommons.org/?page_id=13

	IBN Publindex El Índice Bibliográfico Nacional Publindex es un sistema colombiano para la clasificación, actualización, escalafonamiento y certificación de las publicaciones científicas y tecnológicas. Es regido por COLCIENCIAS y el ICFES en Colombia.
	SciELO Colombia SciELO Colombia es una librería virtual para América Latina, el Caribe, España y Portugal, fue creada por FAPESP en el año de 1997 en Sao Pablo Brasil, actualmente en Colombia es gestionada por la Universidad Nacional de Colombia.
	Latindex Latindex es producto de la cooperación de una red de instituciones latinoamericanas que funcionan de manera coordinada para reunir y diseminar información bibliográfica sobre las publicaciones científicas seriadas producidas en la región.
	LILACS LILACS es el más importante y abarcador índice de la literatura científica y técnica en Salud de América Latina y de Caribe. Desde 1982, LILACS contribuye al aumento de la visibilidad, del acceso y de la calidad de la información en la Región.