Publicado

2002-01-01

Aprendizaje de selección de acciones en un mundo simple pero impredecible

DOI:

https://doi.org/10.15446/ing.investig.n49.21404

Palabras clave:

Aprendizaje por refuerzo, Aprendizaje Q, Agentes autónomos, Animats (es)
Reinforcement learning, Q learning, Autonomous agents, Animats (en)

Descargas

Autores/as

  • Sergio A. Rojas Universidad Distrital Francisco José de Caldas
  • José J. Martínez Universidad Nacional de Colombia

Uno de los principales problemas estudiados en la simulación de agentes artificiales autónomos es el de la selección de acciones: un mecanismo que le permita al sistema escoger la acción más apropiada para la situación en que se encuentre, de tal forma que maximice su medida de éxito. El aprendizaje por refuerzo representa un enfoque atractivo para atacar este problema, ya que se basa en la búsqueda de señales de premio y la evasión de señales de castigo mediante un proceso de ensayo y error. En este artículo presentamos al PAISA I, una criatura artificial que aprende a comportarse (seleccionar acciones) utilizando una técnica de aprendizaje por refuerzo (aprendizaje Q) para optimizar la cantidad de comida que puede encontrar en un mundo impredecible, aunque con un espacio estado-acción pequeño.

One of the main problems studied in simulation of artificial autonomous agents is the action-selection: a mechanism that allows the system to choice the more suitable action for the specific situation where it is located, in such a way that maximizes his success measure. The reinforcement learning represents an attractive approach to attack this problem, because it is based in the searching of awards signals and the refusing of punishments by a trial and error process. In this paper, we present the PAISA I, an artificial creature that learns to behave (that is, action-selection) using a reinforcement learning technique known as Q-learning, to optimize the amount of food that he can find in an unpredictable world, although in a small state-action space.

Referencias

[Baird, 1994] Baird, L. C. (1994). Reinforcement Learning in Continuous Time: Advantage Updating. Proceedings of the International Conference on Neural Networks. DOI: https://doi.org/10.1109/ICNN.1994.374604

[Lin, 1992] Lin, L. (1992). Self-improving reactive agents based on reinforcement learning, planning and teaching. En: Machine Learning, 8. DOI: https://doi.org/10.1007/978-1-4615-3618-5_5

[Moriarty et al., 1996] Moriarty, D. E.; Miikkulainen, R. (1996). Efficient reinforcement learning through symbiotic evolution, En: Machine Learning, 22. DOI: https://doi.org/10.1007/BF00114722

[Munos et al., 1994] Munos, R.; Patinel, J. (1994). Reinforcement learning with dynamic covering of state-action: partitioning Q-learning. En: Cliff, D.; Husbands, P; Meyer, J. A.; Wilson, S. W. (Eds), From Animals to Animats 3: Proceedings of the Third International Conference on Simulation of Adaptive Behavior. The MIT Press/Bradford Books.

[Peng, 1993] Peng, J. (1993). Efficient Dynamic Programming-based Learning for Control. Tesis doctoral. College of Computer Science of Northeastern University.

[Peng et al., 1996] Peng, J.; Williams, R. J. (1996). Incremental Multi-step Q-Learning. En: Machine Learning, 22. DOI: https://doi.org/10.1007/BF00114731

[Rojas, 1998] Rojas, S. A. (1998). Disertación teórica sobre simulaciones inspiradas biológicamente para el estudio del comportamiento adaptativo. Monografía de grado. Facultad de Ingeniería de la Universidad Nacional de Colombia.

[Sutton et al., 1998] Sutton, R. S.; Barto, A. G. (1998). Reinforcement Learning: An Introduction. The MIT Press. DOI: https://doi.org/10.1109/TNN.1998.712192

[Watkins et al., 1992] Watkins, C. J.; Dayan, P (1992). Q-Learning. En: Machine Learning, 8. DOI: https://doi.org/10.1023/A:1022676722315

Cómo citar

APA

Rojas, S. A. y Martínez, J. J. (2002). Aprendizaje de selección de acciones en un mundo simple pero impredecible. Ingeniería e Investigación, (49), 9–13. https://doi.org/10.15446/ing.investig.n49.21404

ACM

[1]
Rojas, S.A. y Martínez, J.J. 2002. Aprendizaje de selección de acciones en un mundo simple pero impredecible. Ingeniería e Investigación. 49 (ene. 2002), 9–13. DOI:https://doi.org/10.15446/ing.investig.n49.21404.

ACS

(1)
Rojas, S. A.; Martínez, J. J. Aprendizaje de selección de acciones en un mundo simple pero impredecible. Ing. Inv. 2002, 9-13.

ABNT

ROJAS, S. A.; MARTÍNEZ, J. J. Aprendizaje de selección de acciones en un mundo simple pero impredecible. Ingeniería e Investigación, [S. l.], n. 49, p. 9–13, 2002. DOI: 10.15446/ing.investig.n49.21404. Disponível em: https://revistas.unal.edu.co/index.php/ingeinv/article/view/21404. Acesso em: 2 mar. 2025.

Chicago

Rojas, Sergio A., y José J. Martínez. 2002. «Aprendizaje de selección de acciones en un mundo simple pero impredecible». Ingeniería E Investigación, n.º 49 (enero):9-13. https://doi.org/10.15446/ing.investig.n49.21404.

Harvard

Rojas, S. A. y Martínez, J. J. (2002) «Aprendizaje de selección de acciones en un mundo simple pero impredecible», Ingeniería e Investigación, (49), pp. 9–13. doi: 10.15446/ing.investig.n49.21404.

IEEE

[1]
S. A. Rojas y J. J. Martínez, «Aprendizaje de selección de acciones en un mundo simple pero impredecible», Ing. Inv., n.º 49, pp. 9–13, ene. 2002.

MLA

Rojas, S. A., y J. J. Martínez. «Aprendizaje de selección de acciones en un mundo simple pero impredecible». Ingeniería e Investigación, n.º 49, enero de 2002, pp. 9-13, doi:10.15446/ing.investig.n49.21404.

Turabian

Rojas, Sergio A., y José J. Martínez. «Aprendizaje de selección de acciones en un mundo simple pero impredecible». Ingeniería e Investigación, no. 49 (enero 1, 2002): 9–13. Accedido marzo 2, 2025. https://revistas.unal.edu.co/index.php/ingeinv/article/view/21404.

Vancouver

1.
Rojas SA, Martínez JJ. Aprendizaje de selección de acciones en un mundo simple pero impredecible. Ing. Inv. [Internet]. 1 de enero de 2002 [citado 2 de marzo de 2025];(49):9-13. Disponible en: https://revistas.unal.edu.co/index.php/ingeinv/article/view/21404

Descargar cita

CrossRef Cited-by

CrossRef citations0

Dimensions

PlumX

Visitas a la página del resumen del artículo

359

Descargas

Artículos más leídos del mismo autor/a