Control de aprendizaje por refuerzo con el algoritmo actor crítico de ventaja

Pimentel Vallejo, Miguel Ángel

Control de aprendizaje por refuerzo con el algoritmo actor crítico de ventaja

dc.advisor.id	TASR800117HMNPNB07
dc.advisor.role	asesorTesis
dc.contributor.advisor	Tapia Sánchez, Roberto
dc.contributor.author	Pimentel Vallejo, Miguel Ángel
dc.creator.id	PIVM940827HMNMLG05
dc.date.accessioned	2026-02-13T00:18:58Z
dc.date.issued	2022-08
dc.description	Facultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctrica	es_MX
dc.description.abstract	In this thesis the results obtained from implementing a controller based on reinforcement learning are presented, in particular the algorithm of critical actor of advantage is used. The method is trained to control two systems: Direct current motor. Which is only controlled in a simulated way using its linear model. Rotating inverted pendulum. This system is controlled in a simulated way using its non-linear model and in a real way, using a module for experimentation of the Quanser brand. Once trained, controllers are subjected to a series of tests: Tracking a reference that does not change over time. Tracking a reference signal with value changes over time. Tracking a sinusoidal signal. With these tests, the performance of the trained controller is compared with different reward functions, among which the proposal in this thesis is used, in order to show which, one has the best performance. Finally, conclusions and future work are presented.	en
dc.description.abstract	En esta tesis se presentan los resultados obtenidos de implementar un controlador basado en aprendizaje por refuerzo, en particular se utiliza el algoritmo de actor critico de ventaja. El método es entrenado para controlar dos sistemas: Motor de corriente directa. El cual solamente se controla de manera simulada utilizando su modelo lineal. Péndulo invertido rotatorio. Este sistema se controla de manera simulada usando su modelo no lineal y de manera real, usando un módulo para experimentación de la marca Quanser. Una vez entrenados, los controladores son sometidos a una serie de pruebas: Seguimiento de una referencia que no cambia con el tiempo. Seguimiento de una señal de referencia con cambios de valor a través del tiempo. Seguimiento de una señal senoidal. Con estas pruebas se compara el desempeño del controlador entrenado con distintas funciones de recompensa, entre las cuales se utiliza la propuesta en esta tesis, esto con la finalidad de mostrar cuál tiene el mejor desempeño. Por último, se presentan las conclusiones y los trabajos futuros.	es_MX
dc.identifier.uri	https://tesisdigitales.umich.mx/handle/DGB_UMICH/6617
dc.language.iso	spa	spa_MX
dc.publisher	Universidad Michoacana de San Nicolás de Hidalgo	es_MX
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.license	http://creativecommons.org/licenses/by-nc-nd/4.0
dc.subject	info:eu-repo/classification/cti/7
dc.subject	FIE-M-2022-0907	es_MX
dc.subject	Rotatorio	es_MX
dc.subject	Péndulo	es_MX
dc.subject	Corriente directa	es_MX
dc.title	Control de aprendizaje por refuerzo con el algoritmo actor crítico de ventaja	es_MX
dc.type	info:eu-repo/semantics/masterThesis	es_MX

Files

Original bundle

Now showing 1 - 1 of 1

Name:: FIE-M-2022-0907.pdf
Size:: 6.31 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 5.61 KB
Format:: Plain Text
Description:

Download

Collections

Maestría