Control de aprendizaje por refuerzo con el algoritmo actor crítico de ventaja

dc.advisor.idTASR800117HMNPNB07
dc.advisor.roleasesorTesis
dc.contributor.advisorTapia Sánchez, Roberto
dc.contributor.authorPimentel Vallejo, Miguel Ángel
dc.creator.idPIVM940827HMNMLG05
dc.date.accessioned2026-02-13T00:18:58Z
dc.date.issued2022-08
dc.descriptionFacultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctricaes_MX
dc.description.abstractIn this thesis the results obtained from implementing a controller based on reinforcement learning are presented, in particular the algorithm of critical actor of advantage is used. The method is trained to control two systems: Direct current motor. Which is only controlled in a simulated way using its linear model. Rotating inverted pendulum. This system is controlled in a simulated way using its non-linear model and in a real way, using a module for experimentation of the Quanser brand. Once trained, controllers are subjected to a series of tests: Tracking a reference that does not change over time. Tracking a reference signal with value changes over time. Tracking a sinusoidal signal. With these tests, the performance of the trained controller is compared with different reward functions, among which the proposal in this thesis is used, in order to show which, one has the best performance. Finally, conclusions and future work are presented.en
dc.description.abstractEn esta tesis se presentan los resultados obtenidos de implementar un controlador basado en aprendizaje por refuerzo, en particular se utiliza el algoritmo de actor critico de ventaja. El método es entrenado para controlar dos sistemas: Motor de corriente directa. El cual solamente se controla de manera simulada utilizando su modelo lineal. Péndulo invertido rotatorio. Este sistema se controla de manera simulada usando su modelo no lineal y de manera real, usando un módulo para experimentación de la marca Quanser. Una vez entrenados, los controladores son sometidos a una serie de pruebas: Seguimiento de una referencia que no cambia con el tiempo. Seguimiento de una señal de referencia con cambios de valor a través del tiempo. Seguimiento de una señal senoidal. Con estas pruebas se compara el desempeño del controlador entrenado con distintas funciones de recompensa, entre las cuales se utiliza la propuesta en esta tesis, esto con la finalidad de mostrar cuál tiene el mejor desempeño. Por último, se presentan las conclusiones y los trabajos futuros.es_MX
dc.identifier.urihttps://tesisdigitales.umich.mx/handle/DGB_UMICH/6617
dc.language.isospaspa_MX
dc.publisherUniversidad Michoacana de San Nicolás de Hidalgoes_MX
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.licensehttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.subjectinfo:eu-repo/classification/cti/7
dc.subjectFIE-M-2022-0907es_MX
dc.subjectRotatorioes_MX
dc.subjectPénduloes_MX
dc.subjectCorriente directaes_MX
dc.titleControl de aprendizaje por refuerzo con el algoritmo actor crítico de ventajaes_MX
dc.typeinfo:eu-repo/semantics/masterThesises_MX

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
FIE-M-2022-0907.pdf
Size:
6.31 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
5.61 KB
Format:
Plain Text
Description:

Collections