info:eu-repo/semantics/doctoralThesis
Aprendizaje profundo por refuerzo y demostraciones aplicado al seguimiento del punto global de máxima potencia en sistemas fotovoltaicos
Fecha
2022-10Autor
Cortés Hernández, Baldwin Rainiero
Resumen
In this thesis, a global maximum power point tracking (GMPPT) technique based on deep reinforcement learning (DRL) with the use of demonstrations is developed and applied to photovoltaic (PV) systems under partial shading (PS) conditions. To date, DRL algorithms have not been able to establish themselves in real applications of GMPPT, mainly because they require thousands of interactions with the system before obtaining satisfactory performance. On the other hand, classic maximum power point tracking (MPPT) algorithms, such as the Perturb and Observe (P&O) algorithm, can perform reasonably well out of the box. However, classic MPPT algorithms do not always manage to locate the global maximum power point (GMPP), which causes losses in the generated power. This thesis integrates the interaction modalities of classical algorithms in the learning process of DRL algorithms, reducing the number of interactions required in training and promoting better tracking performance. The proposed DRL algorithm is called TD4, referring to the algorithm used as a base: Deep Deterministic Policy Gradient with Twin Delay (TD3) and the inclusion of demonstrations (D) – TD3 + D. The implementation and training of the TD4 algorithm are done in Python, using the open source machine learning framework PyTorch, while the modeling and simulation of the photovoltaic system are done in MATLAB/Simulink. For validation, complex non-uniform patterns of solar irradiance are used. In order to demonstrate the qualities of the proposed GMPPT TD4 method, a comparison is presented against other tracking techniques: an MPPT P&O algorithm, a GMPPT Deep Deterministic Policy Gradient (DDPG) algorithm, and a GMPPT TD3 algorithm. En esta tesis se desarrolla una técnica de seguimiento del punto global de máxima potencia (GMPPT) basada en aprendizaje profundo por refuerzo (DRL) con uso de demostraciones, aplicada a sistemas fotovoltaicos (PV) en condiciones de sombreado parcial (PS). En la actualidad, los algoritmos de DRL no han logrado consolidarse en aplicaciones reales de GMPPT. Esto se debe principalmente a que requieren miles de interacciones con el sistema, antes de obtener un desempeño satisfactorio. Por otra parte, los algoritmos de seguimiento del punto máximo de potencia (MPPT) clásicos, como el algoritmo Perturba y Observa (P&O), pueden desempeñarse razonablemente bien desde el primer momento desde su implementación. Sin embargo, los algoritmos MPPT clásicos no siempre logran ubicar el punto global de máxima potencia (GMPP), lo que provoca pérdidas en la potencia generada. Esta tesis integra las modalidades de interacción de los algoritmos clásicos en el proceso de aprendizaje de los algoritmos DRL, disminuyendo el número de interacciones requeridas en el entrenamiento y promoviendo un mejor desempeño en el seguimiento. El algoritmo DRL propuesto se denomina TD4, haciendo alusión al algoritmo usado como base: Gradiente de Política Determinista Profunda con Retraso Gemelo (TD3) y a la inclusión de demostraciones (D) – TD3 + D. La implementación y entrenamiento del algoritmo TD4 se realiza en Python, utilizando el marco de aprendizaje automático de código abierto PyTorch; mientras que el modelado y simulación del sistema fotovoltaico se realiza en MATLAB/Simulink. Para la validación, se utilizan patrones complejos no uniformes de irradiancia solar. Con el propósito de demostrar las cualidades del método GMPPT TD4 propuesto, se presenta una comparación frente a otras técnicas de seguimiento: un algoritmo MPPT P&O, un algoritmo GMPPT de Gradiente de Política Determinista Profunda (DDPG), y un algoritmo GMPPT TD3.