masterThesis
Metodología para la detección de pérdidas no técnicas en sistemas de distribución utilizando métodos de minería de datos
Autor
Trejos Ramírez, Rubén Darío
Institución
Resumen
Uno de los grandes problemas que afrontan las empresas de distribución de energía tanto a nivel nacional como internacional, son los fraudes de energía cometidos por los usuarios. En el presente proyecto de investigación se presenta y aplica una nueva metodología para la detección de perdidas no técnicas en sistemas de distribución, la cual sigue los lineamientos establecidos en el proceso de
minería de datos. La metodología parte del hecho en el cual no se conocen a priori las etiquetas para aquellos registros Normales y Sospechosos, que conforman la base de datos; por lo cual por medio de
un proceso de validación, se definen los datos que hacen parte de cualquiera de las etiquetas definidas anteriormente. Adicionalmente se aplica una etapa previa de pre-procesamiento con el fin de realizar una depuración de la información base e identificar y remover aquellos registros con comportamiento atípicos que afectan de forma negativa el desempeño de los métodos de agrupamiento y clasificación. Con el fin de clasificar un usuario, ya sea en la etiqueta de Normal o Sospechoso; se aplican 4 métodos
de clasificación: Maquina de Soporte Vectorial, Clasificador Bayes Naive y los algoritmos Adaboost y Bagging. Las salidas de cada uno de los algoritmos permite determinar la e ciencia individual de
cada uno de ellos y la e ciencia global, la cual es el resultado de combinar los resultados de cada método. Esto ultimo se realiza con el fin de minimizar el error en la clasificación. El resultado final, en el cual se de ne el listado final de usuarios probablemente Sospechosos resulta de combinar la salidas unificadas de los algoritmos de clasificación y los registros que fueron detectados y filtrados en la etapa de pre-procesamiento. Por ultimo se resalta que la metodología que se presenta, se valida con información real de consumos eléctricos normales y sospechosos, los cuales fueron identificados por la
empresa de distribución, a la cual pertenece la información utilizada. One of the major problems faced by utilities, regardless if they are national or international companies, is energy fraud committed by users. In this research is presented a new methodology for the detection
of non-technical losses in distribution systems. The methodology follows the guidelines established in the process of data mining. The methodology considers there is unknown labels in the entire database (suspects and normal users), and by means of a validation process, the data is assigned in each label de ned before. Additionally, a previous pre-processing step is applied, to debug the database, the goal of this step is identify and remove atypical information, that information can a ect negatively the performance of the clustering and classi cation methods. In order to classify a user, either on the label of Suspect or Normal, four classi cation methods are applied: Support Vector Machine, Naive Bayes classi er and Bagging and Adaboost algorithms. The outputs of each algorithm allows determining
the individual e ciency of each of them and the overall e ciency, which is the result of combining the results of each method, to minimize the misclassi cation. The nal response, is a list where is de ned users probably Suspects, and is product of combining the outputs of the classi cation algorithms and the database that were ltered at the step of pre-processing. Finally, the methodology presented
is validated with real data that contain normal and suspicious electricity consumption, which were identi ed by a utility company.