Descubrimiento de patrones similares frecuentes para la minería de reglas de asociación sobre datos mezclados

ANSEL YOAN RODRIGUEZ GONZALEZ

info:eu-repo/semantics/doctoralThesis

Registro en:

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/718

https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805935

Autor

ANSEL YOAN RODRIGUEZ GONZALEZ

Institución

Instituto Nacional de Astrofísica, Óptica y Electrónica (México)

Resumen

Association Rule Mining is an important task in Knowledge Discovery from Data. It has been applied to marketing, crime analysis, bioinformatics, medicine, network security, etc. The aim of Association Rule Mining is finding interesting ”if-then” rules between combinations of feature values that describe the objects in a dataset. Commonly, an association rule is considered interesting if its frequency and confidence2 are greater than or equal to user-specified frequency and confidence thresholds. Usually, mining association rules consists in: I) Searching frequent patterns (descriptions of objects whose frequency is greater than or equal to a minimum threshold frequency); II) Extracting interesting association rules from frequent patterns. The first step (also called Frequent Pattern Mining) is the most computationally expensive. Consequently, many works have focused on this problem. Frequent patterns represent regularities that appear in the data. Depending on the application area, these patterns could be interpreted as user profiles, modus operandi, syndromes and risk factors, among others. Frequent patterns have also been used in other data mining tasks, different from association rule mining, such as classification and clustering. In the traditional approach for mining frequent patterns and mining association rules, datasets are described only by Boolean features. However, there are application areas like geology, medicine, biology and sociology where datasets may contain objects described simultaneously by numerical and non-numerical features (Mixed Data). Additionally, in many applications, two objects are almost never exactly equal, and therefore similarity functions different from the equality are used to compare objects. The literature reports only one algorithm for association rule mining using similarity functions different from the equality, which finds association rules hidden for the traditional approach. Nevertheless, this algorithm was designed for Boolean similarity functions that satisfy that: if two objects are not similar with respect to a set of features, then they are not similar with respect to any superset of it. However, there are problems where the similarity function between object descriptions and subscriptions does not satisfy this property. Moreover, there are problems where the similarity functions are not Boolean.

La Minería de Reglas de Asociación es una tarea importante del descubrimiento de conocimiento en datos. La misma ha sido aplicada en mercadeo, análisis de crímenes, bioinformática, medicina, seguridad de redes, etc. El objetivo de la Minería de Reglas de Asociación es encontrar asociaciones interesantes de la forma “si antecedente entonces consecuente”, entre combinaciones de los valores de los atributos que describen a los objetos de una colección de datos. Comúnmente, una regla de asociación es interesante si su frecuencia y su confianza1 son mayores o iguales que umbrales de frecuencia y confianza especificados por el usuario. Generalmente, minar reglas de asociación, consiste en: I) Encontrar todos los patrones frecuentes (descripciones de objetos cuya frecuencia es mayor o igual que un umbral de mínima frecuencia); II) Extraer las reglas de asociación interesantes a partir de los patrones frecuentes. El primer paso (también llamado Minado de Patrones Frecuentes) es el más costoso computacionalmente. Como consecuencia, muchos trabajos se han enfocado en este problema. Los patrones frecuentes representan regularidades que aparecen en los datos. En dependencia del área de aplicación, estos patrones pueden ser interpretados como perfiles de usuarios, modus operandi, síndromes o factores de riesgo, entre otros. Los patrones frecuentes también han sido usados en otras tareas de minería de datos, diferentes del minado de reglas de asociación, como la clasificación y el agrupamiento. En el enfoque tradicional de minado de patrones frecuentes y de reglas de asociación, las colecciones de datos están descritas exclusivamente por atributos Booleanos. Sin embargo, existen áreas de aplicación como geología, medicina, biología y sociología donde las colecciones de datos pueden contener objetos descritos simultáneamente por atributos numéricos y no numéricos (Datos Mezclados). Adicionalmente, en muchas aplicaciones, dos objetos casi nunca son exactamente iguales, y por lo tanto, para compararlos se utilizan funciones de semejanza diferentes de la igualdad. En la literatura solo se ha reportado un algoritmo para el minado de reglas de asociación usando funciones de semejanzas diferentes de la igualdad, el cual encuentra reglas de asociación ocultas para el enfoque tradicional.

Materias

info:eu-repo/classification/Minería de datos/Data mining

info:eu-repo/classification/reglas de asociación/Association rules

info:eu-repo/classification/Patrones frecuentes/Frequent patterns

info:eu-repo/classification/Knowledge discovery in data/Knowledge discovery in data

info:eu-repo/classification/cti/1

info:eu-repo/classification/cti/12

info:eu-repo/classification/cti/1203

Mostrar el registro completo del ítem