info:eu-repo/semantics/doctoralThesis
Descubrimiento de patrones similares frecuentes para la minería de reglas de asociación sobre datos mezclados
Autor
ANSEL YOAN RODRIGUEZ GONZALEZ
Resumen
Association Rule Mining is an important task in Knowledge Discovery from Data. It
has been applied to marketing, crime analysis, bioinformatics, medicine, network security,
etc. The aim of Association Rule Mining is finding interesting ”if-then” rules between
combinations of feature values that describe the objects in a dataset. Commonly, an
association rule is considered interesting if its frequency and confidence2 are greater
than or equal to user-specified frequency and confidence thresholds.
Usually, mining association rules consists in: I) Searching frequent patterns (descriptions
of objects whose frequency is greater than or equal to a minimum threshold frequency);
II) Extracting interesting association rules from frequent patterns.
The first step (also called Frequent Pattern Mining) is the most computationally
expensive. Consequently, many works have focused on this problem. Frequent patterns
represent regularities that appear in the data. Depending on the application area, these
patterns could be interpreted as user profiles, modus operandi, syndromes and risk factors,
among others. Frequent patterns have also been used in other data mining tasks,
different from association rule mining, such as classification and clustering.
In the traditional approach for mining frequent patterns and mining association rules,
datasets are described only by Boolean features. However, there are application areas like
geology, medicine, biology and sociology where datasets may contain objects described
simultaneously by numerical and non-numerical features (Mixed Data). Additionally, in
many applications, two objects are almost never exactly equal, and therefore similarity
functions different from the equality are used to compare objects.
The literature reports only one algorithm for association rule mining using similarity
functions different from the equality, which finds association rules hidden for the
traditional approach. Nevertheless, this algorithm was designed for Boolean similarity
functions that satisfy that: if two objects are not similar with respect to a set of features,
then they are not similar with respect to any superset of it. However, there are problems
where the similarity function between object descriptions and subscriptions does not
satisfy this property. Moreover, there are problems where the similarity functions are not
Boolean. La Minería de Reglas de Asociación es una tarea importante del descubrimiento de
conocimiento en datos. La misma ha sido aplicada en mercadeo, análisis de crímenes,
bioinformática, medicina, seguridad de redes, etc. El objetivo de la Minería de Reglas de
Asociación es encontrar asociaciones interesantes de la forma “si antecedente entonces
consecuente”, entre combinaciones de los valores de los atributos que describen a los
objetos de una colección de datos. Comúnmente, una regla de asociación es interesante
si su frecuencia y su confianza1 son mayores o iguales que umbrales de frecuencia y
confianza especificados por el usuario.
Generalmente, minar reglas de asociación, consiste en: I) Encontrar todos los patrones
frecuentes (descripciones de objetos cuya frecuencia es mayor o igual que un umbral
de mínima frecuencia); II) Extraer las reglas de asociación interesantes a partir de los
patrones frecuentes.
El primer paso (también llamado Minado de Patrones Frecuentes) es el más costoso
computacionalmente. Como consecuencia, muchos trabajos se han enfocado en este problema.
Los patrones frecuentes representan regularidades que aparecen en los datos. En
dependencia del área de aplicación, estos patrones pueden ser interpretados como perfiles
de usuarios, modus operandi, síndromes o factores de riesgo, entre otros. Los patrones
frecuentes también han sido usados en otras tareas de minería de datos, diferentes del
minado de reglas de asociación, como la clasificación y el agrupamiento.
En el enfoque tradicional de minado de patrones frecuentes y de reglas de asociación,
las colecciones de datos están descritas exclusivamente por atributos Booleanos. Sin
embargo, existen áreas de aplicación como geología, medicina, biología y sociología donde
las colecciones de datos pueden contener objetos descritos simultáneamente por atributos
numéricos y no numéricos (Datos Mezclados). Adicionalmente, en muchas aplicaciones,
dos objetos casi nunca son exactamente iguales, y por lo tanto, para compararlos se
utilizan funciones de semejanza diferentes de la igualdad.
En la literatura solo se ha reportado un algoritmo para el minado de reglas de asociación usando funciones de semejanzas diferentes de la igualdad, el cual encuentra reglas
de asociación ocultas para el enfoque tradicional.
Materias
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración
OLGA BRIGIDA GUTIERREZ ACOSTA; VLADIMIR ALONSO ESCOBAR BARRIOS; SONIA LORENA ARRIAGA GARCIA