Thesis
Agrupamiento para datos simbólicos a través del uso de conjuntos borrosos
Autor
Velasco Liscano, Richards Joel
Institución
Resumen
Hoy por hoy, uno de los problemas básicos de los científicos e investigadores consiste en establecer un ordenamiento, agrupamiento o clasificación por clases, de un conjunto de individuos u objetos del mundo que nos rodea. Por ejemplo, sea un conjunto de objetos o individuos con características observadas, las cuales pueden ser medidos en diferentes escalas incluyendo datos continuos, numéricos, simbólicos o estructurados, se requiere constituir grupos entre ellos sobre la base de sus similitudes internas. Cabe preguntar: ¿ Los objetos como conglomerado único, están bien o mal estructurados en cuanto a similitud se trata?. Si es cierto, entonces hay que encontrar conglomerados naturales de esos objetos de tal forma que las unidades sean muy similares posibles dentro del grupo y entre grupos muy disímiles, de acuerdo alguna medida de similitud o disimilitud y mediante un método específico de agrupación o clasificación. Existen técnicas de agrupamiento basadas en metodologías jerárquicas o convencionales y no jerárquicas, las cuales utilizan algoritmos de aglomeración. Una técnica convencional muy conocida es el análisis cluster, el cual particiona un conjunto de datos, digamos x, en C subconjuntos, grupos o conglomerados, disjuntos dos a dos, cuya unión es . Esta técnica señala que cada punto es inequívocamente agrupado en un determinado conglomerado y no tiene ninguna semejanza con otro miembro de otro conglomerado. Los datos simbólicos son de gran utilidad ya que pretenden resumir grandes cantidades de información almacenada en bases de datos relacionales y son en general de naturaleza difusa o borrosa. Las técnicas convencionales presentan desventajas al momento de tratar con datos simbólicos: capacidad de memoria, complejidad en iteraciones del cálculo de la función distancia, complejidad de los algoritmos, entre otras. Ante estas dificultades, cabe preguntar: ¿Es posible eliminar la mayoría de estas dificultades encontradas en la agrupación jerárquica de datos simbólicos si se emplea teoría de conjuntos borrosos?. El objetivo de la investigación es agrupar datos simbólicos aplicando teoría de conjuntos borrosos; por otro lado proponer un algoritmo de agrupamiento C-medias modificado como aplicación a un conjunto de datos reales en el área económica y con esto servir de apoyo en las ciencias sociales y económicas para la toma de decisiones. El algoritmo emplea optimización; los datos simbólicos reales, en total, fueron suministrados por la profesora Yoskira Cordero. El algoritmo propuesto se programó y ejecutó bajo programación y con ciertas condiciones iniciales relativas al número de grupos valor del coeficiente de borrosidad ( entre 1.1 y 5.0), del grado de asociación ,criterio de convergencia, entre otros; el algoritmo proporcionó la función distancia, gráficos de interés, matriz de asociación y la asignación de objetos simbólicos a los grupos; el tiempo de procesamiento de un ensayo con el algoritmo propuesto es de 2 minutos aproximadamente y de 90 minutos para 60 ensayos. A medida que aumenta el valor de la función objetivo disminuye tendiendo al mínimo muy particularmente a partir de m = 2. s w , Today, one of the basic problems of scientists and researchers is to establish an ordering, grouping or classification into classes in a group of individuals or objects in the world around us. For example, let a set of objects or individuals observed characteristics, which can be measured in different scales including continuous data, numeric, symbolic or structured is required between them form groups based on their similarities internal. The question arises: Are the objects such as single conglomerate, well or poorly structured in terms similarity is that?. If true, then we have to find natural clusters of these objects so that the units are very similar as possible within group and between very different groups, according to some measure of similarity or dissimilarity and using a specific method of grouping or classification. Techniques are hierarchical clustering methodology based on conventional or non-hierarchical, which uses clustering algorithms. A well-known conventional technique is cluster analysis, which partitions a data set, says x, in C subsets, groups or clusters, disjoint in pairs, whose union is X. This technique indicates that each point x unequivocally grouped in a given cluster and has no resemblance to another member of another cluster. The symbolic data are useful because they are intended to summarize large amounts of information stored in relational databases and general in nature are fuzzy or blurred. Conventional techniques have drawbacks when dealing with symbolic data: memory, iterations of the calculation complexity of the distance function, complexity of algorithms, among others. Given these difficulties, we must ask: Is it possible to eliminate most of these difficulties in hierarchical clustering of symbolic data if using fuzzy set theory?. The research objective is to cluster symbolic data using fuzzy set theory, on the other hand propose a clustering algorithm C-modified medium and application to a real data set in the economic area and thereby provide support in the social sciences and for making economic decisions. The algorithm uses optimization, real symbolic data, totaling 16, were supplied by Professor Yoskira Lamb. The proposed algorithm was programmed and executed under the Visual Basic programming with version 6.0 and initial conditions on the number of groups (3,5,7,9 and 11) blur coefficient "m" (between 1.1 and 5.0 ), the degree of association, convergence criterion, among others, the algorithm provided the distance function, graphs of interest, matrix association U and symbolic object allocation to groups, the processing time of a trial with the proposed algorithm is of 2 minutes and 90 minutes for 60 trials. As you increase the value of , the objective function decreases to a minimum tending more particularly from m 2. Keywords: Data symbolic, grouping, blur, optimization, algorithm