info:eu-repo/semantics/doctoralThesis
Árboles de decisión para grandes conjuntos de datos
Autor
ANILU FRANCO ARCEGA
Resumen
Decision Trees are are among the most used supervised classification algorithms.
Currently, there are several algorithms for building decision trees,
however, just a few of these algorithms allow processing large datasets. Besides,
those algorithms designed for processing large datasets have some restrictions,
for example: spatial restrictions; the number of times that they
have to scan the whole training set for building the decision tree; some algorithms
only use a small subsample of the training set, but for obtaining
this subsample they spend a lot of time, specially for large datasets; other
algorithms use several parameters, which can be very difficult to determine
by the user.
For this reason, in this thesis we propose algorithms for building decision
trees for large datasets, that solve the restrictions of the most recent algorithms
in the state of the art, considering that the number of classes is lesser
than the number of instances in the training set. The proposed algorithms
use the whole training set for building the decision tree, without storing the
whole training set in memory. In particular, in this thesis, we propose two
algorithms for building multivariate decision trees for instances described by
numeric attributes. The first algorithm uses all the attributes in the internal
nodes of the decision tree. However, if the instances are described by a
large number of attributes, the time needed for traversing the tree can be
too long. For this reason, we propose a second algorithm, which uses splitting
attribute subsets in the internal nodes. Although the previous algorithm generates
multivariate decision trees using splitting attribute subsets, the time
needed for traversing the decision tree can also be too long. Hence, in this
thesis, we propose two algorithms for building univariate decision trees. The
first one for instances described by numeric attributes, and the second for
instances with mixed attributes.
Based on the experimental results, we can conclude that our algorithms
are faster than the most recent algorithms for building decision trees for
large datasets, maintaining competitive accuracy. Therefore, the proposed
algorithms are a good option for building decision trees for large datasets. Los Árboles de Decisión son de los algoritmos de clasificación supervisada
más utilizados. Actualmente existen diversos algoritmos de generación de
árboles de decisión, sin embargo, son pocos los que permiten procesar grandes
conjuntos de datos. Además, aquellos que lo permiten tienen diversas restricciones,
por ejemplo, en cuanto al manejo de memoria y al número de veces
que recorren el conjunto de entrenamiento para generar el árbol de decisión,
o bien algunos algoritmos no usan el conjunto de entrenamiento completo o
tienen parámetros que pueden ser difíciles de determinar por el usuario.
Por esta razón, en esta tesis se proponen algoritmos para la generación
de árboles de decisión para grandes conjuntos de datos, que superan las limitaciones
de los algoritmos más recientes del estado del arte, asumiendo que
el número de clases es mucho menor que el número de objetos en el conjunto
de entrenamiento. Los algoritmos propuestos usan todo el conjunto de entrenamiento
para generar el árbol de decisión, sin necesidad de almacenarlo
completo en memoria. En particular, en esta tesis se proponen dos algoritmos
que generan árboles de decisión multivaluados para objetos descritos por atributos
numéricos. El primer algoritmo utiliza todo el conjunto de atributos,
como atributos de prueba, en los nodos internos del árbol de decisión. Sin
embargo, si los objetos están descritos en términos de una gran cantidad de
atributos, el tiempo de procesamiento que emplea este algoritmo, cuando se
recorre el árbol de decisión, puede ser muy grande. Por esta razón, se propone
el segundo algoritmo, el cual utiliza subconjuntos de atributos en los nodos
internos. No obstante, aunque se generen árboles de decisión multivaluados
con subconjuntos de atributos, el recorrido del árbol de decisión puede ser
costoso todavía. Por este motivo, en esta tesis también se proponen dos algoritmos
para generar árboles de decisión univaluados. El primero de estos
algoritmos es para objetos descritos por atributos numéricos y el segundo es
para objetos con atributos mezclados.
Con base en los resultados experimentales, concluimos que los algoritmos
propuestos en esta tesis son más rápidos que los algoritmos más recientes para
generación de árboles de decisión a partir de grandes conjuntos de datos,
obteniendo una calidad de clasificación competitiva.
Materias
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración
OLGA BRIGIDA GUTIERREZ ACOSTA; VLADIMIR ALONSO ESCOBAR BARRIOS; SONIA LORENA ARRIAGA GARCIA