Artículos de revistas
Minería de Texto empleando la Semejenza entre Estructuras Semánticas
Text Mining using Comparison of Semantic Structures
Autor
MONTES Y GÓMEZ, MANUEL
Institución
Resumen
EL TESORO MÁS VALIOSO DE LA RAZA HUMANA ES EL CONOCIMIENTO. GRAN PARTE DE ESTE CONOCIMIENTO EXISTE EN FORMA DE LENGUAJE NATURAL: LIBROS, PERIÓDICOS, ARTÍCULOS, ETCÉTERA. LA POSESIÓN REAL DE TODO ESTE CONOCIMIENTO DEPENDE DE NUESTRA HABILIDAD PARA REALIZAR CIERTAS OPERACIONES CON LA INFORMACIÓN, POR EJEMPLO: BUSCARLA, COMPARARLA, Y RESUMIRLA. LA MINERÍA DE TEXTO, UNA NUEVA ÁREA DE INVESTIGACIÓN DEFINIDA COMO DESCUBRIMIENTO DE CONOCIMIENTO EN COLECCIONES DE TEXTOS, SE ENFOCA EN EL ANÁLISIS DE GRANDES CONJUNTOS DE DOCUMENTOS. EN PARTICULAR, CONSIDERA EL DESCUBRIMIENTO DE PATRONES INTERESANTES, TALES COMO GRUPOS, ASOCIACIONES Y DESVIACIONES, EN COLECCIONES DE TEXTOS. LOS MÉTODOS ACTUALES DE MINERÍA DE TEXTO SE CARACTE-RIZAN POR USAR REPRESENTACIONES SENCILLAS DEL CONTENIDO DE LOS DOCUMENTOS, POR EJEMPLO, BOLSAS O VECTORES DE PALABRAS. POR UNA PARTE ESTAS REPRESENTACIONES SON FÁCILES DE OBTENER Y ANALIZAR, PERO POR OTRA PARTE RESTRINGEN LOS PATRONES DESCUBIERTOS A UN NIVEL TEMÁTICO. CON EL PROPÓSITO DE OBTENER RESULTADOS MÁS ÚTILES Y SIGNIFICATIVOS DEBEN USARSE REPRESENTACIONES MÁS COMPLETAS DE LA INFORMACIÓN. BASÁNDONOS EN ESTA SUPOSICIÓN SE PROPUSO UN NUEVO MÉTODO PARA REALIZAR MINERÍA DE TEXTO A NIVEL DETALLE. ESTE MÉTODO USA LOS GRAFOS CONCEPTUALES COMO REPRESENTACIÓN DEL CONTENIDO DE LOS TEXTOS, Y OBTIENE ALGU-NOS PATRONES DESCRIPTIVOS DE LOS DOCUMENTOS APLICANDO VARIOS TIPOS DE OPERACIONES SOBRE ESTOS GRAFOS KNOWLEDGE IS THE MOST VALUABLE TREASURE OF HUMANKIND. MOST OF THIS KNOWLEDGE EXISTS IN NATURAL LANGUAGE FORMAT, FOR INSTANCE, IN BOOKS, JOURNALS, REPORTS, ETC. THE REAL POSSESSION OF ALL THIS KNOWLEDGE DEPENDS ON OUR CAPABILITIES TO PERFORM DIFFERENT TASKS WITH TEXTS, SUCH AS: SEARCHING FOR INTERESTING TEXTS, COMPARING DIFFERENT DOCUMENTS, AND SUMMARIZING THEM.TEXT MINING, AN EMERGING RESEARCH AREA THAT CAN BE ROUGHLY CHARACTERIZED AS KNOWLEDGE DISCOVERY IN LARGE TEXT CO-LLECTIONS, IS FOCUSED ON AUTOMATICALLY ANALYZING A SET OF TEXTS. MAINLY, IT IS CONCERNED WITH THE DISCOVERY OF INTERESTING PATTERNS SUCH AS CLUSTERS, ASSOCIATIONS, AND DEVIATIONS FROM LARGE TEXT COLLECTIONS. CURRENT METHODS OF TEXT MINING TEND TO USE SIMPLISTIC AND SHALLOW REP