info:eu-repo/semantics/masterThesis
Identificación de usos medicinales de plantas utilizando información sintáctica y semántica
Autor
Oscar Pérez-Sánchez
Resumen
In Mexico and all over the world, plants have been used to treat diseases and
discomforts. In these days it is possible to find information related to medicinal
plants thanks to the growth of the internet. By finding this information in the form
of text, we may ask whether it is possible to automatically identify sentences that
describe a medicinal use using natural language processing techniques (NLP)?. The
main issue is to find the way to relate the sentences that describe a medicinal use
of those that do not. Using NLP techniques will exploit the syntactic and semantic
information extracted from the original source to discover relations that are not
detected superficially.
Since the purpose is to identify a medicinal use that can be found in the
sentences that compose the text, the task can be seen as a task of short texts
classification. The main characteristic of these tasks is work with small portions
of text, in this case sentences that do not exceed 30 words. The main approach
is to enrich the few information available with information that allows to discover
relations between sentences that can not be detected with the original data.
For the previous reason, this thesis addresses the task of automatic identification of medicinal uses of plants using syntactic and semantic information. We
propose a method that obtains syntactic and semantic information of the sentences
to relate those that describe a medicinal use.
The syntactic information is commonly used in stylistic tasks such as the identi
fication of an author by his written documents, for this task it is considered that the
structure of a sentence that describes a medicinal use can provide information that
allows to differentiate it from another sentences. part of the speech trigrams were
used to identify patterns used in sentences that describe uses, especially medicinal
ones.
On the other hand the semantic information has been used in tasks related
to categories, like differentiating between sports or political news. In this case the
sentences of interest belong to the medical domain, so enriching the sentences with
words related to this domain may be useful for this classiffcation. In order to obtain
the semantic information, the BabelNet semantic resource was used, with this, we
want to relate words of the sentences by generalization to their direct hyperonym.
Experiments were performed with each of the representations separately and by
combinations of these. En México y en todo el mundo se han utilizado a las plantas para combatir enfermedades
y malestares. En estos días es posible encontrar esta información gracias
al crecimiento de Internet. Al encontrarse la información en forma de texto ¿es posible
identificar automáticamente oraciones que describan un uso medicinal mediante
técnicas de procesamiento del lenguaje natural (PLN)?. El principal reto a superar
es encontrar la forma de relacionar las oraciones que describan un uso medicinal de
aquellas que no lo hacen. Utilizando técnicas de PLN se sugiere explotar información
sintáctica y semántica extraída de la fuente original para descubrir relaciones que
no se detectan de manera superficial.
Ya que el propósito es identificar un uso medicinal que puede ser encontrado
en oraciones que componen al texto, la tarea puede ser vista como una tarea de
clasificación de textos cortos. La principal característica de esta tarea consiste en
trabajar con pequeñas porciones de texto, en este caso oraciones que no superan
las 30 palabras. El principal enfoque consiste en enriquecer la poca información
disponible con información que permita descubrir relaciones entre las oraciones que
no pueden ser detectadas con la información original.
Por el motivo anterior en esta tesis se aborda la tarea de identificación automática de usos medicinales de plantas utilizando información sintáctica y semántica.
Se propone un método que obtenga información sintáctica y semántica de las
oraciones para poder relacionar aquellas oraciones que describan un uso medicinal
de aquellas que no lo hacen.
La información sintáctica comúnmente es utilizada en tareas de estilo tal como
la identificación de un autor por sus documentos escritos, En esta tesis se considera
que la estructura de una oración que describe un uso medicinal puede aportar
información que permita diferenciarla de oraciones donde no lo hacen, para ello se
utilizaron trigramas de etiquetas de parte del habla para identificar patrones utilizados
en las oraciones que describen usos, especialmente los medicinales.
Por otro lado la información semántica se ha utilizado en tareas relacionadas
a categorías, como diferenciar entre noticias de deportes o finanzas. En este caso
las oraciones de interés pertenecen al dominio medico, por lo cual el enriquecer las
oraciones con palabras relacionadas a este dominio puede ser útil para esta clasificación.
Materias
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Cambio social y agrícola en territorios campesinos. Respuestas locales al régimen neoliberal en la frontera sur de México
Luis Enrique García Barrios; Eduardo Bello Baltazar; Manuel Roberto Parra Vázquez