es | en | pt | fr
    • Presentación
    • Países
    • Instituciones
    • Participa
        JavaScript is disabled for your browser. Some features of this site may not work without it.
        Ver ítem 
        •   Inicio
        • México
        • Universidades
        • Instituto Politécnico Nacional (México)
        • Ver ítem
        •   Inicio
        • México
        • Universidades
        • Instituto Politécnico Nacional (México)
        • Ver ítem

        Evaluating n-gram Models for a Bilingual Word Sense Disambiguation Task

        Fecha
        2011-12-13
        Registro en:
        Revista Computación y Sistemas; Vol. 15 No. 2
        1405-5546
        http://www.repositoriodigital.ipn.mx/handle/123456789/14869
        Autor
        Pinto, David
        Vilariño, Darnes
        Balderas, Balderas
        Tovar, Mireya
        Beltrán, Beatriz
        Institución
        • Instituto Politécnico Nacional (México)
        Resumen
        Abstract. The problem of Word Sense Disambiguation (WSD) is about selecting the correct sense of an ambiguous word in a given context. However, even if the problem of WSD is difficult, when we consider its bilingual version, this problem becomes much more complex. In this case, it is necessary not only to find the correct translation, but such translation must consider the contextual senses of the original sentence (in the source language), in order to find the correct sense (in the target language) of the source word. In this paper we present a probabilistic model for bilingual WSD based on n-grams (2-grams, 3-grams, 5-grams and k-grams, for a sentence S of a length k). The aim is to analyze the behavior of the system with different representations of a given sentence containing an ambiguous word. We use a Naïve Bayes classifier for determining the probability of the target sense (in the target language) given a sentence which contains an ambiguous word (in the source language). For this purpose, we use a bilingual statistical dictionary, which is calculated with Giza++ by using the EUROPARL parallel corpus. On the average, the representation model based on 5-grams with mutual information demonstrated the best performance.
        Materias
        Keywords. Bilingual word sense disambiguation, machine translation, parallel corpus, Naïve Bayes classifier.

        Mostrar el registro completo del ítem


        Red de Repositorios Latinoamericanos
        + de 8.000.000 publicaciones disponibles
        500 instituciones participantes
        Dirección de Servicios de Información y Bibliotecas (SISIB)
        Universidad de Chile
        Ingreso Administradores
        Colecciones destacadas
        • Tesis latinoamericanas
        • Tesis argentinas
        • Tesis chilenas
        • Tesis peruanas
        Nuevas incorporaciones
        • Argentina
        • Brasil
        • Colombia
        • México
        Dirección de Servicios de Información y Bibliotecas (SISIB)
        Universidad de Chile
        Red de Repositorios Latinoamericanos | 2006-2018
         

        EXPLORAR POR

        Instituciones
        Fecha2011 - 20202001 - 20101951 - 20001901 - 19501800 - 1900

        Explorar en Red de Repositorios

        Países >
        Tipo de documento >
        Fecha de publicación >
        Instituciones >

        Red de Repositorios Latinoamericanos
        + de 8.000.000 publicaciones disponibles
        500 instituciones participantes
        Dirección de Servicios de Información y Bibliotecas (SISIB)
        Universidad de Chile
        Ingreso Administradores
        Colecciones destacadas
        • Tesis latinoamericanas
        • Tesis argentinas
        • Tesis chilenas
        • Tesis peruanas
        Nuevas incorporaciones
        • Argentina
        • Brasil
        • Colombia
        • México
        Dirección de Servicios de Información y Bibliotecas (SISIB)
        Universidad de Chile
        Red de Repositorios Latinoamericanos | 2006-2018