Tesis
Recuperación de información bilingüe
Date
2016Author
Támara López, Daniel Enrique
Institutions
Abstract
En esta tesis se presenta un método para la recuperación de información bilingüe basado en la descomposición matricial semidiscreta (SDD). Se desarrollan cuatro casos de estudio que exhiben el rendimiento de usar Latent Semantic Indexing (LSI) vía SDD para la recuperación de información entre lenguajes (CLIR). Paralelamente se confrontan estos resultados con los obtenidos al aplicar LSI vía descomposición en valores singulares (SVD). Dos idiomas (inglés y español) son combinados agregando una pequeña parte de documentos en un idioma en el correspondiente documento del otro idioma. Las rutinas empleadas para aplicar y comparar los métodos son propias y se implementaron en MATLAB Abstract : This thesis presents a method for the recovery of bilingual information based in Semidiscrete Matrix Decomposition (SDD). Four cases studies that exhibit the performance of use LSI via SDD for cross-language information retrieval (CLIR) are displayed. Concurrently these results are compared with those obtained by applying LSI via singular value decomposition (SVD). Two languages (english and spanish) are combined by adding a small portion of documents in a language to the corresponding document in the other language. The routines used to implement and compare methods are proper and implemented in MATLAB