Documento avaliado pelos pares
Compilação de um Córpus para Classificação Automática de Textos em Níveis Crescentes de Dificuldade
Autor
Paula Freddo Zanini
Arnaldo Candido Junior
Resumen
Para este trabalho ser executado foi necessário digitalizar o dicionário Caldas Aulete utilizando o OCR - Reconhecimento Ótico de Caracteres e, após revisá-lo extrair as partes principais para a pesquisa utilizando a linguagem de programação Python. Também foi feito um classificador de palavras fáceis e difíceis utilizando uma Lista de Frequências de Utilização das palavras. Posteriormente foi feito um crawler que extrai definições de palavras classificadas como difíceis no Wikipédia.