Trabajo de grado - Pregrado
Rogue one : a legitimacy story
Fecha
2020Registro en:
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
Autor
Chacón Buitrago, Valentina
Institución
Resumen
The increasing changes in the interaction and activities available in the internet, continuously introduce privacy concerns regarding online presence. The way companies deal with these concerns is by including privacy policies in their websites. Nonetheless, these policies have some problems. The vocabulary used in the documents is not clear for all users, legal terms are difficult to understand and can be up to 8 pages long meaning that these policies are not accessible and therefore fail to inform users effectively. Studies show that it would take an average person about 200 hours a year to actually read the policy for every unique website visited in a year, not to mention the updated version of policies for sites visited on a repeated basis. Accessing web pages while ignoring privacy policies exposes users to risks regarding the handling of their personal information and the legitimacy of the services offered by web sites. To prevent users from disclosing their private information indiscriminately and reduce the time and effort involved in reading a privacy policy this project develops a model that discloses whether a website is legit or rogue based on the contents of its privacy policy with a 93.2% accuracy. This task falls at the crossroads of Information Retrieval, Natural Language Processing and Supervised Machine Learning algorithms. The project takes a top down approach as the experiments are designed to reduce the number of viable classifiers and configurations at each step, therefore reducing the search space for the setup with highest classification accuracy. There are two stages of experimentation with three experiments in total in which we identify the configuration that provides the best classification accuracy. Los crecientes cambios en la interacción y las actividades disponibles en Internet introducen continuamente preocupaciones de privacidad con respecto a la presencia en línea. La forma en que las empresas abordan estas preocupaciones es mediante la inclusión de políticas de privacidad en sus sitios web. No obstante, estas políticas tienen algunos problemas. El vocabulario utilizado en los documentos no está claro para todos los usuarios, los términos legales son difíciles de entender y pueden tener hasta 8 páginas, lo que significa que estas políticas no son accesibles y, por lo tanto, no informan a los usuarios de manera efectiva. Los estudios muestran que a una persona promedio le tomaría aproximadamente 200 horas al año leer la política de cada sitio web único visitado en un año, sin mencionar la versión actualizada de las políticas para los sitios visitados de forma repetida. Acceder a páginas web ignorando las políticas de privacidad expone a los usuarios a riesgos relacionados con el manejo de su información personal y la legitimidad de los servicios ofrecidos por los sitios web. Para evitar que los usuarios divulguen su información privada de forma indiscriminada y reducir el tiempo y el esfuerzo que implica leer una política de privacidad, este proyecto desarrolla un modelo que revela si un sitio web es legítimo o deshonesto según el contenido de su política de privacidad con una precisión del 93,2%. Esta tarea se desarrolla con manejo de datos, procesamiento del lenguaje natural y aprendizaje automático supervisado. El proyecto adopta un enfoque de top-down, ya que los experimentos están diseñados para reducir la cantidad de clasificadores y configuraciones viables en cada paso, reduciendo así el espacio de búsqueda para la configuración con la mayor precisión de clasificación. Hay dos etapas de experimentación con tres experimentos en total en los que identificamos la configuración que proporciona la mejor precisión de clasificación.