bachelorThesis
Análisis de las técnicas de Web Scraping en la recolección de datos de sitios Web para determinar su efectividad y nivel de seguridad.
Fecha
2022-09Autor
Álvarez Pesantes, Xavier Alejandro
Lastre Baquerizo, David Jamil
Institución
Resumen
El presente trabajo de investigación fue realizado con el objetivo de evaluar las técnicas que se utilizan en la extracción de datos de sitios web para evaluar su efectividad y nivel de seguridad. El proceso de extraer datos en línea de un sitio web de forma automática es conocido como Web Scraping o raspado Web, el cual puede ser realizado de forma independiente mediante herramientas de pago, a través de un programa particular o mediante una API. Por lo general, los sitios que tienen controles de seguridad ponen a disposición interfaces de programación de aplicaciones o APIs para que los visitantes o internautas puedan extraer cierta información de forma legal y bajo ciertas restricciones. Como parte del proceso de evaluación de las técnicas, se desarrollaron tres programas de web scraping. Dos de los tres programas se crearon sin el uso de APIs y se utilizaron para para captar las noticias de un diario en determinadas fechas y para extraer datos de un sitio web que muestra datos de diversas casas de mercado de valores de España. El tercer programa fue desarrollado incorporando el uso de una API de un sitio web de música con el cual se pudo obtener una lista de reproducción. La metodología de investigación utilizada para la elaboración de este proyecto fue de tipo descriptiva explicativa debido a que se realiza el estudio de un tema en particular con el fin de conocer sus características y forma de funcionamiento. Las herramientas de softwares utilizadas fueron Python y Javascript debido a su flexibilidad, facilidad de comprensión y codificación. Como resultado de la investigación, se pudo extraer datos y obtener una buena valoración de la aplicación de las técnicas de raspado web. The present research work was carried out with the objective of evaluating the techniques used in the extraction of data from websites to evaluate their effectiveness and level of security. The process of automatically extracting online data from a website is known as Web Scraping, which can be done independently through paid tools, through a particular program or through an API. In general, sites that have security controls make available application programming interfaces or APIs so that visitors or Internet users can extract certain information legally and under certain restrictions. As part of the evaluation process of the techniques, three web scraping programs are developed. Two of the three programs were created without the use of APIs and were used to capture the news of a newspaper on certain dates and to extract data from a website that shows data from various stock market houses in Spain. The third program was developed incorporating the use of an API from a music website with which a playlist could be obtained. The research methodology used for the elaboration of this project was of an explanatory descriptive type because the study of a particular topic is carried out in order to know its characteristics and form of operation. The software tool used was Python due to its flexibility, ease of understanding and coding. As a result of the investigation, it was possible to extract data and obtain a good assessment of the application of web scraping techniques.