info:eu-repo/semantics/other
Predicción de precios de arriendos de viviendas en la ciudad de Medellín en base a información recolectada a través de Web Scraping
Autor
Arboleda Castañeda, Walter
Institución
Resumen
RESUMEN : Con el fin de aumentar la oferta de sistemas predictores para las empresas se crea un modelo que permite estimar el precio de arriendo de viviendas (casas y apartamentos) en la ciudad de Medellín Colombia. El desarrollo es realizado en dos etapas, la primera consta de crear un script que permita recolectar la información a través de web scraping y que este sea diseñado de manera que facilite su ejecución automática y periódica. La segunda etapa consta de crear un modelo de regresión evaluado en diferentes zonas de la ciudad que evidencie dónde es más conveniente su implementación. Esta decisión se toma en base a la siguiente métrica propuesta por el negocio: “El modelo es implementable en una zona si el MAPE es menor o igual a 15%”. El modelo es el resultado de siete iteraciones siendo la primera la línea base de la solución y la séptima la implementación de un modelo auxiliar de clustering que permite dividir el conjunto de entrenamiento y así ejecutar un modelo de regresión por cada clúster resultante. Esto le otorga al negocio una estrategia de desarrollar múltiples modelos de regresión, cada uno con la métrica buscada cuyo filtro o zona de ejecución será determinada por un modelo de clasificación. ABSTRACT : In order to increase the supply of predictive systems for companies, a model is created to estimate the rental price of homes (houses and apartments) in the city of Medellín Col. The development is carried out in two stages, the first one consists of creating a script that allows the collection of information through web scraping and this is designed in a way that facilitates its automatic and periodic execution. The second stage consists of creating a regression model evaluated in different areas of the city that shows where its implementation is most convenient. This decision is made based on the following metric proposed by the business: "The model is implementable in an area if the MAPE is less than or equal to 15%". The model is the result of 7 iterations, the first being the baseline of the solution and the seventh, the implementation of an auxiliary clustering model that allows dividing the training set and thus running a regression model for each resulting cluster. This gives to the business a strategy of developing multiple regression models, each one with the searched metric whose filter or execution zone will be determined by a classification model.