proyecto
Desarrollo de Modelos Predictivos Usando Machine Learning para la Toma de Decisiones en la Producción de Arándanos bajo Condiciones Actuales y Proyectadas de Cambio Climático
Registro en:
17COTE-83081
2017-83081-INNOVA_PRODUCCION
Autor
Juan Martinez F.
Hortifrut S. A.
Institución
Resumen
1. Recolección y Preprocesamiento de Datos para el Desarrollo del Sistema Predictivo: en la Actualidad Hortifrut Cuenta con Seis Localidades con Cultivos de Arándanos de la Variedad Rocío. Estas Localidades Son: Vicuña Putaendo los Ángeles Perú México y España. En Cada una de Estas Localidades se Cuenta con un Registro Automático de un Conjunto de Variables Ambientales/climáticas (ver Metodología para Más Detalles) como También Registros Históricos de Resultados de los Cultivos Como: Calidad Rendimiento y Tiempo de Cosecha entre Otras. Para Cumplir este Objetivo se Recolectarán Integrarán y Preprocesarán Todos los Datos Relevantes para este Proyecto y que Serán de Insumo para los Siguientes Objetivos de este Proyecto. Adicionalmente se Realizarán Análisis de Patrones Moleculares y de Expresión de Genes en las Plantas que No Son Colectados Actualmente por la Empresa y que Pueden Ser Utilizados como Marcadores Predictivos de Cambios (ej. Cambio a Etapa Reproductiva Inicio de Floración Etc. ) Actualmente la Información de Monitoreo de Cada una de las Localidades Mencionadas Anteriormente se Maneja en Forma Independiente por lo que se Tendrá que Definir un Procedimiento de Integración de Todos Estos Datos en un Único Repositorio para Luego Realizar un Análisis de Calidad y Completitud de Estos como También Ejecutar Técnicas de Preprocesamiento de Datos para Solucionar Potenciales Problemas como Datos Faltantes Datos Anómalos (outliers) Formatos Diferentes para Registro de la Misma Variable entre las Distintas Localidades Captura de Datos a Distintos Tiempos (frecuencia) por Mencionar Algunos. 2. Exploración y Análisis de Datos para Identificar Relaciones entre Variables: este Proyecto es Intensivo en el Uso de Datos por lo Tanto Previo a la Construcción de los Modelos Predictivos se Debe Realizar una Correcta Exploración y Análisis de Estos. Gran Parte del Éxito de este Proyecto Recae en este Objetivo Específico. Basados en los Datos Identificados y Recolectados en el Objetivo Anterior se Deberá Analizar el Comportamiento de Cada Variable de Forma Individual como También en Grupos mediante el Uso de Técnicas Estadísticas (más Detalle en la Sección de Metodología). Para este Objetivo También se Espera Poder Identificar Patrones (comportamientos Similares entre Diferentes Registros de Datos). Más Aún Tal como se Describió en el Objetivo Anterior los Datos a Considerar Provienen de Diversas Localidades por lo Tanto es de Interés Lograr Identificar de Manera Multivariada Si Existen Comportamientos Similares entre las Diferentes Zonas donde se Cultiva la Variedad de Arándano a Considerar en este Proyecto. Para Identificar Patrones se Realizará Análisis de Clustering. Las Técnicas a Considerar Funcionan de Manera Inteligente Usando Algoritmos de Aprendizaje No Supervisados en donde las Reglas para Identificar los Clusters (grupos) No Son Impuestos por Humanos Si No que se Obtienen de Forma Automática. De Esta Manera se Podrá Identificar Cómo se Agrupan de Forma Natural los Datos. Esto Permitirá Identificar Qué Variables Tienen Mayor Poder Discriminatorio entre las Diferentes Localidades y que Luego Serán de Utilidad para la Construcción de Modelos Predictivos en el Siguiente Objetivo. Es Importante Destacar que este Segundo Objetivo Tendrá una Interacción Continua con el Objetivo Anterior. En Particular Basados en los Resultados Obtenidos durante la Exploración y Análisis de Datos es Posible que se Tenga que Recurrir al Primer Objetivo para Considerar Nuevas Variables o la Construcción de Nuevas Variables a Partir de Variables Existentes que Pudie 3. Construcción de Modelos Predictivos en Base a Machine Learning: este Representa un Objetivo Central en el Proyecto. Con este Objetivo Hortifrut Pretende Acercarse al Paradigma Denominado Industria Inteligente. Nuestra Empresa ya ha Realizado Esfuerzos por Incorporar Tecnologías de Agricultura de Precisión. Ahora se Espera Ir un Paso Más Allá y Poder Utilizar los Datos Levantados de Forma Automática mediante Sensores para la Construcción de Modelos Inteligentes que Sirvan para la Toma de Decisiones. En Concreto Basados en las Variables Analizadas en el Objetivo Anterior se Construirá Modelos Predictivos Usando una Sub-área de la Inteligencia Artificial Llamada Machine Learning que Consiste en Programas Computacionales que Tienen la Capacidad de Aprender Automáticamente Patrones de los Datos con Fines Predictivos mediante la Construcción de Modelos Matemáticos/computacionales que Combinan las Variables del Problema de Forma Lineal y No-lineal Logrando Modelos de Gran Poder de Generalización (predicciones Futuras). Durante este Objetivo se Considerarán Diversos Modelos Predictivos Tales Como: Random Weights Neural Networks (por Ejemplo: Extreme Learning Machines (elm)) [henríquez &,amp, Ruz 2017] Support Vector Machines (svm)[ruz Et Al. 2009] y Random Forests (rf)[valle &,amp, Ruz 2015]. Estos Permiten la Predicción de Respuestas en Plantas ante Condiciones Ambientales No Evaluadas como También Poder Identificar Cómo Interactúan las Variables y Cuáles Son las Más Relevantes Frente a Diferentes Condiciones Ambientales. También se Explorará la Posibilidad de Generar Ensambles de Modelos o Técnicas Híbridas en donde se Combine un Modelo con Otro o un Conjunto de Modelos para Mejorar el Poder Predictivo. Un Aspecto Importante a Definir durante la Ejecución de este Objetivo es el Tipo de Predicciones Deseadas I. E. Si la Variable a Predecir es de Tipo Categórica o Continua como También Qué Nivel de Ventana de Tiempo se Requiere para Dicha Predicci 4. Construcción de Subestaciones Climáticas para la Validación de Modelos y Generación de Nuevos Patrones de Entrenamiento: se Construirán 2 Subestaciones Climáticas (en Containers) en donde se Cultivarán Plantas de Arándanos Controlando Variables Ambientales y de Esa Forma Simular y Ver el Efecto en las Plantas de las Diferentes Condiciones Climáticas. Como Variables de Salida se Medirán en las Plantas Variables Morfológicas de Rendimiento y se Realizarán Análisis de Patrones Moleculares y de Expresión de Genes en las Plantas que No Son Colectados Actualmente por la Empresa y que Pueden Ser Utilizados como Marcadores Predictivos de Cambios Fisiológicos (ej. Cambio a Etapa Reproductiva Inicio de Floración Etc. ). Los Miembros de la E+i+d Participantes en este Proyecto Tienen Vasta Experiencia en el Estudio de este Tipo de Variables. Este Objetivo Cumple una Doble Función Muy Relevante para el Proyecto. Primero Servirá para Validar las Predicciones Realizadas por los Modelos. Si Bien en el Objetivo Anterior se Realizará una Validación con Datos Históricos la Construcción de las Subestaciones Permitirá Comparar los Resultados de los Modelos Predictivos Usando como Entrada los Valores de las Variables Controladas por la Estación y de Esa Forma Ver los Resultados de las Plantas en las Subestaciones versus lo que Predice Él o los Modelos. Segundo los Modelos Predictivos Basados en Machine Learning Deben Ser Entrenados o Construidos Usando Datos Históricos en donde se Tiene Conocimiento de Cuál Fue el Resultado Frente a Valores Ambientales Previos. Esto se Conoce como Patrones de Entrenamiento que Consisten en Pares Entrada-salida I. E. Dado un Vector de Entrada que Contiene la Configuración de Valores de las Variables Ambientales se Tiene cual Fue el Resultado. Evidentemente Estos Modelos Predictivos de Machine Learning Tienen la Capacidad de Adaptación y por lo Tanto No se Trata de que Sólo Sean Capaces de Realizar Predicciones sobre Vectores de Entrada que Haya 5. Desarrollo de una Plataforma Web para Visualizar Resultados del Sistema Predictivo: la Última Etapa del Proyecto una Vez Validados los Modelos es la Visualización de los Resultados de Forma Efectiva Clara y Consistente. Esta Visualización Deberá Ser Capaz de Entregar el Monitoreo de las Variables Más Relevantes como También los Resultados Predictivos. Una Forma Efectiva de Reportar Estos Resultados es Vía Internet en donde se Podrá Obtener la Información Relevante ya Sea en los Computadores de las Oficinas de Hortifrut para los Tomadores de Decisiones Estratégicos de la Compañía como También en Terreno Vía Dispositivos Móviles (celular Tablet Etc. ) para los Profesionales Más Técnicos que Requieran Realizar Acciones Correctivas Frente a Condiciones Climáticas Cambiantes. Un Aspecto Relevante de Esta Página Web es que Tendrá que Reportar Valores en Línea o lo Más Cercano a Tiempo Real de Manera Automatizada y de Esta Forma Asegurar que el Sistema Entregue Resultados Todo el Tiempo I. E. Las 24 Horas al Día los 7 Días de la Semana durante Todo el Año. También Deberá Cumplir la Función de Ser de Fácil Edición para que Pueda Ser Adaptada Según los Requerimientos Técnicos y de Negocios que Puedan Ir Surgiendo de Esa Forma se Podrá Ir Incorporando Nuevas Variables en la Visualización como También Eliminar Aquellas que Hayan Perdido su Nivel de Relevancia. La Página Web Puede Estar Hospedada Directamente en la Página de Hortifrut o se Puede Generar un Nuevo Sitio con Dedicación Exclusiva a este Sistema de Entrega de Información e Predicción. Desarrollar y Validar un Sistema Automático para Predecir Calidad y Tiempo de Cosecha de Arándanos en Base a Herramientas de Machine Learning Utilizando como Modelo la Variedad Rocío. Debido a los Efectos ya Demostrados y Potenciales del Cambio Climático se Vuelve Crítico Identificar Opciones para Mitigar sus Impactos en las Próximas Décadas. Se Proyectan Aumentos de Temperatura a Nivel Global (2 a 7 Grados para el Final de este Siglo) Sequías Cambios en los Patrones de Precipitación y Aumentos en los Niveles de Co2 Atmosféricos Todos Cambios Ambientales que Pueden Afectar Positiva o Negativamente el Rendimiento de Cultivos. Chile es un País Especialmente Vulnerable a Cambios en Patrones Climáticos. Sin Embargo los Estudios que Abordan este Tema No Permiten Tomar Decisiones a Nivel Local. Aunque Existen Muchos Estudios sobre Cultivos No Necesariamente Son Relevantes en la Agricultura Nacional y Adicionalmente No se Analizan los Efectos Combinados de Distintos Estresores Ambientales. En este Proyecto se Utilizarán Sensores Remotos para Colectar las Variaciones en Diversas Variables Ambientales en Distintas Localidades donde la Empresa Actualmente Cultiva Plantas de Arándano (vicuña Putaendo los Ángeles Perú México y España) y se Realizará una Evaluación Continua de Plantas (datos Fisiológicos y Moleculares) de la Variedad Rocío. Estos Datos se Usarán para Entrenar y Desarrollar Modelos Matemáticos Predictivos (usando Herramientas de Machine Learning) los Cuales Permitirán la Predicción de Respuestas en Plantas ante Distintas Condiciones Ambientales como También Estudiar la Interacción y Relevancia de las Diferentes Variables. Una Vez Obtenidos Estos Modelos se Implementarán Dos Estaciones Experimentales que Permitan Variar Ambientalmente las Condiciones de Cultivo lo que Cumplirá Dos Propósitos: (1) Permitirá Validar los Modelos Obtenidos en Condiciones Ambientales Controladas y (2) Permitirá Someter a las Plantas a Condiciones Ambientales Más Extremas Data($response1/descripcindelproyecto/value) Corporación de Fomento de la Producción