Objeto de conferencia
Factores que afectan el consumo energético de operaciones de checkpoint y restart en clusters
Registro en:
isbn:978-950-658-472-6
Autor
Morán, Marina
Balladini, Javier
Rexachs del Rosario, Dolores
Luque Fadón, Emilio
Institución
Resumen
El método de tolerancia a fallos mas usado actualmente en Cómputo de Altas Prestaciones es el de rollback-recovery mediante el uso de checkpoints. Éste, como cualquier otro método de tolerancia a fallos, agrega un consumo energético adicional al propio de la ejecución de la aplicación. El objetivo de este trabajo es determinar los factores que afectan el consumo energético de los nodos de cómputo de un cluster homogéneo, al ejecutar operaciones de checkpoint y restart, sobre aplicaciones SPMD (Single Program Múltiple Data). Nos hemos enfocado en el estudio energético de nodos de cómputo, contemplando diferentes configuraciones de parámetros de hardware y software. Se estudió el efecto de los estados de rendimiento (estados P) y potencia (estados C) de los procesadores, el tamaño del problema de la aplicación, la configuración del software de checkpoint utilizado (DMTCP), y del sistema de archivos distribuido (NFS). El análisis de los resultados permitió identificar oportunidades que permiten disminuir el consumo energético de las operaciones de checkpoint y restart. XIX Workshop Procesamiento Distribuido y Paralelo (WPDP) Red de Universidades con Carreras en Informática (RedUNCI)