Multi-GPU distribution of single-batch, time-dependent linear products

Margffoy Tuay, Edgar Andrés

Trabajo de grado - Maestría

Fecha

2020

Registro en:

http://hdl.handle.net/1992/48619

instname:Universidad de los Andes

reponame:Repositorio Institucional Séneca

repourl:https://repositorio.uniandes.edu.co/

Autor

Margffoy Tuay, Edgar Andrés

Institución

Universidad de los Andes (Colombia)

Resumen

Modern approaches to distributed deep learning focus on using more GPU nodes to process more data in parallel, updating the model weights using a distributed gradient update rule across all nodes. The main limitation of this paradigm is that it assumes that at least one sample of data can fit in a single node. However, that does not hold when dealing with large inputs or, when GPU infrastructure does not have enough memory. In this paper, we propose a new operator-level distribution approach, tailored to the aforementioned cases in which, we distribute a single input of data across multiple GPU nodes, taking into account the operators involved in a given model. By distributing the original input, we are able to reduce the space complexity of each node, thus enabling multiple GPUs to process inputs that could not fit in a single node. We validate our approach by distributing the dot product attention, a fundamental operation in modern sequence-to-sequence architectures

Los enfoques tradicionales al entrenamiento distribuidos de aprendizaje profundo parten del principio que al menos una instancia de entrada cabe en la memoria de un solo nodo CPU/GPU. Sin embargo, fallan al momento en el que la entrada no cabe en memoria, debido al tamaño del modelo o la misma entrada. En este trabajo, se propone un nuevo enfoque para distribuir modelos de aprendizaje profundo, basado en la distribución de operadores, la cual consiste en realizar una partición de la entrada, la cual se distribuye a través de múltiples GPUs, teniendo en cuenta los operadores involucrados. El paradigma propuesto habilita el entrenamiento de modelos que cuentan con restricciones de espacio. Validamos la propuesta al distribuir los productos lineales involucrados en la atención por producto punto, una operación fundamental en las arquitecturas modernas de sequencia a sequencia

Materias

Mostrar el registro completo del ítem