Otro
Development of algorithms to improve the technical efficiency of capturing, processing, and identification of EEG signals in the word imagery task
Autor
Villamizar Delgado, Sergio Iván
Institución
Resumen
A Brain-Computer Interface (BCI) system is a powerful tool that decodes signals from the brain and translates it into codes which are understood by software to perform a specific task. Through a BCI, a disabled person can communicate with the world using a speller or move a hook prosthesis just thinking in a movement or a word. Three main stages compose the BCI systems, the capturing data stage, the processing and decoding of the signals, and the translation of the features into a pattern for a control system. Among the possibilities offered by the market for a prosthesis, e.g., of the upper limb, the most popular is the electromyographic, which uses the muscles to control it. Also, there are the neuro-prosthesis that capture the brain activity by implanted sensors in the cortex through a chirurgical procedure. Finally, in a new growing research line, this research considering the ones which use the electroencephalography (EEG) technique to capture data from the mental tasks of people.
In this research, an improvement of the technical efficiency of the capture, processing, and identification process of the silent speech EEG signals of vowels, syllables, and words are presented. First, for the signal acquisition stage, novel locations for the electrodes are proposed to maximize the capturing of the brain signals due to the language process in contrast with the 10-20 system. For the second and third stages, four novel methodologies were implemented, each one with its pros and cons. However, considering the propose of scaling in future the method of an online application, only the third algorithm excels in skills like high discriminability, reliability in the prediction of labels, robustness facing noisy data and variability inter-subject, and low computational resources consumption to reduce the processing time.
For the preprocessing stage, a novel solution for the cleaning of artifacts is proposed, which is based on an algorithm called “Singular Vector Decomposition Multivariate Empirical Mode Decomposition” (SVD-MEMD), that uses the singular vector decomposition to project data into a new dimensional space and separate useful data from noise. The output of this stage is a cleaned signal matrix with the same dimensions as input which its significant power remains in the range of [18 Hz to 50 Hz]. The algorithm exhibits outstanding yields in front of noisy, non-linear, and non-stationary data. Also, in compassion with the MEMD, the computational costs are low, and the processing time is quick.
The main changes between proposed the first three algorithms fall into the feature extraction stage. The fourth methodology changes a little the conception of signals' analysis creating images from the captured data that then be classified. The first proposal methodology uses the singular vector decomposition technique to extracts the discriminative features which after are discriminated by an Extremely randomizes tree (ET) achieving an overall accuracy for five classes classifier of 0.79 ±0.07 using the Neurophysiology database - (NDB). The second algorithm uses a combination of non-parametric modeling called Multivariate Adaptive Regression Splines (MARS) with Maximum Relevance Minimum Common Redundancy (mRMR) dimensional reduction technique to obtain the features vectors which after are labeled by an Adaboost classifier getting an average accuracy score of 0.84±0.03 and 0.77±0.04 for the ET using the KARA ONE database in a five-class classifier.
The third proposal combines the Phase Locking Value (PLV) for feature extraction with the Linear Discriminant Analysis (LDA) for dimensional reduction technique to increase the discriminability. The algorithm uses the ET to classify data. The implementation of the third proposal delivers a light, adaptative, and flexible methodology, which accomplishes an average accuracy of 0.86±0.04 in a five classes classifier with low processing time using the December Database (DDB). The fourth methodology aims to combine in a pseudo-image spatial, frequency, and time information which after are discriminated using a convolutional neural network. The best person yields an average accuracy of 0.51 ±0.045 in a five-class classifier using as input the DDB database.
Considering the outstanding results of the third proposal, it was decided to codec it in a portable device. The FPGA board PYNQ-Z2 hosts the third algorithm which after several tests the methodology delivers a prediction in only 380 ms ± 9.69 ms per loop using the DDB database that has a sampling rate of 128 Hz and fourteen electrodes. Also, several testing trials were sent to the FPGA simulating the capture process, achieving high accuracy results. The before allows us to conclude that it is possible to implement an algorithm which discriminates EEG silent speech signals in portable hardware that allows us to achieve high processing speeds (around milliseconds in the first processing tests) without losing accuracy. Una interfaz cerebro-computadora (BCI) es una herramienta poderosa que decodifica las señales del cerebro y las traduce en códigos que el software entiende para realizar una tarea específica. A través de un BCI, una persona discapacitada puede comunicarse con el mundo usando un deletreador o mover una prótesis de gancho simplemente pensando en un movimiento o una palabra. Tres etapas principales componen los sistemas BCI, la etapa de captura de datos, el procesamiento y decodificación de las señales y la traducción de las características en un patrón para un sistema de control. Entre las posibilidades que ofrece el mercado para una prótesis, por ejemplo, de la extremidad superior, la más popular es la electromiográfica, que utiliza los músculos para controlarla. Además, existen las neuroprótesis que capturan la actividad cerebral mediante sensores implantados en la corteza a través de un procedimiento quirúrgico. Finalmente, en una nueva línea de investigación en crecimiento, esta investigación considera las que utilizan la técnica de electroencefalografía (EEG) para capturar datos de las tareas mentales de las personas.
En esta investigación, se presenta una mejora de la eficiencia técnica del proceso de captura, procesamiento e identificación de las señales EEG de voz silenciosa de vocales, sílabas y palabras. Primero, para la etapa de adquisición de señal, se proponen nuevas ubicaciones para los electrodos para maximizar la captura de las señales cerebrales debido al proceso del lenguaje en contraste con el sistema 10-20. Para la segunda y tercera etapa, se implementaron cuatro nuevas metodologías, cada una con sus pros y sus contras. Sin embargo, considerando la propuesta de escalar en el futuro el método de una aplicación en línea, solo el tercer algoritmo sobresale en habilidades como alta discriminabilidad, confiabilidad en la predicción de etiquetas, robustez frente a datos ruidosos y variabilidad entre sujetos, y bajo consumo de recursos computacionales para Reducir el tiempo de procesamiento.
Para la etapa de preprocesamiento, se propone una solución novedosa para la limpieza de artefactos, que se basa en un algoritmo llamado "Descomposición de vectores singulares Descomposición de modo empírico multivariante" (SVD-MEMD), que utiliza la descomposición de vectores singulares para proyectar datos en un nuevo espacio dimensional y separar datos útiles del ruido. La salida de esta etapa es una matriz de señal limpia con las mismas dimensiones que la entrada, cuya potencia significativa permanece en el rango de [18 Hz a 50 Hz]. El algoritmo exhibe rendimientos sobresalientes frente a datos ruidosos, no lineales y no estacionarios. Además, en compasión con el MEMD, los costos computacionales son bajos y el tiempo de procesamiento es rápido.
Los principales cambios entre los tres primeros algoritmos propuestos caen en la etapa de extracción de características. La cuarta metodología cambia un poco la concepción del análisis de señales creando imágenes a partir de los datos capturados que luego se clasifican. La metodología de la primera propuesta utiliza la técnica de descomposición vectorial singular para extraer las características discriminatorias que luego son discriminadas por un árbol extremadamente aleatorio (ET) logrando una precisión general para el clasificador de cinco clases de 0.79 ± 0.07 utilizando la base de datos de Neurofisiología - (NDB). El segundo algoritmo utiliza una combinación de modelado no paramétrico llamado Splines de regresión adaptativa multivariante (MARS) con la técnica de reducción dimensional de Máxima relevancia Mínima redundancia común (mRMR) para obtener los vectores de características que luego son etiquetados por un clasificador Adaboost obteniendo un puntaje de precisión promedio de 0.84 ± 0.03 y 0.77 ± 0.04 para el ET usando la base de datos KARA ONE en un clasificador de cinco clases.
La tercera propuesta combina el valor de bloqueo de fase (PLV) para la extracción de características con el análisis discriminante lineal (LDA) para la técnica de reducción dimensional para aumentar la discriminabilidad. El algoritmo usa el ET para clasificar los datos. La implementación de la tercera propuesta ofrece una metodología ligera, adaptativa y flexible, que logra una precisión promedio de 0.86 ± 0.04 en un clasificador de cinco clases con bajo tiempo de procesamiento utilizando la base de datos de diciembre (DDB). La cuarta metodología tiene como objetivo combinar en una pseudoimagen información espacial, de frecuencia y de tiempo que luego se discrimina utilizando una red neuronal convolucional. La mejor persona produce una precisión promedio de 0.51 ± 0.045 en un clasificador de cinco clases utilizando como entrada la base de datos DDB.
Teniendo en cuenta los excelentes resultados de la tercera propuesta, se decidió codificarlo en un dispositivo portátil. La placa FPGA PYNQ-Z2 aloja el tercer algoritmo que, después de varias pruebas, la metodología entrega una predicción en solo 380 ms ± 9.69 ms por bucle utilizando la base de datos DDB que tiene una frecuencia de muestreo de 128 Hz y catorce electrodos. Además, se enviaron varias pruebas de prueba al FPGA simulando el proceso de captura, logrando resultados de alta precisión. Lo anterior nos permite concluir que es posible implementar un algoritmo que discrimina las señales de voz silenciosa de EEG en hardware portátil que nos permite alcanzar altas velocidades de procesamiento (alrededor de milisegundos en las primeras pruebas de procesamiento) sin perder precisión