Resolver la dinámica cerebral da lugar a una máquina flexible

Imagen anterior Imagen siguiente

El año pasado, los investigadores del MIT anunciaron que habían construido redes neuronales "líquidas", inspiradas en los cerebros de especies pequeñas: una clase de modelos de aprendizaje automático robustos y flexibles que aprenden en el trabajo y pueden adaptarse a condiciones cambiantes, para la seguridad del mundo real. -tareas críticas, como conducir y volar. La flexibilidad de estas redes neuronales "líquidas" significó impulsar el linaje de nuestro mundo conectado, lo que permitió una mejor toma de decisiones para muchas tareas que involucran datos de series temporales, como el monitoreo del cerebro y el corazón, el pronóstico del tiempo y el precio de las acciones.

Pero estos modelos se vuelven computacionalmente costosos a medida que aumenta su número de neuronas y sinapsis y requieren programas informáticos torpes para resolver sus complicadas matemáticas subyacentes. Y toda esta matemática, similar a muchos fenómenos físicos, se vuelve más difícil de resolver con el tamaño, lo que significa calcular muchos pasos pequeños para llegar a una solución.

Ahora, el mismo equipo de científicos ha descubierto una forma de aliviar este cuello de botella resolviendo la ecuación diferencial detrás de la interacción de dos neuronas a través de sinapsis para desbloquear un nuevo tipo de algoritmos de inteligencia artificial rápidos y eficientes. Estos modos tienen las mismas características de las redes neuronales líquidas (flexibles, causales, robustas y explicables), pero son órdenes de magnitud más rápidos y escalables. Por lo tanto, este tipo de red neuronal podría usarse para cualquier tarea que implique obtener información sobre los datos a lo largo del tiempo, ya que son compactos y adaptables incluso después del entrenamiento, mientras que muchos modelos tradicionales son fijos. No ha habido una solución conocida desde 1907, el año en que se introdujo la ecuación diferencial del modelo neuronal.

Los modelos, denominados red neuronal de "tiempo continuo de forma cerrada" (CfC), superaron a sus contrapartes de última generación en una serie de tareas, con aceleraciones y rendimiento considerablemente más altos en el reconocimiento de actividades humanas a partir de sensores de movimiento, modelado físico dinámica de un robot caminante simulado y procesamiento secuencial de imágenes basado en eventos. En una tarea de predicción médica, por ejemplo, los nuevos modelos fueron 220 veces más rápidos en una muestra de 8000 pacientes.

Un nuevo artículo sobre el trabajo se publica hoy en Nature Machine Intelligence.

"Los nuevos modelos de aprendizaje automático que llamamos 'CfC' reemplazan la ecuación diferencial que define el cálculo de la neurona con una aproximación de forma cerrada, conservando las hermosas propiedades de las redes líquidas sin necesidad de integración numérica", dice la profesora del MIT Daniela Rus, directora del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y autor principal del nuevo artículo. "Los modelos CfC son causales, compactos, explicables y eficientes para entrenar y predecir. Abren el camino hacia el aprendizaje automático confiable para aplicaciones críticas para la seguridad".

Mantener las cosas líquidas

Las ecuaciones diferenciales nos permiten calcular el estado del mundo o un fenómeno a medida que evoluciona, pero no a lo largo del tiempo, solo paso a paso. Para modelar los fenómenos naturales a lo largo del tiempo y comprender el comportamiento anterior y futuro, como el reconocimiento de la actividad humana o la trayectoria de un robot, por ejemplo, el equipo buscó en una bolsa de trucos matemáticos para encontrar el boleto: una solución de "forma cerrada" que modela el descripción completa de un sistema completo, en un solo paso de cálculo.

Con sus modelos, uno puede calcular esta ecuación en cualquier momento en el futuro y en cualquier momento en el pasado. No solo eso, sino que la velocidad de cálculo es mucho más rápida porque no necesita resolver la ecuación diferencial paso a paso.

Imagine una red neuronal de extremo a extremo que recibe información de conducción de una cámara montada en un automóvil. La red está entrenada para generar resultados, como el ángulo de dirección del automóvil. En 2020, el equipo resolvió esto utilizando redes neuronales líquidas con 19 nodos, por lo que 19 neuronas más un pequeño módulo de percepción podrían conducir un automóvil. Una ecuación diferencial describe cada nodo de ese sistema. Con la solución de forma cerrada, si la reemplaza dentro de esta red, le daría el comportamiento exacto, ya que es una buena aproximación de la dinámica real del sistema. Por lo tanto, pueden resolver el problema con un número aún menor de neuronas, lo que significa que sería más rápido y menos costoso computacionalmente.

Estos modelos pueden recibir entradas como series de tiempo (eventos que ocurrieron en el tiempo), que podrían usarse para clasificar, controlar un automóvil, mover un robot humanoide o pronosticar eventos financieros y médicos. Con todos estos diversos modos, también puede aumentar la precisión, la solidez y el rendimiento y, lo que es más importante, la velocidad de cálculo, que a veces se presenta como una compensación.

Resolver esta ecuación tiene implicaciones de gran alcance para el avance de la investigación en sistemas de inteligencia tanto naturales como artificiales. "Cuando tenemos una descripción de forma cerrada de la comunicación de las neuronas y las sinapsis, podemos construir modelos computacionales de cerebros con miles de millones de células, una capacidad que no es posible hoy en día debido a la alta complejidad computacional de los modelos de neurociencia. La ecuación de forma cerrada podría facilitar tales simulaciones de gran nivel y, por lo tanto, abre nuevas vías de investigación para que comprendamos la inteligencia", dice Ramin Hasani, afiliado de investigación de MIT CSAIL, primer autor del nuevo artículo.

Aprendizaje portátil

Además, existe evidencia temprana de modelos Liquid CfC en el aprendizaje de tareas en un entorno a partir de entradas visuales y la transferencia de sus habilidades aprendidas a un entorno completamente nuevo sin capacitación adicional. Esto se llama generalización fuera de distribución, que es uno de los desafíos abiertos más fundamentales de la investigación de inteligencia artificial.

"Los sistemas de redes neuronales basados en ecuaciones diferenciales son difíciles de resolver y escalar a, digamos, millones y miles de millones de parámetros. Obtener esa descripción de cómo las neuronas interactúan entre sí, no solo el umbral, sino resolver la dinámica física entre las células nos permite construir redes neuronales a mayor escala", dice Hasani. "Este marco puede ayudar a resolver tareas de aprendizaje automático más complejas, lo que permite una mejor representación del aprendizaje, y debería ser el componente básico de cualquier futuro sistema de inteligencia integrada". compuesto por sistemas dinámicos específicos que representan estados latentes infinitos en lugar de pilas explícitas de capas", dice Sildomar Monteiro, líder del Grupo de Aprendizaje Automático e IA en Aurora Flight Sciences, una compañía de Boeing, que no participó en este artículo. "Estos modelos definidos implícitamente han mostrado un rendimiento de vanguardia y requieren muchos menos parámetros que las arquitecturas convencionales. Sin embargo, su adopción práctica se ha visto limitada debido al alto costo computacional requerido para el entrenamiento y la inferencia". Agrega que este documento "muestra una mejora significativa en la eficiencia de cómputo para esta clase de redes neuronales... [y] tiene el potencial de permitir una gama más amplia de aplicaciones prácticas relevantes para los sistemas comerciales y de defensa críticos para la seguridad".

Hasani y Mathias Lechner, un postdoctorado en MIT CSAIL, escribieron el artículo supervisado por Rus, junto con MIT Alexander Amini, un postdoctorado en CSAIL; Lucas Liebenwein SM '18, PhD '21; Aaron Ray, estudiante de doctorado en ingeniería eléctrica e informática del MIT y afiliado a CSAIL; Max Tschaikowski, profesor asociado de informática en la Universidad de Aalborg en Dinamarca; y Gerald Teschl, profesor de matemáticas en la Universidad de Viena.

El afiliado de investigación Ramin Hasani habla con Kimberly Adams de Marketplace sobre cómo él y sus colegas de CSAIL resolvieron una ecuación diferencial que data de principios del siglo XX, lo que permite a los investigadores crear un algoritmo de IA que puede aprender en el momento y adaptarse a patrones en evolución. El nuevo algoritmo "permitirá simulaciones cerebrales a mayor escala", explica Hasani.

Elemento anterior Elemento siguiente

Mantener las cosas líquidas Aprendizaje portátil

Blog

Resolver la dinámica cerebral da lugar a una máquina flexible