Método de aprendizaje automático desarrollado por investigadores de CMU ilumina aspectos fundamentales de la evolución

Un equipo de investigadores del Departamento de Biología Computacional de la Universidad Carnegie Mellon (CBD) ha desarrollado nuevos métodos para identificar partes del genoma críticas para comprender cómo evolucionaron ciertos rasgos de las especies.

El trabajo, publicado en Science(se abre en una ventana nueva) y dirigido por el profesor asistente de la Facultad de Informática Andreas Pfenning(se abre en una ventana nueva), contribuye al Proyecto Zoonomia(se abre en una ventana nueva), un esfuerzo por secuenciar los genomas completos de 240 mamíferos para arrojar luz sobre aspectos fundamentales de genes y rasgos con implicaciones importantes para proteger la salud humana y conservar la biodiversidad. Dar sentido a estos nuevos y grandes conjuntos de datos requiere lo último en tecnología de inteligencia artificial (IA) y aprendizaje automático (ML).

Ciertas partes del genoma conocidas como ADN codificante proporcionan instrucciones para producir proteínas, los reguladores indispensables de la función celular. Con el tiempo, surgen ligeras diferencias en las instrucciones que proporciona el ADN codificante para la producción de proteínas, convirtiéndose en una de las fuerzas impulsoras detrás de la evolución.

Sin embargo, estas piezas de ADN productoras de proteínas representan apenas el uno por ciento de los tres mil millones de pares de nucleótidos que componen el genoma humano. Otras regiones de ADN no codificantes, conocidas como potenciadores, determinan cuándo y dónde están activos genes específicos. El equipo de CMU creó un enfoque ML llamado Tissue-Aware Conservation Inference Toolkit (TACIT) para obtener más información sobre cómo funcionan estas áreas. Mientras que un modelo tradicional de evolución podría demostrar cambios en el tamaño del cerebro de una especie a través de un conjunto de mutaciones en un grupo de genes, los potenciadores pueden simplemente activar o desactivar genes y lograr el mismo resultado.

La mayor parte de la investigación sobre la evolución de los mamíferos se centra en las partes del genoma que han cambiado relativamente poco durante millones de años. Estas regiones conservadas, especialmente los genes, brindan información sobre elementos fundamentales en el ADN de los mamíferos que resaltan rasgos únicos en especies individuales.

El desafío para Pfenning y su equipo es que, con el tiempo, las regiones potenciadoras del ADN pueden cambiar de secuencia pero no de función. Por ejemplo, un potenciador Islet(opens in new window) bien estudiado regula los niveles de genes en patrones similares en humanos, ratones, peces cebra y esponjas, a pesar de más de 700 millones de años de evolución. Esto los hace mucho más difíciles de identificar y rastrear utilizando métodos tradicionales de examen de nucleótidos individuales.

TACIT enfrenta este problema al predecir con precisión si un potenciador estará activo en un tipo de célula o tejido en particular. Permite a los científicos identificar estas importantes regiones potenciadoras en un genoma recién secuenciado sin realizar un nuevo experimento de laboratorio, lo que ofrece posibles aplicaciones en biología de la conservación. El conjunto de herramientas puede hacer predicciones sobre cómo funcionan los potenciadores en especies amenazadas o en peligro de extinción, donde los experimentos de laboratorio controlados son imposibles.

"TACIT brinda una oportunidad sin precedentes para predecir la función de partes del genoma fuera de los genes en especies de las que no podemos obtener muestras de tejido primarias, como el delfín mular y el rinoceronte negro en peligro crítico", dijo Irene Kaplow, autora principal de el documento y un asociado postdoctoral y Lane Fellow en CBD. "A medida que mejoren los métodos de ML y los métodos para identificar potenciadores de tipos de células específicos, anticipo que podremos ampliar las funciones de TACIT para proporcionar nuevos tipos de información sobre la evolución de los mamíferos".

Después de predecir la función de las secuencias genómicas en los 240 mamíferos, el equipo de investigación aplicó TACIT para identificar las partes del genoma que han evolucionado en los mamíferos para cerebros más grandes y descubrió que tendían a estar cerca de los genes cuyas mutaciones se han implicado en el cerebro humano. trastornos de tamaño. También identificaron un potenciador asociado con el comportamiento social entre los mamíferos que es específico de un subtipo particular de neurona, la interneurona inhibidora positiva de parvalbúmina.

"Creemos que esto es solo la punta del iceberg", dijo Pfenning, autor principal del estudio. "Encontramos relaciones interesantes al aplicar TACIT a una pequeña cantidad de tejidos y una pequeña cantidad de rasgos, pero aún queda mucho más por descubrir".

Además de Pfenning y Kaplow, los autores principales del artículo incluyen a Alyssa Lawler, ex doctora en ciencias biológicas. estudiante ahora en el Broad Institute; y Daniel Schaffer, recién graduado del programa de pregrado de CBD. La coprimera autoría de Schaffer en esta publicación es una demostración significativa del plan de estudios innovador del programa de pregrado, que se enfoca en técnicas computacionales de vanguardia y enfatiza las oportunidades prácticas de investigación científica.

Para obtener más información sobre el Proyecto Zoonomía, visite su sitio web (se abre en una ventana nueva).

Por: Nombre Aaron Aupperlee

Noticias

Método de aprendizaje automático desarrollado por investigadores de CMU ilumina aspectos fundamentales de la evolución