Ep. 15: El Nacimiento de la Atención

17 min · 30 de abr de 2026

Descripción

Hoy tocamos uno de los papers más importantes de toda la lista. No el más famoso (ese es "Attention is All You Need"), pero sí el que lo hizo posible. En 2014, Dzmitry Bahdanau, Kyunghyun Cho y Yoshua Bengio publicaron un trabajo que parecía una mejora técnica en traducción automática, pero que en realidad contenía una idea que cambiaría todo: el mecanismo de atención. Si "Attention is All You Need" fue la explosión nuclear, este paper fue quien sintetizó el uranio.

Comentarios

Sé la primera persona en comentar

¡Regístrate ahora y forma parte de la comunidad de Variabilis!

Prueba gratis

Todos los episodios

19 episodios

Ep. 19: El Autómata del Café - Midiendo la Complejidad que Nace y Muere

Este episodio es el segundo paper de carácter más filosófico en la lista de Sutskever, el primero fue "The First Law of Complexodynamics" en el episodio 1. De hecho, este paper es una versión matemática y empírica de esa misma pregunta. La pregunta: ¿por qué la complejidad del universo, y de los sistemas físicos en general, sube primero y luego baja? ¿Por qué hay una época de galaxias, vida y estructuras interesantes, en lugar de ser siempre simple o siempre caótico? Y la respuesta propuesta se llama apparent complexity (complejidad aparente), medida usando Kolmogorov complexity y un experimento simple pero profundo: una taza de café con leche.

26 de may de 202616 min

Ep 18: Relational Memory Core - Cuando la Memoria Necesita Razonar

Este episodio planteamos la siguiente pregunta: ¿qué pasa si no solo necesitamos razonar sobre relaciones en un instante, sino que necesitamos recordar relaciones a lo largo del tiempo? Las LSTMs son excelentes para recordar. Los Relation Networks son excelentes para razonar. ¿Qué pasa si combines ambos? Ese es el Relational Memory Core (RMC).

20 de may de 202624 min

Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa

Hoy entramos al mundo de los modelos generativos: sistemas que no solo clasifican datos, sino que aprenden a generar datos nuevos como imágenes, texto, audio. "Variational Lossy Autoencoder"Por Chen, Kingma, Salimans, Duan, Dhariwal, Schulman, Sutskever y Abbeel (2016) Este paper es denso conceptualmente, pero contiene una idea elegante y muy práctica: ¿cómo fuerzas a una red neuronal a aprender una representación que capture solo la estructura global de los datos, descartando los detalles irrelevantes como textura o ruido? La respuesta involucra combinar dos tipos de modelos poderosos; el VAE y los modelos autorregresivos, de una manera que controla qué tipo de información aprende a comprimir cada uno.

12 de may de 202623 min

Ep. 16: ResNet v2 — ¿Por Qué Importa Dónde Pones el ReLU?

Este episodio es el "sequel" del episodio 10 sobre ResNet. Si en el episodio 10 aprendimos que los skip connections permiten entrenar redes muy profundas, hoy vamos a profundizar en una pregunta aparentemente pequeña que resulta tener implicaciones grandes: ¿dónde exactamente ponemos el Batch Normalization y el ReLU dentro del bloque residual? La respuesta a esa pregunta permitió entrenar redes de más de 1000 capas y explica por qué ResNet funciona tan bien desde un punto de vista matemático.

5 de may de 202619 min

Ep. 15: El Nacimiento de la Atención

30 de abr de 202617 min

Ep. 15: El Nacimiento de la Atención

Descripción

Comentarios

Empieza 7 días de prueba

Todos los episodios