Ep. 16: ResNet v2 — ¿Por Qué Importa Dónde Pones el ReLU?

19 min · 5. maj 2026

Description

Este episodio es el "sequel" del episodio 10 sobre ResNet. Si en el episodio 10 aprendimos que los skip connections permiten entrenar redes muy profundas, hoy vamos a profundizar en una pregunta aparentemente pequeña que resulta tener implicaciones grandes: ¿dónde exactamente ponemos el Batch Normalization y el ReLU dentro del bloque residual? La respuesta a esa pregunta permitió entrenar redes de más de 1000 capas y explica por qué ResNet funciona tan bien desde un punto de vista matemático.

Comments

Be the first to comment

Get Started

All episodes

20 episodes

Ep. 20: Neural Turing Machines - Una Red que Aprende a Programar

Hoy toca uno de los papers más conceptualmente ambiciosos de toda la lista: las Neural Turing Machines (NTMs) de Alex Graves y DeepMind. La pregunta que este paper intenta responder es audaz: ¿puede una red neuronal aprender algoritmos; no solo reconocer patrones, sino aprender procedimientos que generalicen a entradas que nunca vio? La respuesta es sí, y la clave es darle a la red algo que los computadores siempre han tenido pero las redes neuronales nunca: memoria externa diferenciable.

Yesterday16 min

Ep. 19: El Autómata del Café - Midiendo la Complejidad que Nace y Muere

Este episodio es el segundo paper de carácter más filosófico en la lista de Sutskever, el primero fue "The First Law of Complexodynamics" en el episodio 1. De hecho, este paper es una versión matemática y empírica de esa misma pregunta. La pregunta: ¿por qué la complejidad del universo, y de los sistemas físicos en general, sube primero y luego baja? ¿Por qué hay una época de galaxias, vida y estructuras interesantes, en lugar de ser siempre simple o siempre caótico? Y la respuesta propuesta se llama apparent complexity (complejidad aparente), medida usando Kolmogorov complexity y un experimento simple pero profundo: una taza de café con leche.

26. maj 202616 min

Ep 18: Relational Memory Core - Cuando la Memoria Necesita Razonar

Este episodio planteamos la siguiente pregunta: ¿qué pasa si no solo necesitamos razonar sobre relaciones en un instante, sino que necesitamos recordar relaciones a lo largo del tiempo? Las LSTMs son excelentes para recordar. Los Relation Networks son excelentes para razonar. ¿Qué pasa si combines ambos? Ese es el Relational Memory Core (RMC).

20. maj 202624 min

Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa

Hoy entramos al mundo de los modelos generativos: sistemas que no solo clasifican datos, sino que aprenden a generar datos nuevos como imágenes, texto, audio. "Variational Lossy Autoencoder"Por Chen, Kingma, Salimans, Duan, Dhariwal, Schulman, Sutskever y Abbeel (2016) Este paper es denso conceptualmente, pero contiene una idea elegante y muy práctica: ¿cómo fuerzas a una red neuronal a aprender una representación que capture solo la estructura global de los datos, descartando los detalles irrelevantes como textura o ruido? La respuesta involucra combinar dos tipos de modelos poderosos; el VAE y los modelos autorregresivos, de una manera que controla qué tipo de información aprende a comprimir cada uno.