Ep. 16: ResNet v2 — ¿Por Qué Importa Dónde Pones el ReLU?

19 min · 5 de may de 2026

Descripción

Este episodio es el "sequel" del episodio 10 sobre ResNet. Si en el episodio 10 aprendimos que los skip connections permiten entrenar redes muy profundas, hoy vamos a profundizar en una pregunta aparentemente pequeña que resulta tener implicaciones grandes: ¿dónde exactamente ponemos el Batch Normalization y el ReLU dentro del bloque residual? La respuesta a esa pregunta permitió entrenar redes de más de 1000 capas y explica por qué ResNet funciona tan bien desde un punto de vista matemático.

Comentarios

Sé la primera persona en comentar

¡Regístrate ahora y únete a la comunidad de Variabilis!

Prueba gratis

Todos los episodios

19 episodios

Ep. 19: El Autómata del Café - Midiendo la Complejidad que Nace y Muere

Este episodio es el segundo paper de carácter más filosófico en la lista de Sutskever, el primero fue "The First Law of Complexodynamics" en el episodio 1. De hecho, este paper es una versión matemática y empírica de esa misma pregunta. La pregunta: ¿por qué la complejidad del universo, y de los sistemas físicos en general, sube primero y luego baja? ¿Por qué hay una época de galaxias, vida y estructuras interesantes, en lugar de ser siempre simple o siempre caótico? Y la respuesta propuesta se llama apparent complexity (complejidad aparente), medida usando Kolmogorov complexity y un experimento simple pero profundo: una taza de café con leche.

26 de may de 202616 min

Ep 18: Relational Memory Core - Cuando la Memoria Necesita Razonar

Este episodio planteamos la siguiente pregunta: ¿qué pasa si no solo necesitamos razonar sobre relaciones en un instante, sino que necesitamos recordar relaciones a lo largo del tiempo? Las LSTMs son excelentes para recordar. Los Relation Networks son excelentes para razonar. ¿Qué pasa si combines ambos? Ese es el Relational Memory Core (RMC).

20 de may de 202624 min

Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa

Hoy entramos al mundo de los modelos generativos: sistemas que no solo clasifican datos, sino que aprenden a generar datos nuevos como imágenes, texto, audio. "Variational Lossy Autoencoder"Por Chen, Kingma, Salimans, Duan, Dhariwal, Schulman, Sutskever y Abbeel (2016) Este paper es denso conceptualmente, pero contiene una idea elegante y muy práctica: ¿cómo fuerzas a una red neuronal a aprender una representación que capture solo la estructura global de los datos, descartando los detalles irrelevantes como textura o ruido? La respuesta involucra combinar dos tipos de modelos poderosos; el VAE y los modelos autorregresivos, de una manera que controla qué tipo de información aprende a comprimir cada uno.