Deep Speech 2 - Cuando la IA Supera al Humano en Transcribir Audio

22 min · 9. juni 2026

Description

El paper de este episodio marcó un hito histórico: el primer sistema de reconocimiento de voz que superó a humanos en pruebas de transcripción. Y el primer autor es Dario Amodei, quien después fundaría Anthropic. Deep Speech 2 es también un masterclass en cómo escalar sistemas de ML: datos masivos, infraestructura HPC, y una arquitectura simplificada que funciona mejor que sistemas llenos de componentes especializados.

Comments

Be the first to comment

Get Started

All episodes

21 episodes

Deep Speech 2 - Cuando la IA Supera al Humano en Transcribir Audio

9. juni 202622 min

Ep. 20: Neural Turing Machines - Una Red que Aprende a Programar

Hoy toca uno de los papers más conceptualmente ambiciosos de toda la lista: las Neural Turing Machines (NTMs) de Alex Graves y DeepMind. La pregunta que este paper intenta responder es audaz: ¿puede una red neuronal aprender algoritmos; no solo reconocer patrones, sino aprender procedimientos que generalicen a entradas que nunca vio? La respuesta es sí, y la clave es darle a la red algo que los computadores siempre han tenido pero las redes neuronales nunca: memoria externa diferenciable.

2. juni 202616 min

Ep. 19: El Autómata del Café - Midiendo la Complejidad que Nace y Muere

Este episodio es el segundo paper de carácter más filosófico en la lista de Sutskever, el primero fue "The First Law of Complexodynamics" en el episodio 1. De hecho, este paper es una versión matemática y empírica de esa misma pregunta. La pregunta: ¿por qué la complejidad del universo, y de los sistemas físicos en general, sube primero y luego baja? ¿Por qué hay una época de galaxias, vida y estructuras interesantes, en lugar de ser siempre simple o siempre caótico? Y la respuesta propuesta se llama apparent complexity (complejidad aparente), medida usando Kolmogorov complexity y un experimento simple pero profundo: una taza de café con leche.

26. maj 202616 min

Ep 18: Relational Memory Core - Cuando la Memoria Necesita Razonar

Este episodio planteamos la siguiente pregunta: ¿qué pasa si no solo necesitamos razonar sobre relaciones en un instante, sino que necesitamos recordar relaciones a lo largo del tiempo? Las LSTMs son excelentes para recordar. Los Relation Networks son excelentes para razonar. ¿Qué pasa si combines ambos? Ese es el Relational Memory Core (RMC).

20. maj 202624 min

Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa

Hoy entramos al mundo de los modelos generativos: sistemas que no solo clasifican datos, sino que aprenden a generar datos nuevos como imágenes, texto, audio. "Variational Lossy Autoencoder"Por Chen, Kingma, Salimans, Duan, Dhariwal, Schulman, Sutskever y Abbeel (2016) Este paper es denso conceptualmente, pero contiene una idea elegante y muy práctica: ¿cómo fuerzas a una red neuronal a aprender una representación que capture solo la estructura global de los datos, descartando los detalles irrelevantes como textura o ruido? La respuesta involucra combinar dos tipos de modelos poderosos; el VAE y los modelos autorregresivos, de una manera que controla qué tipo de información aprende a comprimir cada uno.

12. maj 202623 min

Deep Speech 2 - Cuando la IA Supera al Humano en Transcribir Audio

Description

Comments

1 month for 9 kr.

All episodes