Variabilis

Deep Speech 2 - Cuando la IA Supera al Humano en Transcribir Audio

22 min · 9. juni 2026
episode Deep Speech 2 - Cuando la IA Supera al Humano en Transcribir Audio cover

Description

El paper de este episodio marcó un hito histórico: el primer sistema de reconocimiento de voz que superó a humanos en pruebas de transcripción. Y el primer autor es Dario Amodei, quien después fundaría Anthropic. Deep Speech 2 es también un masterclass en cómo escalar sistemas de ML: datos masivos, infraestructura HPC, y una arquitectura simplificada que funciona mejor que sistemas llenos de componentes especializados.

Comments

0

Be the first to comment

Sign up now and become a member of the Variabilis community!

Get Started

1 month for 9 kr.

Then 99 kr. / month · Cancel anytime.

  • Podcasts kun på Podimo
  • 20 lydbogstimer pr. måned
  • Gratis podcasts

All episodes

21 episodes

episode Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa artwork

Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa

Hoy entramos al mundo de los modelos generativos: sistemas que no solo clasifican datos, sino que aprenden a generar datos nuevos como imágenes, texto, audio. "Variational Lossy Autoencoder"Por Chen, Kingma, Salimans, Duan, Dhariwal, Schulman, Sutskever y Abbeel (2016) Este paper es denso conceptualmente, pero contiene una idea elegante y muy práctica: ¿cómo fuerzas a una red neuronal a aprender una representación que capture solo la estructura global de los datos, descartando los detalles irrelevantes como textura o ruido? La respuesta involucra combinar dos tipos de modelos poderosos; el VAE y los modelos autorregresivos, de una manera que controla qué tipo de información aprende a comprimir cada uno.

12. maj 202623 min