Variabilis

Variabilis

Deep Speech 2 - Cuando la IA Supera al Humano en Transcribir Audio

22 min · Ayer
Portada del episodio Deep Speech 2 - Cuando la IA Supera al Humano en Transcribir Audio

Descripción

El paper de este episodio marcó un hito histórico: el primer sistema de reconocimiento de voz que superó a humanos en pruebas de transcripción. Y el primer autor es Dario Amodei, quien después fundaría Anthropic. Deep Speech 2 es también un masterclass en cómo escalar sistemas de ML: datos masivos, infraestructura HPC, y una arquitectura simplificada que funciona mejor que sistemas llenos de componentes especializados.

Comentarios

0

Sé la primera persona en comentar

¡Regístrate ahora y únete a la comunidad de Variabilis!

Prueba gratis

Empieza 7 días de prueba

$99 / mes después de la prueba. · Cancela cuando quieras.

  • Podcasts solo en Podimo
  • 20 horas de audiolibros al mes
  • Podcast gratuitos

Todos los episodios

21 episodios

episode Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa artwork

Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa

Hoy entramos al mundo de los modelos generativos: sistemas que no solo clasifican datos, sino que aprenden a generar datos nuevos como imágenes, texto, audio. "Variational Lossy Autoencoder"Por Chen, Kingma, Salimans, Duan, Dhariwal, Schulman, Sutskever y Abbeel (2016) Este paper es denso conceptualmente, pero contiene una idea elegante y muy práctica: ¿cómo fuerzas a una red neuronal a aprender una representación que capture solo la estructura global de los datos, descartando los detalles irrelevantes como textura o ruido? La respuesta involucra combinar dos tipos de modelos poderosos; el VAE y los modelos autorregresivos, de una manera que controla qué tipo de información aprende a comprimir cada uno.

12 de may de 202623 min