Variabilis

Deep Speech 2 - Cuando la IA Supera al Humano en Transcribir Audio

22 min · Gisteren
aflevering Deep Speech 2 - Cuando la IA Supera al Humano en Transcribir Audio artwork

Beschrijving

El paper de este episodio marcó un hito histórico: el primer sistema de reconocimiento de voz que superó a humanos en pruebas de transcripción. Y el primer autor es Dario Amodei, quien después fundaría Anthropic. Deep Speech 2 es también un masterclass en cómo escalar sistemas de ML: datos masivos, infraestructura HPC, y una arquitectura simplificada que funciona mejor que sistemas llenos de componentes especializados.

Reacties

0

Wees de eerste die een reactie plaatst

Meld je nu aan en word lid van de Variabilis community!

Probeer gratis

Probeer 14 dagen gratis

€ 9,99 / maand na proefperiode. · Elk moment opzegbaar.

  • Podcasts die je alleen op Podimo hoort
  • 20 uur luisterboeken / maand
  • Gratis podcasts

Alle afleveringen

21 afleveringen

aflevering Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa artwork

Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa

Hoy entramos al mundo de los modelos generativos: sistemas que no solo clasifican datos, sino que aprenden a generar datos nuevos como imágenes, texto, audio. "Variational Lossy Autoencoder"Por Chen, Kingma, Salimans, Duan, Dhariwal, Schulman, Sutskever y Abbeel (2016) Este paper es denso conceptualmente, pero contiene una idea elegante y muy práctica: ¿cómo fuerzas a una red neuronal a aprender una representación que capture solo la estructura global de los datos, descartando los detalles irrelevantes como textura o ruido? La respuesta involucra combinar dos tipos de modelos poderosos; el VAE y los modelos autorregresivos, de una manera que controla qué tipo de información aprende a comprimir cada uno.

12 mei 202623 min