Variabilis

Deep Speech 2 - Cuando la IA Supera al Humano en Transcribir Audio

22 min · I går
episode Deep Speech 2 - Cuando la IA Supera al Humano en Transcribir Audio cover

Beskrivelse

El paper de este episodio marcó un hito histórico: el primer sistema de reconocimiento de voz que superó a humanos en pruebas de transcripción. Y el primer autor es Dario Amodei, quien después fundaría Anthropic. Deep Speech 2 es también un masterclass en cómo escalar sistemas de ML: datos masivos, infraestructura HPC, y una arquitectura simplificada que funciona mejor que sistemas llenos de componentes especializados.

Kommentarer

0

Vær den første til å kommentere

Registrer deg nå og bli medlem av Variabilis sitt community!

Prøv gratis

Prøv gratis i 14 dager

99 kr / Måned etter prøveperioden. · Avslutt når som helst.

  • Eksklusive podkaster
  • 20 timer lydbøker i måneden
  • Gratis podkaster

Alle episoder

21 Episoder

episode Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa cover

Ep. 17: Variational Lossy Autoencoder - Aprender a Olvidar lo que No Importa

Hoy entramos al mundo de los modelos generativos: sistemas que no solo clasifican datos, sino que aprenden a generar datos nuevos como imágenes, texto, audio. "Variational Lossy Autoencoder"Por Chen, Kingma, Salimans, Duan, Dhariwal, Schulman, Sutskever y Abbeel (2016) Este paper es denso conceptualmente, pero contiene una idea elegante y muy práctica: ¿cómo fuerzas a una red neuronal a aprender una representación que capture solo la estructura global de los datos, descartando los detalles irrelevantes como textura o ruido? La respuesta involucra combinar dos tipos de modelos poderosos; el VAE y los modelos autorregresivos, de una manera que controla qué tipo de información aprende a comprimir cada uno.

12. mai 202623 min