La TERTULia de la Inteligencia Artificial
La KV Cache se ha convertido en uno de los grandes retos para escalar los LLMs: guardar el contexto de una conversación no significa almacenar texto, sino enormes tensores por cada token y capa del modelo. A partir de ahí aparece el verdadero problema: una conversación larga puede ocupar decenas o cientos de GB, saturar la VRAM de las GPUs y obligar a diseñar sistemas capaces de paginar, compartir, mover y reutilizar esa caché entre GPU, RAM, SSD y red. La idea central: los LLMs modernos no escalan solo con más cálculo, sino gestionando una memoria gigantesca de la forma más inteligente posible. Participan en la tertulia: Paco Zamora, Josu Gorostegui y Guillermo Barbadillo. Recuerda que puedes enviarnos dudas, comentarios y sugerencias en: https://x.com/TERTUL_ia Más info en: https://ironbar.github.io/tertulia_inteligencia_artificial/
67 Folgen
Kommentare
0Sei die erste Person, die kommentiert
Melde dich jetzt an und werde Teil der La TERTULia de la Inteligencia Artificial-Community!