כל תכני עושים היסטוריה
מה הופך בקשה אחת ל-LLM למורכבת כל כך מאחורי הקלעים? איך מאות מיליארדי פרמטרים נדחסים על עשרות GPUs, ואיך כל ה-cluster הזה משרת אלפי משתמשים במקביל בלי להתפוצץ? אירחתי את מייק ארליכסון, אושייה בעולם הAI, ופירקנו את עולם ה-inference מבפנים: KV cache, batching, ההבדל בין prefill ל-decode, חלוקה של מודל בין GPUs שונים, ו-Mixture of Experts. דיברנו גם על למה זה הפך לאחד התחומים הכי קריטיים בעולם ה-AI - וגם איך נכנסים אליו אם אתם מהנדסים שרוצים להתחיל להריץ מודלים בעצמכם. האזנה נעימה, עמית בן דור.
997 afleveringen
Reacties
0Wees de eerste die een reactie plaatst
Meld je nu aan en word lid van de כל תכני עושים היסטוריה community!