כל תכני עושים היסטוריה
מה הופך בקשה אחת ל-LLM למורכבת כל כך מאחורי הקלעים? איך מאות מיליארדי פרמטרים נדחסים על עשרות GPUs, ואיך כל ה-cluster הזה משרת אלפי משתמשים במקביל בלי להתפוצץ? אירחתי את מייק ארליכסון, אושייה בעולם הAI, ופירקנו את עולם ה-inference מבפנים: KV cache, batching, ההבדל בין prefill ל-decode, חלוקה של מודל בין GPUs שונים, ו-Mixture of Experts. דיברנו גם על למה זה הפך לאחד התחומים הכי קריטיים בעולם ה-AI - וגם איך נכנסים אליו אם אתם מהנדסים שרוצים להתחיל להריץ מודלים בעצמכם. האזנה נעימה, עמית בן דור.
997 Folgen
Kommentare
0Sei die erste Person, die kommentiert
Melde dich jetzt an und werde Teil der כל תכני עושים היסטוריה-Community!