OpenAI's GPT-5.6 Sol tops Terminal-Bench 2.1 at 91.9% with its multi-agent Ultra mode, but reward-hacking findings and government-gated access keep it out of reach for nearly everyone.
Kommentit
0
Ole ensimmäinen kommentoija
Rekisteröidy nyt ja liity Awesome Agents Podcast-yhteisöön!
Kommentit
0Ole ensimmäinen kommentoija
Rekisteröidy nyt ja liity Awesome Agents Podcast-yhteisöön!