OpenAI's GPT-5.6 Sol tops Terminal-Bench 2.1 at 91.9% with its multi-agent Ultra mode, but reward-hacking findings and government-gated access keep it out of reach for nearly everyone.
Reacties
0
Wees de eerste die een reactie plaatst
Meld je nu aan en word lid van de Awesome Agents Podcast community!
Reacties
0Wees de eerste die een reactie plaatst
Meld je nu aan en word lid van de Awesome Agents Podcast community!