OpenAI's GPT-5.6 Sol tops Terminal-Bench 2.1 at 91.9% with its multi-agent Ultra mode, but reward-hacking findings and government-gated access keep it out of reach for nearly everyone.
Kommentarer
0
Vær den første til at kommentere
Tilmeld dig nu og bliv en del af Awesome Agents Podcast-fællesskabet!
Kommentarer
0Vær den første til at kommentere
Tilmeld dig nu og bliv en del af Awesome Agents Podcast-fællesskabet!