OpenAI's GPT-5.6 Sol tops Terminal-Bench 2.1 at 91.9% with its multi-agent Ultra mode, but reward-hacking findings and government-gated access keep it out of reach for nearly everyone.
Kommentarer
0
Vær den første til å kommentere
Registrer deg nå og bli medlem av Awesome Agents Podcast sitt community!
Kommentarer
0Vær den første til å kommentere
Registrer deg nå og bli medlem av Awesome Agents Podcast sitt community!