OpenAI's GPT-5.6 Sol tops Terminal-Bench 2.1 at 91.9% with its multi-agent Ultra mode, but reward-hacking findings and government-gated access keep it out of reach for nearly everyone.
Kommentare
0
Sei die erste Person, die kommentiert
Melde dich jetzt an und werde Teil der Awesome Agents Podcast-Community!
Kommentare
0Sei die erste Person, die kommentiert
Melde dich jetzt an und werde Teil der Awesome Agents Podcast-Community!