Claude Sonnet 4.6 — первый бенчмарк на живых сайтах

TL;DR: Anthropic выпустила Claude Sonnet 4.6. Она набрала 33.3% на ClawBench — первом бенчмарке, который тестирует агентов на реальных production-сайтах, а не в песочнице.

Что такое ClawBench

Раньше агентов тестировали в sandbox. Это как экзамен по вождению на пустой парковке. ClawBench — это реальный город:

153 задачи на 144 живых сайтах
Покупки, бронирование, подача заявок
Перехватывает только финальный запрос — данные пользователей не трогает
Записывает всё: скриншоты, HTTP-трафик, reasoning, действия браузера

Зачем это вам

Если вы строите агентов — sandbox-результаты больше не катят. Тестируйте на живых сайтах. Сонет 4.6 — первый, который это может.

Сложность: средняя Время на внедрение: зависит от ваших интеграций

#AI #Claude #Агенты #Бенчмарки