✈️ Telegram RU 2026-05-07T00:00:00.000Z
Claude Sonnet 4.6 — первый бенчмарк на живых сайтах
ai-newsmodelbenchmarkagentsrussiandev
Claude Sonnet 4.6 — первый бенчмарк на живых сайтах
TL;DR: Anthropic выпустила Claude Sonnet 4.6. Она набрала 33.3% на ClawBench — первом бенчмарке, который тестирует агентов на реальных production-сайтах, а не в песочнице.
Что такое ClawBench
Раньше агентов тестировали в sandbox. Это как экзамен по вождению на пустой парковке. ClawBench — это реальный город:
- 153 задачи на 144 живых сайтах
- Покупки, бронирование, подача заявок
- Перехватывает только финальный запрос — данные пользователей не трогает
- Записывает всё: скриншоты, HTTP-трафик, reasoning, действия браузера
Зачем это вам
Если вы строите агентов — sandbox-результаты больше не катят. Тестируйте на живых сайтах. Сонет 4.6 — первый, который это может.
Сложность: средняя Время на внедрение: зависит от ваших интеграций
#AI #Claude #Агенты #Бенчмарки
Статус: draft