✈️ Telegram RU 2026-05-07T00:00:00.000Z

Claude Sonnet 4.6 — первый бенчмарк на живых сайтах

ai-newsmodelbenchmarkagentsrussiandev

Claude Sonnet 4.6 — первый бенчмарк на живых сайтах

TL;DR: Anthropic выпустила Claude Sonnet 4.6. Она набрала 33.3% на ClawBench — первом бенчмарке, который тестирует агентов на реальных production-сайтах, а не в песочнице.

Что такое ClawBench

Раньше агентов тестировали в sandbox. Это как экзамен по вождению на пустой парковке. ClawBench — это реальный город:

  • 153 задачи на 144 живых сайтах
  • Покупки, бронирование, подача заявок
  • Перехватывает только финальный запрос — данные пользователей не трогает
  • Записывает всё: скриншоты, HTTP-трафик, reasoning, действия браузера

Зачем это вам

Если вы строите агентов — sandbox-результаты больше не катят. Тестируйте на живых сайтах. Сонет 4.6 — первый, который это может.

Сложность: средняя Время на внедрение: зависит от ваших интеграций

#AI #Claude #Агенты #Бенчмарки

Статус: draft