Samsung представила собственный инструмент оценки искусственного интеллекта под названием TRUEBench, который должен восполнить пробелы существующих бенчмарков. Компания много лет активно внедряет ИИ-функции в смартфоны, регулярно обновляя их каждые полгода. Но, как выяснилось, стандартные инструменты измерения эффективности ИИ слишком узкие: они ограничены английским языком и простыми вопросно-ответными сценариями. TRUEBench создан для проверки того, как искусственный интеллект справляется с реальными задачами, с которыми сталкиваются пользователи и бизнес ежедневно.

Почему Samsung решила создать свой бенчмарк
Большинство существующих тестов ИИ не отражают многошаговые и многоязычные сценарии, а ведь именно в них проявляется ценность современных моделей. Samsung Research разработала TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark — «Надежная оценка использования в реальном мире»), чтобы дать более точное представление о том, как алгоритмы ведут себя в реальных условиях. Это не абстрактный тест, а инструмент для практических задач, включая генерацию контента, анализ данных, перевод и автоматическое резюмирование текстов.
Широкий охват и практичность
TRUEBench включает 2485 тестовых наборов в 10 категориях, 46 подкатегориях и 12 языках. В отличие от простых проверок, он охватывает задания разной сложности: от коротких сообщений в несколько символов до обработки длинных документов более чем на 20 тысяч знаков. Такой подход позволяет оценить модели не только в базовых сценариях, но и в условиях, близких к реальной работе.
Особое внимание уделено многоязычной поддержке — важной для глобальной аудитории Samsung. В отличие от англоцентричных бенчмарков, TRUEBench проверяет способность моделей работать с различными языками, что делает результаты более объективными и универсальными.
Как работает система оценки
Ключевой элемент TRUEBench — автоматизированная система оценки на базе ИИ, созданная при участии экспертов. Она обеспечивает надежность и единообразие результатов. Кроме того, Samsung открыла доступ к тестовым данным и лидербордам на платформе Hugging Face, где можно сравнить до пяти моделей одновременно. Это делает TRUEBench полезным инструментом не только для крупных компаний, но и для исследователей, разработчиков и стартапов.
Видение Samsung
Технический директор подразделения DX Samsung и глава Samsung Research, Пол (Кёнвун) Чон, подчеркнул, что TRUEBench задумывался как новый стандарт оценки ИИ. По его словам, уникальный опыт компании в применении ИИ в реальных продуктах дает ей возможность задавать планку для всей индустрии. Samsung рассчитывает, что TRUEBench станет надежным ориентиром при выборе моделей, а также инструментом, который поможет развивать продуктивные решения на базе искусственного интеллекта.
В условиях, когда ИИ проникает во все сферы — от смартфонов до корпоративных систем, подобные бенчмарки становятся важнейшим способом отличить маркетинговые обещания от реальной эффективности. TRUEBench показывает: Samsung стремится не просто демонстрировать свои технологии, а формировать прозрачные правила игры для всей индустрии.
1 коммент
ну конечно, свой тест для своих технологий, удобно))