бургерЛого хедера
Поиск
avatar

Помимо общих бенчмарков: как Yourbench позволяет предприятиям оценивать модели ИИ по фактическим данным

Каждый выпуск модели ИИ неизбежно включает диаграммы, демонстрирующие, как она превзошла своих конкурентов в этом эталонном тесте или в этой оценочной матрице.

image

Создание пользовательских оценок

Hugging Face заявила в статье, что Yourbench работает, воспроизводя подмножества бенчмарка Massive Multitask Language Understanding (MMLU) «используя минимальный исходный текст, достигая этого менее чем за 15 долларов США общей стоимости вывода, при этом полностью сохраняя относительные рейтинги производительности модели».

Организациям необходимо предварительно обработать свои документы, прежде чем Yourbench сможет работать. Это включает в себя три этапа:

Прием документов для «нормализации» форматов файлов.

Семантическое разбиение на фрагменты для разбиения документов с целью соблюдения ограничений контекстного окна и фокусировки внимания модели.

Обобщение документов

Далее следует процесс генерации вопросов и ответов, который создает вопросы из информации в документах. Здесь пользователь вводит выбранного им LLM, чтобы увидеть, какой из них лучше всего отвечает на вопросы.

Hugging Face протестировала Yourbench с моделями DeepSeek V3 и R1, моделями Qwen от Alibaba, включая модель рассуждений Qwen QwQ, Mistral Large 2411 и Mistral 3.1 Small, Llama 3.1 и Llama 3.3, Gemini 2.0 Flash, Gemini 2.0 Flash Lite и Gemma 3, GPT-4o, GPT-4o-mini и o3 mini, а также Claude 3.7 Sonnet и Claude 3.5 Haiku.

Шашидхар сказал, что Hugging Face также предлагает анализ затрат на моделях и обнаружил, что Qwen и Gemini 2.0 Flash «производят огромную ценность за очень очень низкие затраты».Бенчмаркинг не идеален

Бенчмарки и другие методы оценки дают пользователям представление о том, насколько хорошо работают модели, но они не полностью отражают то, как модели будут работать ежедневно.

Некоторые даже выразили скептицизм, что тесты бенчмарков показывают ограничения моделей и могут привести к ложным выводам об их безопасности и производительности. Исследование также предупредило, что агенты бенчмаркинга могут быть «вводящими в заблуждение».

Однако предприятия не могут избежать оценки моделей сейчас, когда на рынке есть много вариантов, а лидеры технологий оправдывают рост стоимости использования моделей ИИ. Это привело к появлению различных методов проверки производительности и надежности моделей.

Google DeepMind представила FACTS Grounding, который проверяет способность модели генерировать фактически точные ответы на основе информации из документов. Некоторые исследователи Йельского университета и университета Цинхуа разработали самовызывающиеся тесты кода, чтобы помочь предприятиям определить, для каких программ LLM им подходят.

0 комментариев

Вас могут заинтересовать