бургерЛого хедера
Поиск
avatar

DeepMind и Hugging Face выпустили SynthID для создания водяных знаков на текстах, сгенерированных LLM

Google DeepMind и Hugging Face выпустили SynthID Text, инструмент для маркировки и обнаружения текста, созданного большими языковыми моделями (LLM).

image

Google DeepMind и Hugging Face выпустили SynthID Text, инструмент для маркировки и обнаружения текста, созданного большими языковыми моделями (LLM). SynthID Text кодирует водяной знак в сгенерированный ИИ текст таким образом, чтобы можно было определить, что его создал конкретный LLM. Что еще более важно, он делает это, не изменяя работу базовой LLM и не снижая качества генерируемого текста.

Технология SynthID Text была разработана исследователями DeepMind и представлена в статье, опубликованной 23 октября в журнале Nature. Реализация SynthID Text была добавлена в библиотеку Hugging Face's Transformers, которая используется для создания приложений на основе LLM. Стоит отметить, что SynthID не предназначен для обнаружения любого текста, генерируемого LLM. Он предназначен для создания водяного знака на выходе конкретного LLM.Использование SynthID не требует переобучения базового LLM. Он использует набор параметров, позволяющих настроить баланс между прочностью водяного знака и сохранением отклика. Предприятие, использующее LLM, может иметь различные конфигурации водяных знаков для разных моделей. Эти конфигурации должны храниться в безопасном и закрытом месте, чтобы избежать их копирования другими лицами.

Для каждой конфигурации водяного знака необходимо обучить модель классификатора, которая принимает текстовую последовательность и определяет, содержит ли она водяной знак модели или нет. Детекторы водяных знаков можно обучить на нескольких тысячах примеров обычного текста и ответов, на которые были нанесены водяные знаки с помощью указанной конфигурации.Водяные знаки - активная область исследований, особенно с ростом и внедрением ИИ в различных областях и приложениях. Компании и учреждения ищут способы обнаружения текста, созданного ИИ, чтобы предотвратить массовые кампании по дезинформации, модерировать контент, созданный ИИ, и предотвратить использование инструментов ИИ в образовании.

Существуют различные методы нанесения водяных знаков на генерируемый ИИ текст, каждый из которых имеет свои ограничения. Некоторые из них требуют сбора и хранения конфиденциальной информации, другие - дорогостоящей вычислительной обработки после того, как модель сгенерирует свой ответ.

В SynthID используется «генеративное моделирование» - класс техник водяных знаков, которые не влияют на обучение LLM и изменяют только процедуру выборки модели. Методы генеративного водяного знака изменяют процедуру генерации следующего слова, чтобы внести в генерируемый текст тонкие, специфические для контекста изменения. Эти изменения создают статистическую подпись в сгенерированном тексте, сохраняя его качество.

Затем модель классификатора обучается обнаруживать статистическую подпись водяного знака, чтобы определить, был ли ответ сгенерирован моделью или нет. Ключевым преимуществом этой техники является то, что обнаружение водяного знака является вычислительно эффективным и не требует доступа к базовому LLM.

0 комментариев

Вас могут заинтересовать