RegTech · комплаенс русскоязычного контента
Проспект.
Комплаенс-API для русского текста.
Классификатор по 24 категориям УК РФ и КоАП РФ. Журнал проверок неизменяемый, хранится в РФ. Модель работает в российском контуре, для финтеха и критической информационной инфраструктуры (КИИ) — установка в контуре заказчика.
Почему сейчас
За последние три года УК и КоАП по контенту переписывались девять раз.
Появление пользовательского контента и генеративных моделей сделало оператора платформы ответственным за каждую публикацию. Регулярные выражения и инструкции в промпте не масштабируются и не оставляют следов для надзорной проверки. Найм собственной команды модерации — это полгода поиска и штатные расходы, которые растут быстрее объёма публикаций.
Размер штрафов и сроки
Цена одной пропущенной публикации.
Почему OpenAI Moderation, Hive, Perspective не подходят
Зарубежные сервисы не знают российской таксономии.
Их классификатор обучен на англоязычных текстах и западных категориях — hate, sexual, violence. Российских составов — ст. 207.3 УК РФ, ст. 280 УК РФ, ст. 354.1 УК РФ, ст. 6.21 КоАП РФ, иноагентский реестр — в их классификации просто нет.
Текст уходит в США или ЕС — для платформы с персональными данными (ПДн) пользователей это нарушение 152-ФЗ. Служба информационной безопасности заказчика такое не пропускает. Установки в контуре заказчика и планов сертификации ФСТЭК (Федеральная служба по техническому и экспортному контролю) у этих сервисов нет.
Сервис
Один HTTP-запрос. 24 категории. Журнал для надзора.
На вход — текст, на выход — структурированный JSON: оценка по каждой категории, обоснование, выделенный проблемный фрагмент. Пороги настраиваются под клиента, неиспользуемые категории отключаются и не тарифицируются. Версия модели фиксируется на стороне клиента и поддерживается не менее 12 месяцев.
Вся модель работает в российской инфраструктуре: на старте — Gemma на наших серверах в Москве; в тарифе Pro и выше — дообученная Qwen-7B на нашем GPU-пуле в РФ; в Корпоративном — установка в контуре заказчика, в том числе air-gap (без выхода в интернет). Текст клиента не покидает периметр.
Последовательная обработка
Пять слоёв проверки. Все — в российском контуре.
Словари и реестры
Реестр иноагентов, перечень запрещённых организаций, списки персональных данных. Около 40 % запросов закрывается на этом шаге за единицы миллисекунд.
Быстрая модель
Компактная языковая модель на 1 млрд параметров, оценка по 24 категориям. p95 ≤ 250 мс, p99 ≤ 500 мс на текстах до 2 000 знаков.
Большая модель + база судебной практики
Серая зона — 0,30–0,85 — уходит на 7B-модель в нашем GPU-пуле в РФ. Подгружается релевантная судебная практика и разъяснения Пленума ВС. Делаем несколько независимых проходов с разными вопросами.
Корректировка вероятностей
Выравниваем шкалу вероятностей по каждой категории с доверительными интервалами. Когда модель говорит «0,80» — это действительно 8 из 10, а не 5 из 10.
Ручной просмотр
Сложные 1–2 % уходят модератору на стороне клиента с подсветкой проблемного фрагмента и обоснованием. Без этого шага высокая полнота на семантически тонких составах недостижима.
Реальные числа по группам категорий
Полнота отличается на порядок между лексикой и смыслом.
| Группа категорий | Полнота модели | С учётом всех слоёв | Замечание |
|---|---|---|---|
| Лексические: иноагенты, персональные данные | 99,9 % | 99,9 % | Сопоставление со списками и шаблонами |
| Узкие составы: ст. 205.2 УК РФ, оборот оружия, педофилия | 98 – 99 % | 98 – 99 % | Узкий словарь, чёткие маркеры |
| Семантически сложные: ст. 207.3 УК РФ, ст. 20.3.3 КоАП РФ, ст. 6.21 КоАП РФ | 92 – 95 % | до 99 % | 1 – 2 % сложных — на ручной просмотр клиента |
| Дезинформация: медицина, финансы | 90 – 95 % | 90 – 95 % | Для 99 % нужен отдельный корпус проверяемых фактов |
| Клевета: ст. 128.1 УК РФ | 70 – 80 % | 70 – 80 % | Модель видит фактическое утверждение; верификацию факта проводит клиент |
Полнота — доля выявленных нарушений из всех реальных. Где автоматика принципиально не даёт нужной точности, мы указываем это в тарифной документации.
Операционная история
До и после внедрения.
До
100 % потока попадает в ручную очередь FIFO. Модератор открывает текст целиком, читает, ищет проблемный фрагмент, ставит тег. Очередь к концу смены — 8 часов. Среднее время на единицу — 90 секунд. На потоке 500 000 единиц в сутки команда из 30 – 40 человек работает в три смены и всё равно отстаёт.
После
~95 % потока проходит автоматически. В очередь к человеку уходят 1 – 2 % спорных — это 5 000 – 10 000 единиц в сутки. Каждая — с подсвеченным фрагментом, метками категорий («ст. 207.3 — 0,72»), предлагаемым действием. Среднее время на единицу — 30 – 90 секунд. Команда из 4 – 6 человек закрывает поток в одну смену.
Пороги по каждой категории настраиваются клиентом, неиспользуемые отключаются и не тарифицируются. Свои правила для специфики платформы — в тарифе Pro и выше.
Что вы получаете для собственной правовой защиты
Журнал проверок как аудит-след для надзора.
Аудит-след для надзора
Каждый запрос фиксируется неизменяемой записью: хеш текста, оценки по категориям, версия модели, итоговое решение, временная метка. Это материал, который вы предъявляете при разбирательстве с РКН в контексте ст. 10.1 149-ФЗ — документированный процесс модерации текста.
Материал для DPA с подрядчиками
Шаблон договора об обработке персональных данных (DPA) с нашей стороны готов. Это закрывает требования службы информационной безопасности заказчика и исключает у юристов вопрос «куда уходит текст пользователя».
Воспроизводимость на год вперёд
Версия модели фиксируется на стороне клиента и поддерживается не менее 12 месяцев. Старая версия остаётся доступной даже после репроспект новой — спор о конкретной публикации можно воспроизвести в тех же условиях, в которых она проходила проверку.
Распределение ответственности
Редакционное решение принимает оператор платформы. API возвращает оценку. Вы публикатор, мы поставщик инструмента — это юридически чистая схема. Журнал фиксирует ваш процесс принятия решения.
От NDA до первого квартального отчёта
Внедрение у клиента: 30 дней до продуктива.
| Срок | Что получает клиент | Что делаем мы |
|---|---|---|
| D-7 | Подписан NDA, выбрана песочница, ключ для песочницы на 10 000 запросов | Прогон ваших примеров через нашу модель, отчёт по false positive / false negative |
| D0 | Боевой ключ, пример интеграции, кнопка «проверить» в редакторе или вебхук на поток | Поддержка интегратора в первые 72 часа, чат с инженером |
| D+14 | Первый отчёт по точности на вашем корпусе. Калиброванные пороги под ваши категории и вертикали | Подстройка порогов, добавление специфичных правил для вашей платформы (на Pro+) |
| D+30 | Запуск в продуктив, журнал проверок ведётся, договор по 152-ФЗ подписан | SLA вступает в силу, дежурный канал поддержки |
| D+90 | Квартальный отчёт: число выявленных нарушений, изменения УК / КоАП за период, метрики для CEO | Обзор изменений в нормативке, апдейт таксономии, ревью порогов |
Сравнение с ценой одного инцидента и со своей командой
~600 000 ₽ в год против 8 – 12 млн ₽ или 15 лет.
Четыре уровня
От открытой модели до установки в контуре заказчика.
Открытая модель / Free
0 ₽
Веса 1B-модели на Hugging Face под Apache 2 + Free-тариф до 5 000 запросов в месяц для разработчиков и тестов. Без слоёв перепроверки.
Pro
49 900 ₽/мес.
До 1 млн запросов в месяц. SLA 99,5 %. Все слои каскада, журнал, панель. Самостоятельная регистрация и оплата картой через ЮKassa.
Бизнес
199 000 ₽/мес.
До 10 млн запросов в месяц. SLA 99,5 % + приоритетная поддержка. Свои правила, выделенный канал, договор по РФ-праву через ЮKassa.
Корпоративный
от 4,8 млн ₽/год
Установка в контуре заказчика, в том числе air-gap. Дообучение под отрасль, индивидуальный SLA. Для финтеха, КИИ, госсектора.
Compliance продукта
Где данные, чем закрыты, что в плане.
| Параметр | Сейчас | В плане |
|---|---|---|
| География вычислений | Москва, СПб (российские дата-центры) | Установка в контуре заказчика — сейчас |
| Хранение журнала проверок | PostgreSQL в РФ, retention 1 год (374-ФЗ, ПП РФ № 728) | — |
| Шифрование | TLS 1.3 в передаче, AES-256 в покое | — |
| Журнал проверок | Append-only, подпись каждой записи | Экспорт в SIEM (Splunk, MaxPatrol, Kaspersky) — Q2 2027 |
| Реестр операторов ПДн | Подача в РКН — в работе | Включение в реестр — Q1 2027 |
| Шаблон DPA | Готов, выдаём по запросу до NDA | — |
| ФСТЭК (сертификация) | Нет | Q3 2027 — для Корпоративного тарифа в финтех/КИИ |
| Изоляция тенантов | Row-level security в PostgreSQL | Per-tenant ключи шифрования для Корпоративного — сейчас |
Текст клиента по умолчанию не используется для дообучения. Использование на дообучение — только по явному письменному согласию (opt-in) в договоре.
Четыре частых вопроса
То, что обычно спрашивают на первой встрече.
«Если ваша модель пропустит — отвечать нам?»
Да, ответственность за публикацию остаётся за оператором платформы. Что даёт сервис: журнал проверок документирует ваш процесс модерации в контексте ст. 10.1 149-ФЗ и это материал для разбирательства с РКН. Гарантию против ответственности не предлагает ни один сервис — это юридически невозможно.
«У нас уже есть команда модерации»
Сервис её не заменяет. Он фильтрует ~95 % потока, чтобы команда занималась оставшимися 5 % сложных случаев — с уже подсвеченным фрагментом и обоснованием. Команда переключается с конвейера на качественные задачи: апелляции, спорные политические тексты, тонкая клевета.
«А если вы закроетесь?»
Базовая 1B-модель опубликована на Hugging Face под лицензией Apache 2 — остаётся у вас навсегда. Корпоративный контракт включает эскроу обновлений модели у нотариуса: при нашем закрытии вы получаете последний образ боевой версии. Риск зависимости от поставщика (bus-factor) и юридическое лицо — на последнем слайде.
«А если в УК появится новая статья?»
Регулярные обновления таксономии, патч-релиз модели для тарифов Pro и выше — в течение 7 рабочих дней с момента публикации поправок. Уведомление по email и вебхуку, changelog со ссылкой на нормативный акт.
Что происходит после встречи
Два пути.
Демо на ваших данных
Пришлите 10 000 примеров текстов из вашей очереди по NDA. За 5 рабочих дней пришлём отчёт: распределение оценок, false positive / false negative по вашему корпусу, рекомендуемые пороги. Бесплатно, без обязательств.
Пилот на 3 месяца
Тариф Pro бесплатно на 3 месяца с обязательством квартального ревью обратной связи. Полный SLA, журнал проверок, поддержка интегратора. По завершении — подписка или откат интеграции, никакого автопродления.
Договор по российскому праву, оплата через ЮKassa или банковский счёт. Латинское написание проекта — Prospekt.