ИИ-анализ vs словарная проверка: почему словари недостаточно
С 1 марта 2026 года закон 168-ФЗ обязывает бизнес убрать из публичных материалов необоснованные англицизмы. Штрафы реальны — до 500 000 ₽ для юридических лиц. Первый вопрос, который встаёт перед каждым предпринимателем, маркетологом и редактором: как быстро и точно проверить текст на запрещённые иностранные слова?
На рынке сегодня представлены два принципиально разных подхода: словарная проверка (сервисы вроде ГосСловарь, NormaSlov) и ИИ-анализ контекста (Чисторечь на базе YandexGPT). Разница между ними — не в интерфейсе, а в самой архитектуре анализа. В этой статье мы подробно разберём оба метода, их сильные и слабые стороны, и объясним, почему чистая словарная проверка уже не справляется с задачами закона 168-ФЗ.
Два подхода к проверке на англицизмы
Прежде чем сравнивать инструменты, важно понять принципиальную разницу между двумя методами обнаружения англицизмов.
Словарный подход
Суть словарного подхода проста: сервис берёт каждое слово из текста и ищет его в заранее составленном нормативном словаре. Если слово найдено в словаре — оно считается допустимым. Если нет — оно помечается как потенциальный англицизм или иностранное заимствование. Именно так работают сервисы ГосСловарь и NormaSlov, опирающиеся на четыре нормативных словаря, утверждённых Правительственной комиссией по русскому языку.
На первый взгляд — логичный метод. Словари — официальный источник, закон ссылается именно на них. Но на практике такой подход порождает массу проблем, которые мы разберём ниже.
ИИ-контекстный подход
Контекстный ИИ-анализ работает принципиально иначе. Вместо поиска слова в словаре нейросеть анализирует значение слова в контексте предложения. Модель понимает, является ли данное слово англицизмом, именем собственным, техническим термином или частью зарегистрированного товарного знака. Именно этот подход используется в сервисе Чисторечь, построенном на YandexGPT.
ИИ-анализ не отменяет словари — он дополняет их. Нейросеть обучена на нормативных данных и использует словарную базу как одну из опорных точек, но при этом учитывает синтаксический, семантический и прагматический контекст каждого слова.
Как работает словарная проверка
Алгоритм словарного сервиса можно описать в четырёх шагах:
- Токенизация. Входной текст разбивается на отдельные слова (токены).
- Нормализация. Каждый токен приводится к начальной форме (лемматизация): «менеджеров» → «менеджер».
- Поиск в словаре. Лемма ищется в базе нормативных словарей. Если слово есть — оно допустимо.
- Маркировка. Если слова нет в словаре, оно помечается как потенциальное нарушение.
Этот подход работает быстро и предсказуемо, но у него есть фундаментальный недостаток: он не понимает контекст. Слово проверяется изолированно, вне предложения.
Проблемы словарной проверки
1. Отсутствие понимания контекста
Это главная и самая серьёзная проблема. Рассмотрим примеры:
- «Лайн» — словарь пометит как англицизм. Но если это часть фамилии «Андрей Лайн» или название улицы, это ложное срабатывание.
- «Бар» — слово есть в нормативном словаре (единица давления, питейное заведение). Но словарь не отличит «открыт бар» (допустимо) от «open bar на вечеринке» (нарушение).
- «Контент» — словарь пометит как англицизм. Но в предложении «пользовательский контент не подлежит проверке по 168-ФЗ» пометка бессмысленна — закон прямо исключает пользовательский контент из сферы действия.
- «Apple» — это товарный знак, защищённый законом. Словарь пометит его как иностранное слово, но де-юре это допустимое исключение. ИИ это знает и не помечает товарные знаки.
Словарный сервис в каждом из этих случаев либо выдаст ложное срабатывание, либо пропустит реальное нарушение. ИИ-анализ учитывает окружающие слова и принимает решение на основе смысла, а не только формы.
2. Ложные срабатывания на технических терминах и именах собственных
Русский язык активно заимствует технические термины: «сервер», «браузер», «интерфейс», «алгоритм». Многие из них зафиксированы в нормативных словарях, но далеко не все. Новые термины появляются быстрее, чем обновляются словари. Словарный сервис пометит слово «спринт» (в значении итерации разработки) как англицизм, хотя в IT-контексте у него нет устоявшейся русской замены.
Ещё хуже ситуация с именами собственными: фамилии, названия городов, музыкальные группы, бренды. Словарь не может отличить имя собственное от нарицательного. Результат — десятки ложных пометок, в которых пользователю приходится разбираться вручную.
3. Не предлагает конкретных замен в контексте
Словарный сервис в лучшем случае покажет, что слово «не найдено в нормативном словаре». Иногда — предложит общий список возможных замен. Но он не знает контекста, а значит не может подобрать конкретную замену, подходящую именно для данного предложения.
Например, слово «дедлайн» можно заменить на «крайний срок», «предельный срок» или «срок сдачи» — в зависимости от контекста. Словарь даст все три варианта или ни одного. ИИ выберет тот, который органично впишется в конкретное предложение.
4. Не работает с изображениями (OCR)
Закон 168-ФЗ распространяется не только на цифровые тексты, но и на вывески, меню, ценники и рекламные баннеры. Словарный сервис работает только с текстом: вы не можете загрузить фотографию вывески и получить анализ. Вам придётся вручную переписать текст с фото и вставить его в сервис — это долго, неудобно и чревато ошибками.
5. Не работает с SPA-сайтами
Современные сайты часто построены на фреймворках React, Vue, Angular. Контент таких сайтов формируется JavaScript-кодом прямо в браузере. Словарные сервисы получают при запросе страницы пустой HTML-каркас без текста, потому что они не выполняют JavaScript. Результат — анализировать нечего.
Это критичная проблема: по данным BuiltWith, более 40% коммерческих сайтов используют SPA-фреймворки. Если ваш интернет-магазин на React — словарный сервис не сможет проверить ваш сайт.
6. Ограниченные форматы ввода
Большинство словарных сервисов принимают только текст: вставьте в поле — получите результат. PDF, DOCX, архивы ZIP с документами, HTML-код, SQL-дампы — всё это вне зоны покрытия. Пользователь должен сам извлечь текст из каждого файла и вставить его вручную.
Как работает ИИ-анализ Чисторечь
Сервис Чисторечь использует принципиально другую архитектуру. В основе — нейросеть YandexGPT, обученная понимать русский язык на уровне носителя. Вот как устроен процесс анализа.
Понимание контекста
Нейросеть анализирует не отдельные слова, а целые фрагменты текста. Она учитывает грамматическую структуру предложения, значение окружающих слов и прагматику высказывания. Это позволяет:
- Отличить англицизм от имени собственного: «Мы обратились к компании McKinsey» — не нарушение.
- Отличить допустимое заимствование от запрещённого: «сервер базы данных» (в словаре) vs «ивент для команды» (нарушение).
- Распознать товарные знаки: «iPhone», «Adidas», «Google» — допустимые исключения по закону.
- Учесть контекст исключения: пользовательский контент, научные термины, исторические названия.
Конкретные русские замены
Для каждого найденного англицизма Чисторечь предлагает конкретную замену, подходящую по контексту. Не абстрактный список из словаря, а слово или фразу, которые можно подставить в текст прямо сейчас:
- «Наш тренд на рынке» → «Наша тенденция на рынке»
- «Фидбэк от клиентов» → «Обратная связь от клиентов»
- «Дедлайн завтра в 18:00» → «Крайний срок завтра в 18:00»
- «Митинг перенесён» → «Совещание перенесено»
OCR: проверка фотографий вывесок и меню
Чисторечь интегрирует Yandex Vision OCR: вы загружаете фотографию вывески, меню, ценника или рекламного баннера — и система автоматически распознаёт текст на изображении и анализирует его на англицизмы. Не нужно ничего переписывать вручную.
Это особенно важно для ресторанов, кафе, торговых центров и рекламных агентств, где основной контент — именно визуальный: вывески, плакаты, печатные меню.
JS-рендеринг: работа с любыми сайтами
Чисторечь использует полноценный браузерный движок (Playwright) для загрузки страниц. Это значит, что система выполняет весь JavaScript, ждёт рендеринга контента и только потом извлекает текст для анализа. SPA-сайты на React, Vue, Angular, Next.js, Nuxt — всё работает так же, как обычные HTML-страницы.
Кроме того, Чисторечь может анализировать изображения на страницах сайта: баннеры, карточки товаров, встроенную графику — если на них есть текст, он будет распознан через OCR и проверен.
6 типов контента
Чисторечь принимает на вход шесть типов контента, покрывая все основные сценарии бизнеса:
- Текст — вставьте текст и получите мгновенный анализ.
- Документы — PDF и DOCX. Система сама извлечёт текст из файла.
- Изображения — фото вывесок, меню, ценников. OCR + анализ.
- Сайты — любой URL, включая SPA. JS-рендеринг + анализ изображений на странице.
- Архивы — ZIP и TAR с документами. Распаковка, классификация и анализ каждого файла.
- Код — HTML и SQL. Извлечение человеческого текста из разметки и запросов.
Сравнительная таблица: Чисторечь vs словарные сервисы
| Критерий | Словарные сервисы (ГосСловарь, NormaSlov) | Чисторечь (ИИ-анализ) |
|---|---|---|
| Метод анализа | Поиск слова в словаре | ИИ-анализ контекста (YandexGPT) |
| Понимание контекста | Нет | Да — учитывает смысл предложения |
| Имена собственные и бренды | Помечает как ошибку | Распознаёт и не помечает |
| Товарные знаки | Помечает как ошибку | Распознаёт как исключение |
| Русские замены | Общий список или отсутствуют | Конкретная замена под контекст |
| OCR (изображения) | Не поддерживается | Yandex Vision OCR — фото, вывески, меню |
| SPA-сайты (React, Vue) | Не работает (нет JS-рендеринга) | Полный рендеринг через Playwright |
| Документы (PDF, DOCX) | Не поддерживается | Автоматическое извлечение текста |
| Архивы (ZIP, TAR) | Не поддерживается | Распаковка и анализ каждого файла |
| Анализ кода (HTML, SQL) | Не поддерживается | Извлечение текста из разметки |
| Ложные срабатывания | Высокий уровень | Минимальный — за счёт контекста |
| Изображения на страницах | Не анализируются | OCR баннеров и картинок на сайте |
| Подсчёт вхождений | Нет | Количество каждого англицизма в тексте |
| Экспорт результатов | Нет или ограничен | CSV-экспорт и публичные ссылки |
Реальные примеры различий
Чтобы проиллюстрировать разницу, рассмотрим несколько реальных текстов и то, как каждый подход обработает их.
Пример 1: рекламный текст
«Закажите кейтеринг от шеф-повара Джейми Оливера. VIP-обслуживание на вашем ивенте.»
Словарь: пометит «кейтеринг», «шеф», «VIP», «ивенте», «Джейми», «Оливера» — 6 пометок, из которых 2 ложные (имя и фамилия).
Чисторечь: пометит «кейтеринг» (→ «выездное обслуживание»), «VIP» (→ «привилегированное»), «ивенте» (→ «мероприятии») — 3 точных срабатывания с конкретными заменами. «Джейми Оливер» распознан как имя собственное, «шеф-повар» зафиксирован в нормативном словаре.
Пример 2: IT-документация
«Для деплоя используйте Docker. Перед релизом запустите юнит-тесты. Баг-репорты оформляйте в Jira.»
Словарь: пометит всё: «деплоя», «Docker», «релизом», «юнит-тесты», «баг-репорты», «Jira» — 6 пометок. При этом Docker и Jira — товарные знаки, а «юнит-тесты» — устоявшийся технический термин без общепринятой русской замены.
Чисторечь: пометит «деплоя» (→ «развёртывания»), «релизом» (→ «выпуском»), «баг-репорты» (→ «отчёты об ошибках»). Docker и Jira распознаны как товарные знаки. «Юнит-тесты» помечен с оговоркой, что это технический термин.
Пример 3: меню ресторана (фото)
Представьте фотографию меню с позициями: «Chicken Burger», «French Fries», «Milkshake», «Тирамису», «Борщ».
Словарь: не может обработать изображение. Пользователь должен вручную переписать текст.
Чисторечь: распознаёт текст через OCR, определяет «Chicken Burger» (→ «Куриная котлета в булочке»), «French Fries» (→ «Картофель фри»), «Milkshake» (→ «Молочный коктейль»). «Тирамису» и «Борщ» не помечаются.
Когда словарная проверка достаточна
Справедливости ради, у словарного подхода есть свои преимущества:
- Скорость. Поиск в словаре — мгновенная операция. Если нужно быстро проверить одно слово — словарь подойдёт.
- Прозрачность. Логика проста и понятна: слово есть в словаре — допустимо, нет — нарушение. Нет «чёрного ящика».
- Юридическая опора. Нормативные словари — это официальный источник, на который ссылается закон.
Словарная проверка подходит для точечных задач: быстро проверить, зафиксировано ли конкретное слово в нормативном словаре. Но для полноценной проверки текста, сайта, документа или вывески — этого недостаточно.
Когда нужен ИИ-анализ
ИИ-анализ необходим в большинстве рабочих сценариев:
- Проверка сайта — особенно если он на React, Vue или другом SPA-фреймворке. Инструкция по проверке сайта.
- Проверка рекламных материалов — тексты, баннеры, рекламные посты.
- Проверка карточек товаров на маркетплейсах — Wildberries, Ozon, Яндекс Маркет.
- Проверка вывесок и меню — фото, которые нужно распознать.
- Массовая проверка документов — загрузите архив ZIP с десятками PDF и DOCX.
- Подготовка к проверке контролирующих органов — минимизация ложных срабатываний, конкретные замены для редактуры.
Почему контекст важнее словаря
Закон 168-ФЗ запрещает необоснованное использование иностранных слов. Ключевое слово — «необоснованное». Это значит, что сам факт присутствия иностранного слова в тексте не является нарушением. Нарушением является использование иностранного слова вместо существующего русского эквивалента, зафиксированного в нормативных словарях.
Словарь не может определить, обоснованно ли использование слова. Он лишь фиксирует наличие или отсутствие слова в базе. ИИ-анализ оценивает обоснованность: товарный знак — обоснованно; имя собственное — обоснованно; «дедлайн» вместо «крайний срок» — необоснованно.
Именно поэтому проверка на англицизмы ИИ даёт значительно более точный результат с меньшим количеством ложных срабатываний и с готовыми заменами, которые можно сразу применить к тексту.
Итоги
Словарная проверка англицизмов — это базовый инструмент, который полезен для точечных задач: быстро проверить одно слово, узнать, есть ли оно в нормативном словаре. Но для полноценной проверки бизнес-контента — сайтов, рекламы, документов, вывесок — словарей недостаточно.
ИИ-анализ текстов, который использует Чисторечь, решает все ключевые проблемы словарного подхода:
- Понимает контекст и снижает количество ложных срабатываний
- Отличает англицизмы от имён собственных и товарных знаков
- Предлагает конкретные русские замены, подходящие по контексту
- Работает с изображениями (OCR), SPA-сайтами, документами и архивами
- Поддерживает 6 типов контента — от обычного текста до HTML-кода
Закон 168-ФЗ уже действует. Не рискуйте получить штраф из-за неточной проверки. Попробуйте Чисторечь — и убедитесь, что ИИ-анализ находит то, что пропускают словари.