Главная Блог ИИ-анализ vs словарная проверка

ИИ-анализ vs словарная проверка: почему словари недостаточно

Технологии

С 1 марта 2026 года закон 168-ФЗ обязывает бизнес убрать из публичных материалов необоснованные англицизмы. Штрафы реальны — до 500 000 ₽ для юридических лиц. Первый вопрос, который встаёт перед каждым предпринимателем, маркетологом и редактором: как быстро и точно проверить текст на запрещённые иностранные слова?

На рынке сегодня представлены два принципиально разных подхода: словарная проверка (сервисы вроде ГосСловарь, NormaSlov) и ИИ-анализ контекста (Чисторечь на базе YandexGPT). Разница между ними — не в интерфейсе, а в самой архитектуре анализа. В этой статье мы подробно разберём оба метода, их сильные и слабые стороны, и объясним, почему чистая словарная проверка уже не справляется с задачами закона 168-ФЗ.

Два подхода к проверке на англицизмы

Прежде чем сравнивать инструменты, важно понять принципиальную разницу между двумя методами обнаружения англицизмов.

Словарный подход

Суть словарного подхода проста: сервис берёт каждое слово из текста и ищет его в заранее составленном нормативном словаре. Если слово найдено в словаре — оно считается допустимым. Если нет — оно помечается как потенциальный англицизм или иностранное заимствование. Именно так работают сервисы ГосСловарь и NormaSlov, опирающиеся на четыре нормативных словаря, утверждённых Правительственной комиссией по русскому языку.

На первый взгляд — логичный метод. Словари — официальный источник, закон ссылается именно на них. Но на практике такой подход порождает массу проблем, которые мы разберём ниже.

ИИ-контекстный подход

Контекстный ИИ-анализ работает принципиально иначе. Вместо поиска слова в словаре нейросеть анализирует значение слова в контексте предложения. Модель понимает, является ли данное слово англицизмом, именем собственным, техническим термином или частью зарегистрированного товарного знака. Именно этот подход используется в сервисе Чисторечь, построенном на YandexGPT.

ИИ-анализ не отменяет словари — он дополняет их. Нейросеть обучена на нормативных данных и использует словарную базу как одну из опорных точек, но при этом учитывает синтаксический, семантический и прагматический контекст каждого слова.

Как работает словарная проверка

Алгоритм словарного сервиса можно описать в четырёх шагах:

  1. Токенизация. Входной текст разбивается на отдельные слова (токены).
  2. Нормализация. Каждый токен приводится к начальной форме (лемматизация): «менеджеров» → «менеджер».
  3. Поиск в словаре. Лемма ищется в базе нормативных словарей. Если слово есть — оно допустимо.
  4. Маркировка. Если слова нет в словаре, оно помечается как потенциальное нарушение.

Этот подход работает быстро и предсказуемо, но у него есть фундаментальный недостаток: он не понимает контекст. Слово проверяется изолированно, вне предложения.

Проблемы словарной проверки

1. Отсутствие понимания контекста

Это главная и самая серьёзная проблема. Рассмотрим примеры:

  • «Лайн» — словарь пометит как англицизм. Но если это часть фамилии «Андрей Лайн» или название улицы, это ложное срабатывание.
  • «Бар» — слово есть в нормативном словаре (единица давления, питейное заведение). Но словарь не отличит «открыт бар» (допустимо) от «open bar на вечеринке» (нарушение).
  • «Контент» — словарь пометит как англицизм. Но в предложении «пользовательский контент не подлежит проверке по 168-ФЗ» пометка бессмысленна — закон прямо исключает пользовательский контент из сферы действия.
  • «Apple» — это товарный знак, защищённый законом. Словарь пометит его как иностранное слово, но де-юре это допустимое исключение. ИИ это знает и не помечает товарные знаки.

Словарный сервис в каждом из этих случаев либо выдаст ложное срабатывание, либо пропустит реальное нарушение. ИИ-анализ учитывает окружающие слова и принимает решение на основе смысла, а не только формы.

2. Ложные срабатывания на технических терминах и именах собственных

Русский язык активно заимствует технические термины: «сервер», «браузер», «интерфейс», «алгоритм». Многие из них зафиксированы в нормативных словарях, но далеко не все. Новые термины появляются быстрее, чем обновляются словари. Словарный сервис пометит слово «спринт» (в значении итерации разработки) как англицизм, хотя в IT-контексте у него нет устоявшейся русской замены.

Ещё хуже ситуация с именами собственными: фамилии, названия городов, музыкальные группы, бренды. Словарь не может отличить имя собственное от нарицательного. Результат — десятки ложных пометок, в которых пользователю приходится разбираться вручную.

3. Не предлагает конкретных замен в контексте

Словарный сервис в лучшем случае покажет, что слово «не найдено в нормативном словаре». Иногда — предложит общий список возможных замен. Но он не знает контекста, а значит не может подобрать конкретную замену, подходящую именно для данного предложения.

Например, слово «дедлайн» можно заменить на «крайний срок», «предельный срок» или «срок сдачи» — в зависимости от контекста. Словарь даст все три варианта или ни одного. ИИ выберет тот, который органично впишется в конкретное предложение.

4. Не работает с изображениями (OCR)

Закон 168-ФЗ распространяется не только на цифровые тексты, но и на вывески, меню, ценники и рекламные баннеры. Словарный сервис работает только с текстом: вы не можете загрузить фотографию вывески и получить анализ. Вам придётся вручную переписать текст с фото и вставить его в сервис — это долго, неудобно и чревато ошибками.

5. Не работает с SPA-сайтами

Современные сайты часто построены на фреймворках React, Vue, Angular. Контент таких сайтов формируется JavaScript-кодом прямо в браузере. Словарные сервисы получают при запросе страницы пустой HTML-каркас без текста, потому что они не выполняют JavaScript. Результат — анализировать нечего.

Это критичная проблема: по данным BuiltWith, более 40% коммерческих сайтов используют SPA-фреймворки. Если ваш интернет-магазин на React — словарный сервис не сможет проверить ваш сайт.

6. Ограниченные форматы ввода

Большинство словарных сервисов принимают только текст: вставьте в поле — получите результат. PDF, DOCX, архивы ZIP с документами, HTML-код, SQL-дампы — всё это вне зоны покрытия. Пользователь должен сам извлечь текст из каждого файла и вставить его вручную.

Как работает ИИ-анализ Чисторечь

Сервис Чисторечь использует принципиально другую архитектуру. В основе — нейросеть YandexGPT, обученная понимать русский язык на уровне носителя. Вот как устроен процесс анализа.

Понимание контекста

Нейросеть анализирует не отдельные слова, а целые фрагменты текста. Она учитывает грамматическую структуру предложения, значение окружающих слов и прагматику высказывания. Это позволяет:

  • Отличить англицизм от имени собственного: «Мы обратились к компании McKinsey» — не нарушение.
  • Отличить допустимое заимствование от запрещённого: «сервер базы данных» (в словаре) vs «ивент для команды» (нарушение).
  • Распознать товарные знаки: «iPhone», «Adidas», «Google» — допустимые исключения по закону.
  • Учесть контекст исключения: пользовательский контент, научные термины, исторические названия.

Конкретные русские замены

Для каждого найденного англицизма Чисторечь предлагает конкретную замену, подходящую по контексту. Не абстрактный список из словаря, а слово или фразу, которые можно подставить в текст прямо сейчас:

  • «Наш тренд на рынке» → «Наша тенденция на рынке»
  • «Фидбэк от клиентов» → «Обратная связь от клиентов»
  • «Дедлайн завтра в 18:00» → «Крайний срок завтра в 18:00»
  • «Митинг перенесён» → «Совещание перенесено»

OCR: проверка фотографий вывесок и меню

Чисторечь интегрирует Yandex Vision OCR: вы загружаете фотографию вывески, меню, ценника или рекламного баннера — и система автоматически распознаёт текст на изображении и анализирует его на англицизмы. Не нужно ничего переписывать вручную.

Это особенно важно для ресторанов, кафе, торговых центров и рекламных агентств, где основной контент — именно визуальный: вывески, плакаты, печатные меню.

JS-рендеринг: работа с любыми сайтами

Чисторечь использует полноценный браузерный движок (Playwright) для загрузки страниц. Это значит, что система выполняет весь JavaScript, ждёт рендеринга контента и только потом извлекает текст для анализа. SPA-сайты на React, Vue, Angular, Next.js, Nuxt — всё работает так же, как обычные HTML-страницы.

Кроме того, Чисторечь может анализировать изображения на страницах сайта: баннеры, карточки товаров, встроенную графику — если на них есть текст, он будет распознан через OCR и проверен.

6 типов контента

Чисторечь принимает на вход шесть типов контента, покрывая все основные сценарии бизнеса:

  1. Текст — вставьте текст и получите мгновенный анализ.
  2. Документы — PDF и DOCX. Система сама извлечёт текст из файла.
  3. Изображения — фото вывесок, меню, ценников. OCR + анализ.
  4. Сайты — любой URL, включая SPA. JS-рендеринг + анализ изображений на странице.
  5. Архивы — ZIP и TAR с документами. Распаковка, классификация и анализ каждого файла.
  6. Код — HTML и SQL. Извлечение человеческого текста из разметки и запросов.

Сравнительная таблица: Чисторечь vs словарные сервисы

Критерий Словарные сервисы (ГосСловарь, NormaSlov) Чисторечь (ИИ-анализ)
Метод анализа Поиск слова в словаре ИИ-анализ контекста (YandexGPT)
Понимание контекста Нет Да — учитывает смысл предложения
Имена собственные и бренды Помечает как ошибку Распознаёт и не помечает
Товарные знаки Помечает как ошибку Распознаёт как исключение
Русские замены Общий список или отсутствуют Конкретная замена под контекст
OCR (изображения) Не поддерживается Yandex Vision OCR — фото, вывески, меню
SPA-сайты (React, Vue) Не работает (нет JS-рендеринга) Полный рендеринг через Playwright
Документы (PDF, DOCX) Не поддерживается Автоматическое извлечение текста
Архивы (ZIP, TAR) Не поддерживается Распаковка и анализ каждого файла
Анализ кода (HTML, SQL) Не поддерживается Извлечение текста из разметки
Ложные срабатывания Высокий уровень Минимальный — за счёт контекста
Изображения на страницах Не анализируются OCR баннеров и картинок на сайте
Подсчёт вхождений Нет Количество каждого англицизма в тексте
Экспорт результатов Нет или ограничен CSV-экспорт и публичные ссылки

Реальные примеры различий

Чтобы проиллюстрировать разницу, рассмотрим несколько реальных текстов и то, как каждый подход обработает их.

Пример 1: рекламный текст

«Закажите кейтеринг от шеф-повара Джейми Оливера. VIP-обслуживание на вашем ивенте.»

Словарь: пометит «кейтеринг», «шеф», «VIP», «ивенте», «Джейми», «Оливера» — 6 пометок, из которых 2 ложные (имя и фамилия).

Чисторечь: пометит «кейтеринг» (→ «выездное обслуживание»), «VIP» (→ «привилегированное»), «ивенте» (→ «мероприятии») — 3 точных срабатывания с конкретными заменами. «Джейми Оливер» распознан как имя собственное, «шеф-повар» зафиксирован в нормативном словаре.

Пример 2: IT-документация

«Для деплоя используйте Docker. Перед релизом запустите юнит-тесты. Баг-репорты оформляйте в Jira.»

Словарь: пометит всё: «деплоя», «Docker», «релизом», «юнит-тесты», «баг-репорты», «Jira» — 6 пометок. При этом Docker и Jira — товарные знаки, а «юнит-тесты» — устоявшийся технический термин без общепринятой русской замены.

Чисторечь: пометит «деплоя» (→ «развёртывания»), «релизом» (→ «выпуском»), «баг-репорты» (→ «отчёты об ошибках»). Docker и Jira распознаны как товарные знаки. «Юнит-тесты» помечен с оговоркой, что это технический термин.

Пример 3: меню ресторана (фото)

Представьте фотографию меню с позициями: «Chicken Burger», «French Fries», «Milkshake», «Тирамису», «Борщ».

Словарь: не может обработать изображение. Пользователь должен вручную переписать текст.

Чисторечь: распознаёт текст через OCR, определяет «Chicken Burger» (→ «Куриная котлета в булочке»), «French Fries» (→ «Картофель фри»), «Milkshake» (→ «Молочный коктейль»). «Тирамису» и «Борщ» не помечаются.

Когда словарная проверка достаточна

Справедливости ради, у словарного подхода есть свои преимущества:

  • Скорость. Поиск в словаре — мгновенная операция. Если нужно быстро проверить одно слово — словарь подойдёт.
  • Прозрачность. Логика проста и понятна: слово есть в словаре — допустимо, нет — нарушение. Нет «чёрного ящика».
  • Юридическая опора. Нормативные словари — это официальный источник, на который ссылается закон.

Словарная проверка подходит для точечных задач: быстро проверить, зафиксировано ли конкретное слово в нормативном словаре. Но для полноценной проверки текста, сайта, документа или вывески — этого недостаточно.

Когда нужен ИИ-анализ

ИИ-анализ необходим в большинстве рабочих сценариев:

  • Проверка сайта — особенно если он на React, Vue или другом SPA-фреймворке. Инструкция по проверке сайта.
  • Проверка рекламных материалов — тексты, баннеры, рекламные посты.
  • Проверка карточек товаров на маркетплейсах — Wildberries, Ozon, Яндекс Маркет.
  • Проверка вывесок и меню — фото, которые нужно распознать.
  • Массовая проверка документов — загрузите архив ZIP с десятками PDF и DOCX.
  • Подготовка к проверке контролирующих органов — минимизация ложных срабатываний, конкретные замены для редактуры.

Почему контекст важнее словаря

Закон 168-ФЗ запрещает необоснованное использование иностранных слов. Ключевое слово — «необоснованное». Это значит, что сам факт присутствия иностранного слова в тексте не является нарушением. Нарушением является использование иностранного слова вместо существующего русского эквивалента, зафиксированного в нормативных словарях.

Словарь не может определить, обоснованно ли использование слова. Он лишь фиксирует наличие или отсутствие слова в базе. ИИ-анализ оценивает обоснованность: товарный знак — обоснованно; имя собственное — обоснованно; «дедлайн» вместо «крайний срок» — необоснованно.

Именно поэтому проверка на англицизмы ИИ даёт значительно более точный результат с меньшим количеством ложных срабатываний и с готовыми заменами, которые можно сразу применить к тексту.

Итоги

Словарная проверка англицизмов — это базовый инструмент, который полезен для точечных задач: быстро проверить одно слово, узнать, есть ли оно в нормативном словаре. Но для полноценной проверки бизнес-контента — сайтов, рекламы, документов, вывесок — словарей недостаточно.

ИИ-анализ текстов, который использует Чисторечь, решает все ключевые проблемы словарного подхода:

  • Понимает контекст и снижает количество ложных срабатываний
  • Отличает англицизмы от имён собственных и товарных знаков
  • Предлагает конкретные русские замены, подходящие по контексту
  • Работает с изображениями (OCR), SPA-сайтами, документами и архивами
  • Поддерживает 6 типов контента — от обычного текста до HTML-кода

Закон 168-ФЗ уже действует. Не рискуйте получить штраф из-за неточной проверки. Попробуйте Чисторечь — и убедитесь, что ИИ-анализ находит то, что пропускают словари.

Проверьте свой бизнес на англицизмы

Закон 168-ФЗ уже действует. ИИ-анализ найдёт запрещённые слова и предложит русские замены за секунды.

Начать проверку