Отправьте статью сегодня! Журнал выйдет ..., печатный экземпляр отправим ...
Опубликовать статью

Молодой учёный

Сравнительный анализ подходов к автоматизированному извлечению данных из растровых изображений кассовых чеков

Научный руководитель
Информационные технологии
11.06.2026
6
Поделиться
Аннотация
В статье авторы исследуют методы автоматизированного извлечения структурированных данных из растровых изображений кассовых чеков. Проведён сравнительный анализ четырёх подходов: коммерческого Vision API, классического OCR-движка Tesseract, low-code платформы n8n и гибридной системы на основе локальных мультимодальных языковых моделей. По результатам тестирования на выборке из 30 чеков установлено, что подход на базе Vision-Language Models обеспечивает оптимальное соотношение точности и автономности обработки.
Библиографическое описание
Абу, Хассан Мохаммад. Сравнительный анализ подходов к автоматизированному извлечению данных из растровых изображений кассовых чеков / Хассан Мохаммад Абу. — Текст : непосредственный // Молодой ученый. — 2026. — № 24 (627). — С. 4-7. — URL: https://moluch.ru/archive/627/138046.


Автоматизированная обработка первичных финансовых документов является актуальной задачей для предприятий малого и среднего бизнеса. Кассовые чеки, регламентированные Федеральным законом № 54-ФЗ [1], содержат верифицированный набор реквизитов: наименование продавца, дату и время расчёта, перечень товаров с ценами, суммы налогов и способ оплаты. Ручная обработка этих документов сопряжена со значительными трудозатратами и высоким риском ошибок ввода.

Применение классических методов оптического распознавания текста (OCR) для обработки кассовых чеков сопряжено с рядом специфических сложностей. Отсутствие единого визуального стандарта разметки, нестабильность термопечати, перспективные искажения фотоизображений и структурная неоднородность документов существенно снижают точность распознавания [2]. В связи с этим актуальным направлением является исследование альтернативных подходов, включая применение мультимодальных нейросетевых моделей.

Целью настоящей работы является сравнительный анализ четырёх подходов к извлечению структурированных данных из изображений кассовых чеков по метрикам точности, производительности и стоимости внедрения.

1. Проблематика OCR-обработки кассовых чеков

Кассовые чеки образуют специфический класс документов, для которых характерно сочетание нормативно закреплённого состава реквизитов и значительного визуального разнообразия форматирования. По данным Thorat et al. [2], объём бумажных документов в торговле достиг масштабов, при которых ручной ввод данных стал системным узким местом. Термопечатная лента шириной 57–80 мм, моноширинный шрифт, выравнивание итоговых сумм по правому краю и использование разделительных строк из повторяющихся символов создают визуальную структуру, недоступную для интерпретации классическими OCR-системами.

Анализ литературы [2, 3, 4] и практическое тестирование, проведённое в рамках настоящего исследования, позволяют выделить три группы проблем. Во-первых, деградация качества изображения: фотографии со смартфонов содержат перспективные искажения, засветы и расфокусировку; термопечать неравномерно выцветает по длине ленты. Во-вторых, структурная неоднородность: слова «ИТОГО», «К ОПЛАТЕ» и «СУММА» семантически равнозначны, но требуют различной логики извлечения данных. В-третьих, лингвистические сложности: торговые аббревиатуры, коды ФФД и кириллица в сочетании с латиницей снижают точность OCR-движков.

Tesseract OCR версии 5.x, основанный на LSTM-архитектуре [2], воспроизводит текст в порядке физического расположения на изображении, не разграничивая заголовок, перечень товаров и итоговые суммы. Как показали Kumar et al. [3], даже с предобработкой средствами OpenCV результат требует ресурсоёмкой постобработки регулярными выражениями, что становится основным источником ошибок при обработке разнородных форматов.

Таблица 1

Классификация проблем OCR-обработки кассовых чеков

Группа проблем

Конкретные проявления

Влияние на точность OCR

Качество изображения

Перспективные искажения, засветы, расфокусировка, выцветание термопечати

Снижение до 40–60 % на дефектных изображениях

Структурная неоднородность

Отсутствие стандарта разметки, вариативность реквизитов

Ошибки при извлечении итого, даты, продавца

Специфическая лексика

Аббревиатуры, коды ФФД, сокращения номенклатуры

Семантические ошибки постобработки

Формат термоленты

Ширина 57/80 мм, перенос строк, правое выравнивание

Нарушение структуры строк

2. Методология сравнительного исследования

В рамках исследования разработаны и протестированы четыре прототипа системы, реализующие принципиально различные подходы к решению задачи. Прототип 1 основан на коммерческом Vision API (claude-sonnet-4, Anthropic) и реализован в виде браузерного одностраничного приложения без серверной части. Прототип 2 реализует классический конвейер OCR: предобработка изображений средствами OpenCV, символьное распознавание Tesseract 5.x с языковой конфигурацией eng+rus, постобработка регулярными выражениями. Прототип 3 построен на low-code платформе n8n с использованием Google Cloud Vision API в качестве OCR-компонента. Прототип 4 представляет собой гибридную клиент-серверную систему FastAPI + Ollama с локальными VLM-моделями LLaVA и Mistral.

Тестирование проводилось на выборке из 30 изображений кассовых чеков, стратифицированных по типу торговой точки (продуктовые магазины, кафе, аптеки, АЗС), качеству изображения (высокое — 10, среднее — 12, низкое — 8) и языковому составу (русский — 24, смешанный — 6). Для оценки применялись следующие метрики: FER (Field Extraction Rate) — доля корректно извлечённых полей; OA (Overall Accuracy) — среднее значение FER по пяти ключевым полям; IER (Items Extraction Rate) — доля чеков с полным перечнем товарных позиций; PT (Processing Time) — среднее время обработки одного чека.

Эталонные значения для всех полей получены двукратной ручной разметкой с интервалом две недели. Коэффициент Коэна κ для числовых полей составил 0,94, для текстовых — 0,89, что подтверждает высокую надёжность разметки. Тестирование выполнялось на единой аппаратной платформе: рабочая станция Intel Core i7–12700K, 32 ГБ ОЗУ, NVIDIA RTX 3060 (12 ГБ VRAM).

3. Результаты сравнительного анализа

Результаты тестирования приведены в таблице 2. Данные демонстрируют устойчивую закономерность: AI-подходы превосходят Tesseract по всем полям, причём разрыв нарастает от структурно простых полей к структурно сложным. Для поля «дата» разрыв между П1 и П2 составляет 23 п.п. (97 % против 74 %), тогда как для поля «позиции» он достигает 53 п.п. (84 % против 31 %). Это свидетельствует о принципиальном преимуществе семантического понимания документа над символьным распознаванием при обработке структурно вариативных данных.

Таблица 2

Field Extraction Rate по ключевым полям чека, %

Поле

П1: AI Vision

П2: Tesseract

П3: n8n+Cloud

П4: Ollama LLaVA

Продавец

93

58

71

86

Дата

97

74

79

91

Итоговая сумма

96

61

76

89

НДС

89

43

58

79

Позиции (IER)

84

31

45

72

Overall Accuracy

91

56

70

84

Анализ зависимости точности от качества изображений (таблица 3) выявляет принципиальное свойство VLM — устойчивость к деградации входных данных. Падение точности Tesseract при переходе от изображений высокого к низкому качеству составляет 46 п.п. (74 % → 28 %), тогда как для LLaVA — лишь 20 п.п. (91 % → 71 %). Vision-Language Models обучены на миллионах разнообразных изображений и демонстрируют устойчивость к шумам, которая принципиально недостижима для движков, оптимизированных под качественный печатный текст [4].

Таблица 3

Overall Accuracy по группам качества изображений, %

Качество изображения

П1: AI Vision

П2: Tesseract

П3: n8n+Cloud

П4: Ollama

Высокое (n=10)

96

74

84

91

Среднее (n=12)

90

52

68

83

Низкое (n=8)

82

28

47

71

Исследование платформы n8n Cloud выявило архитектурное ограничение, непреодолимое средствами конфигурации: блокировку запросов к localhost как защиту от SSRF-атак. Это исключает возможность использования локальных AI-моделей в облачном развёртывании и делает платформу несовместимой с требованием конфиденциальности финансовых данных. Данное наблюдение представляет самостоятельную методологическую ценность: при проектировании AI-поддержанных конвейеров обработки документов необходима заблаговременная верификация сетевых ограничений выбранной платформы.

4. Архитектура финальной системы

По совокупности показателей в качестве финальной реализации выбран Прототип 4 (FastAPI + Ollama). Система реализует многоуровневый конвейер обработки: предобработка изображений (OpenCV) → символьное распознавание (Tesseract) → семантический AI-анализ (Ollama LLaVA/Mistral) → резервный regex-парсер. Принцип graceful degradation обеспечивает работоспособность при любой конфигурации развёртывания: система автоматически переключается на менее точный, но всегда доступный метод при недоступности AI-компонента.

Трёхуровневая стратегия AI-анализа функционирует следующим образом. На первом уровне, при наличии модели LLaVA в каталоге Ollama, изображение передаётся напрямую в vision-модель без промежуточного OCR (temperature=0,05, timeout 120 с). На втором уровне, при отсутствии vision-модели, OCR-текст Tesseract направляется в текстовую LLM (приоритет: Mistral → LLaMA → Gemma → Phi, timeout 60 с). На третьем уровне, при недоступности Ollama, активируется детерминированный regex-парсер. Переключение между уровнями выполняется автоматически по результатам асинхронного опроса эндпоинта /api/tags с таймаутом 4 секунды.

Конвейер предобработки изображений включает четыре этапа. Первый — конвертация в оттенки серого и масштабирование до минимального размера 1200 пикселей с интерполяцией INTER_CUBIC. Второй — шумоподавление через cv2.fastNlMeansDenoising (h=10). Третий — коррекция перекоса преобразованием Хафа с порогом 0,5°. Четвёртый — адаптивная бинаризация (cv2.adaptiveThreshold, GAUSSIAN_C, блок 31 пиксель) для устранения неравномерности освещения.

Время обработки в режиме LLaVA на GPU составляет в среднем 18 секунд, в режиме Mistral на CPU — 31 секунду, в режиме Tesseract+regex — 5 секунд. Асинхронный интерфейс частично компенсирует накладные расходы нейросетевого инференса при пакетной обработке: пока сервер обрабатывает текущий чек, пользователь загружает следующий. Практическое ускорение относительно ручного ввода составляет 4–10 раз при снижении потребности в ручной верификации до 16 % полей.

Заключение

Проведённый сравнительный анализ установил, что разрыв в Overall Accuracy между лучшим AI-подходом (Ollama LLaVA, 84 %) и классическим Tesseract OCR (56 %) составляет 28 п.п., а на изображениях низкого качества достигает 43 п.п. (71 % против 28 %). Коммерческий Vision API (Claude) обеспечивает наивысшую точность (91 %), однако несовместим с требованиями конфиденциальности и автономности обработки финансовых данных. Разработанная система FastAPI + Ollama достигает точности 84 % при полной локальности, нулевой стоимости использования и автоматическом резервировании методов. Результаты исследования могут быть применены при проектировании систем интеллектуальной обработки документов для предприятий с ограниченными ресурсами.

Литература:

  1. Федеральный закон от 22.05.2003 № 54-ФЗ «О применении контрольно-кассовой техники» (ред. от 08.08.2024) // СЗ РФ. — 2003. — № 21. — Ст. 1957.
  2. Thorat C., Bhat A., Sawant P. A Detailed Review on Text Extraction Using OCR // LNNS. — Springer, 2022. — P. 719–728. — DOI: 10.1007/978–981–16–5655–2_69.
  3. Kumar V., Kaware P., Singh P. Extraction of Information from Bill Receipts Using OCR // ICOSEC. — IEEE, 2020. — P. 72–77. — DOI: 10.1109/icosec49089.2020.9215246.
  4. Liu H. et al. Visual Instruction Tuning (LLaVA) // NeurIPS 2023. — Vol. 36. — P. 34892–34916.
  5. Wang X., Zhang X., Lei S. Text Detection and Recognition from Receipt Images // J. Physics. — 2020. — Vol. 1518. — DOI: 10.1088/1742–6596/1518/1/012053.
  6. Villa-García P. A. et al. End-to-End Entity Extraction from OCRed Texts // Neural Computing and Applications. — 2024. — Vol. 36. — P. 22347–22363. — DOI: 10.1007/s00521–024–10422–9.
  7. Jiang A. Q. et al. Mistral 7B // arXiv:2310.06825. — 2023.
  8. Lewis P. et al. Retrieval-Augmented Generation for NLP Tasks // NeurIPS 2020. — Vol. 33. — P. 9459–9474.
Можно быстро и просто опубликовать свою научную статью в журнале «Молодой Ученый». Сразу предоставляем препринт и справку о публикации.
Опубликовать статью
Молодой учёный №24 (627) июнь 2026 г.
Скачать часть журнала с этой статьей(стр. 4-7):
Часть 1 (стр. 1-67)
Расположение в файле:
стр. 1стр. 4-7стр. 67
Похожие статьи
Обучение моделей распознавания Tesseract с использованием языковых моделей типа GPT и программной роботизации
Возможности использования технологии OCR в мобильных поисковых системах
Исследование нейросетевых методов распознавания рукописного текста в задачах автоматизированной проверки школьных диктантов
Гибридные модели машинного обучения для обнаружения финансового мошенничества в потоковых данных
Автоматическая система контроля параметров продукции на основе машинного зрения
Искусственный интеллект в кредитном скоринге: разработка, обучение и применение модели
Разработка программы для оптического распознавания символов с помощью Tesseract
Предсказание остатка денежных средств в банкомате с помощью методов машинного обучения
Концептуальная модель совершенствования технологий автоматической регистрации таможенных деклараций и автоматического выпуска товаров в Российской Федерации
Разработка автоматизированной системы распознавания государственных регистрационных знаков транспортных средств

Молодой учёный