Механизмы селективного внимания для обнаружения, классификации объектов субоптимального разрешения в сложных сценах

Майор Михаил Владимирович; Тулынин Иван Алексеевич; Белов Юрий Сергеевич

Способность человеческого зрения безошибочно идентифицировать объект в условиях тумана, толпы или размытого изображения давно привлекает исследователей. Ключ здесь — не в абсолютной разрешающей способности глаза, а в мастерском использовании контекста. Контекст выступает активным когнитивным усилителем, позволяющим мозгу «достраивать» недостающие фрагменты и подавлять шум [1, с. 618].

Нейрофизиологические исследования с использованием фМРТ показали, что контекст начинает влиять на распознавание уже через 160–200 миллисекунд после стимула. Сначала активируется сценоселективная область (OPA), отвечающая за глобальную структуру сцены. Ещё через 60–100 мс включается латеральная затылочная кора (LOC), где локальные признаки объекта интегрируются с контекстными сигналами [2, с. 599]. Эксперименты с транскраниальной магнитной стимуляцией подтверждают причинно-следственную роль OPA: её временное подавление резко ухудшает распознавание объектов в сложных сценах, тогда как идентификация изолированных объектов не страдает. Это доказывает, что контекст работает как нисходящий (top-down) процесс, особенно значимый при высокой визуальной неопределённости [3, с. 275].

Прямым вычислительным аналогом этих биологических механизмов стали механизмы внимания в глубоком обучении. Базовый принцип самовнимания (self-attention) адаптирован для компьютерного зрения и позволяет модели динамически взвешивать важность разных частей изображения [4, с. 7795]. Современные архитектуры воплощают его в специализированных модулях. Блок контекстного внимания (CAB) использует многомасштабные карты признаков для усиления сигналов от малых или зашумлённых объектов. Кросс-разрежённое слияние (CFD) интегрирует контекст на этапе субдискретизации, сохраняя семантическую информацию. Деформируемые свёрточные сети (DCN) адаптивно меняют форму рецептивных полей, что особенно полезно для объектов нестандартной геометрии [5, с. 766].

Для практического применения на устройствах с ограниченными ресурсами важны методы сжатия. Наиболее эффективным оказывается кросс-разрешённое реляционное контрастное дистиллирование, при котором маленькая модель перенимает у большой не только признаки, но и взаимосвязи между объектами и контекстом. Другой критический подход — обучение с осведомлённостью о квантовании (QAT). Он симулирует понижение разрядности весов и активаций ещё на этапе обучения, позволяя модели адаптироваться к искажениям. В итоге удаётся сократить размер модели в 3–4 раза при потере точности всего 1–2 % [6, с. 2706], что открывает путь для развёртывания на edge-устройствах.

Логичным инженерным ответом на понимание контекста как отдельного, но координируемого потока стали двухпоточные сети. В современном паттерне для статического изображения контекстный поток работает со всем кадром или его крупными областями, формируя «понимание» сцены с помощью пирамидальных структур или трансформеров. Объектный поток фокусируется на регионах интереса, анализируя локальные признаки. Эксперименты показывают, что явное добавление контекстного пути повышает среднюю точность (mAP) на 2–5 процентных пункта по сравнению с одиночным потоком. Ключевой вопрос — где и как сливать информацию. Ранняя фузия объединяет признаки на низких уровнях, эффективно подавляя шум, но рискуя «размыть» детали. Поздняя фузия сохраняет чистоту каждого потока, но требует умения разрешать семантические конфликты. Каскадная (многоуровневая) фузия — наиболее распространённый гибридный подход. «Клеем», связывающим потоки, служат механизмы пространственного и канального внимания, а также деформируемые свёртки для геометрической согласованности.

Эволюция двухпоточного паттерна привела к гибридным конвейерам, объединяющим сильные стороны CNN (локальность, эффективность) и трансформеров (глобальные зависимости) [8, с. 10014]. Типичная конфигурация: объектный поток — компактная CNN с усиленной пирамидой признаков, контекстный поток — видение-трансформер, обрабатывающий всё изображение. Взаимодействие реализуется через кросс-внимание, где запросы формируются из объектных признаков, а ключи и значения — из контекстных. Это позволяет каждому кандидату «запрашивать» релевантный контекст. На практике даже тонкая интеграция блоков самовнимания в «шею» детектора повышает чувствительность к мелким и перекрытым объектам.

Однако мощный контекстный анализ создаёт и уязвимости. Первый вызов — шум. Наивное усиление контекста в зашумлённой сцене приводит к накоплению ошибок. Решением служит динамическое взвешивание достоверности (confidence gate): модель оценивает энтропию карт признаков и в зашумлённых регионах автоматически снижает вес ненадёжного объектного потока, полагаясь на очищенный глобальный контекст. На датасетах с гауссовым шумом такой подход сохраняет до 90 % точности, тогда как стандартная двухпоточная архитектура деградирует на 15–20 %.

Второй вызов — малые объекты (менее 32×32 пикселей). Стандартные операции пулинга безвозвратно теряют их признаки. Нейробиологический аналог — периферийное зрение человека, которое эффективно обнаруживает объекты за счёт сценового контекста и быстрых движений глаз. В архитектурах применяется многоуровневая пирамида контекста: низкоуровневые карты обеспечивают точную локализацию, высокоуровневые — семантику для классификации. Дополнительно используется контекстное «приближение» (contextual zoom) — после первоначального обнаружения кандидата модель извлекает высокоразрешённый патч вокруг него. Для групп малых объектов (стая птиц, скопление машин) эффективны графовые нейронные сети, кодирующие взаимные отношения. На специализированных датасетах (VisDrone) комбинация методов даёт прирост точности по малым объектам до 8–12 %.

Самый сложный вызов — семантическая инконгруэнтность: появление объекта в нетипичном контексте (корова в гостиной). Сильная зависимость от контекста превращается здесь в ахиллесову пяту — модель «видит» то, что «должно быть», игнорируя реальность. Нейробиологически это напоминает перцептивные иллюзии, где мощные top-down ожидания подавляют сенсорные данные. Архитектурное решение — детектор семантического конфликта, лёгкий модуль, предсказывающий вероятность несоответствия между объектным и контекстным потоками. При высоком сигнале конфликта вес контекстного потока снижается, а объектный поток получает дополнительный вычислительный ресурс для углублённого анализа локальных признаков. Дополнительно применяется контрастное обучение на инконгруэнтных парах, заставляющее модель извлекать признаки, инвариантные к контексту. На модифицированном COCO такие системы повышают точность распознавания аномальных объектов на 25–30 % по сравнению с моделью, слепо полагающейся на контекст.

Преодоление описанных ограничений знаменует переход от пассивной обработки к активному восприятию (active vision) [9, с. 967]. Будущая модель — это не просто детектор, а агент, который целенаправленно запрашивает недостающую информацию, меняет «взгляд» и разрешение. Цикл активного восприятия начинается с первичной гипотезы о сцене. Затем внутренний модуль вычисляет карту неуверенности (энтропия предсказаний). Политика, обученная с подкреплением, выбирает следующее действие: смещение фовеального окна высокого разрешения, изменение масштаба или запрос дополнительной модальности. Действие выполняется, внутреннее состояние обновляется, и цикл повторяется до достижения достаточной уверенности. Такой подход радикально снижает зависимость от зашумлённого фона и ложных контекстных сигналов. На рис. 1 представлена схема этого итеративного процесса.

Схема активного восприятия: итеративный цикл «восприятие — действие — обновление состояния» (адаптировано из [9, с. 970]).

Рис. 1. Схема активного восприятия: итеративный цикл «восприятие — действие — обновление состояния» (адаптировано из [9, с. 970]).

Активность распространяется и на внутреннюю архитектуру. Принцип условных вычислений означает, что глубина и разрешение обработки выбираются динамически. «Дорогие» трансформерные блоки активируются только для регионов с высоким конфликтом или неуверенностью. Для простых конгруэнтных регионов модель может делать ранний выход, экономя до 60–70 % вычислений. В паре с QAT это позволяет удерживать инференс в реальном времени на edge-устройствах. При обнаружении семантического конфликта робастная система должна уметь совершать физические действия: для статичной камеры — запрос переэкспозиции или ИК-канала, для дрона — приближение или облёт. В мультиагентных системах контекст распределяется между несколькими дронами, а их представления согласуются через распределённое кросс-внимание. Наконец, в условиях открытого мира система должна обнаруживать новые (out-of-distribution) объекты и адаптироваться через мета-обучение и активную выборку трудных примеров. Кросс-модальный диалог с базами знаний и другими сенсорами (лидар, тактильные датчики) также становится неотъемлемой частью перспективных решений.

Эволюция использования контекста в компьютерном зрении прошла путь от нейробиологических основ до сложных статических архитектур, затем до борьбы с ограничениями и, наконец, до парадигмы активного восприятия. Будущие системы не будут пассивными анализаторами пикселей. Они станут активными агентами, использующими контекст как динамическую, проверяемую гипотезу. Такие системы смогут разумно распределять ресурсы, взаимодействовать со средой, обучаться на лету и объяснять свои решения — приближая нас к по-настоящему робастному и адаптивному машинному зрению.

Литература:

Bar, M. Visual objects in context / M. Bar. — Текст: непосредственный // Nature Reviews Neuroscience. — 2004. — № 5(8). — С. 617–629.
Epstein, R. A cortical representation of the local visual environment / R. Epstein, N. Kanwisher. — Текст: непосредственный // Nature. — 1998. — № 392(6676). — С. 598–601.
Kersten, D. Object perception as Bayesian inference / D. Kersten, P. Mamassian, A. Yuille. — Текст: непосредственный // Annual Review of Psychology. — 2004. — № 55. — С. 271–304.
Non-local neural networks / X. Wang, R. Girshick, A. Gupta, K. He. — Текст: непосредственный // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). —, 2018. — С. 7794–7803.
Deformable convolutional networks / J. Dai, H. Qi, Y. Xiong [и др.]. — Текст: непосредственный // Proceedings of the IEEE International Conference on Computer Vision (ICCV). —, 2017. — С. 764–773.
Quantization and training of neural networks for efficient integer-arithmetic-only inference / B. Jacob, S. Kligys, B. Chen [и др.]. — Текст: непосредственный // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). —, 2018. — С. 2704–2713.
Feichtenhofer, C. Convolutional two-stream network fusion for video action recognition / C. Feichtenhofer, A. Pinz, A. Zisserman. — Текст: непосредственный // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). —, 2016. — С. 1933–1941.
Swin transformer: Hierarchical vision transformer using shifted windows / Z. Liu, Y. Lin, Y. Cao [и др.]. — Текст: непосредственный // Proceedings of the IEEE International Conference on Computer Vision (ICCV). —, 2021. — С. 10012–10022.
Bajcsy, R. Active perception / R. Bajcsy. — Текст: непосредственный // Proceedings of the IEEE. — 1988. — № 8. — С. 966–1005.
End-to-end object detection with transformers / N. Carion, F. Massa, G. Synnaeve [и др.]. — Текст: непосредственный // Proceedings of the European Conference on Computer Vision (ECCV). —, 2020. — С. 213–229.

Молодой учёный

Механизмы селективного внимания для обнаружения, классификации объектов субоптимального разрешения в сложных сценах

Механизмы селективного внимания для обнаружения, классификации объектов субоптимального разрешения в сложных сценах

Молодой учёный