Введение
В последние годы методы видеоаналитики получили широкое распространение в футболе для анализа матчей, оценки эффективности игроков и поддержки принятия решений, что подтверждается появлением специализированных наборов данных и исследований, ориентированных на автоматический анализ футбольных видеозаписей [1]. В частности, набор данных SoccerNet-v2 содержит около 300 тыс. ручных аннотаций на 500 полных матчах и используется как один из основных бенчмарков для комплексного понимания трансляций футбола [2]. Видеоанализ в современном футболе стал важным инструментом для тренеров и аналитиков, поскольку позволяет детально изучать игровые эпизоды, тактические решения и индивидуальные действия игроков, способствуя повышению качества подготовки команд [3].
Распознавание действий футболистов по видеоданным является сложной задачей вследствие высокой динамики игры, одновременного присутствия большого числа объектов на поле, смены ракурсов съемки и нестабильного качества видеотрансляций. Для решения данной задачи в литературе предлагается широкий спектр подходов, различающихся как по постановке задачи, так и по используемым моделям и методам обработки видеоданных.
В современных исследованиях выделяются две основные постановки задачи: распознавание действий по коротким видеоклипам (action recognition) и поиск игровых событий во времени в длинных видеозаписях матчей (action spotting). Каждая из этих постановок предъявляет различные требования к структуре данных, разметке и архитектуре моделей. Наряду с методами высокого уровня, важную роль играют вспомогательные этапы анализа видеопотока, включая детекцию и сопровождение игроков и мяча, повторную идентификацию футболистов, а также использование простых визуальных и кинематических признаков.
Дополнительным ограничением для практического применения методов футбольной видеоаналитики является высокая трудоёмкость ручной разметки видеоданных, что стимулирует развитие подходов, направленных на снижение зависимости от аннотированных данных и повышение масштабируемости решений.
Целью данной работы является обзор подходов машинного обучения, применяемых для распознавания действий футболистов на игровом поле по видеоданным, включая нейросетевые модели для анализа видеоклипов и длинных матчей, а также вспомогательные методы обработки видеопотока, используемые в современных системах футбольной видеоаналитики.
1. Основные постановки задач в распознавании действий по видеоданным
В задачах анализа футбольных видеоданных для описания процессов автоматического распознавания игровых эпизодов используются различные формулировки. Существуют две основные постановки задачи: распознавание действий по видеоклипам (action recognition) и поиск действий во времени в длинных видеозаписях матчей (action spotting).
2. Action recognition: нейросетевые модели для распознавания действий по клипам
В постановке action recognition входными данными является короткий видеоклип, а задача сводится к классификации действия, представленного в этом фрагменте (например, удар, пас, бег) [4]. На практике для извлечения динамики движения применяются архитектуры, которые учитывают временную составляющую видео: одним из базовых направлений являются двухпотоковые модели, где отдельные ветви обрабатывают визуальный поток кадров и информацию о движении, после чего признаки объединяются для классификации [5]. Другой распространённый подход — использование пространственно-временных (spatiotemporal) свёрток, позволяющих выделять признаки движения непосредственно из последовательности кадров без явного вычисления оптического потока [6].
Для футбольного домена важным аспектом является практическая применимость моделей при ограниченных вычислительных ресурсах и относительно небольших специализированных датасетах, поэтому используются стратегии переноса обучения и облегчения архитектур [4]. Зачастую применяют дистилляцию знаний (teacher-student), где компактная модель-ученик обучается воспроизводить поведение более крупной модели-учителя, что позволяет снизить вычислительную сложность при сохранении качества распознавания действий на футбольных клипах [4]. Таким образом, action recognition является удобной и относительно простой постановкой для построения нейросетевых моделей распознавания действий, однако её ограничением остаётся зависимость от предварительной нарезки видео и отсутствие автоматической локализации событий во времени (что относится к задаче spotting) [4].
3. Action spotting: поиск событий в длинных матчах и ускорение разметки
Задача action spotting направлена на автоматический поиск и временную локализацию отдельных игровых событий в длинных видеозаписях матчей. В отличие от распознавания действий на коротких клипах, в данном случае требуется обнаруживать редкие, но аналитически значимые события внутри продолжительных видеопоследовательностей, фиксируя их с точностью до временной метки [7]. Для повышения точности временной локализации событий предлагаются специализированные функции потерь, учитывающие контекст вокруг размеченной временной метки, например, контекстно-взвешенная кросс-энтропия, где кадры ближе к событию получают больший вес, а также «мягкая» разметка во времени (soft labels) с гауссовым или треугольным профилем, при котором положительный класс распределяется на окно вокруг метки [8].
Практическая значимость данного подхода обусловлена тем, что профессиональный футбольный матч представляет собой видеозапись длительностью около 90 минут, тогда как число событий, представляющих интерес для аналитиков, относительно невелико. В современных исследованиях задача action spotting рассматривается как ключевой компонент комплексного анализа трансляций футбольных матчей и целостного понимания игрового процесса [1].
Отдельное направление исследований связано с сокращением трудозатрат на разметку видеоданных. Методы активного обучения позволяют выбирать для ручного аннотирования наиболее информативные и неоднозначные фрагменты видео, что даёт возможность достигать сопоставимого качества моделей при использовании лишь части обучающего набора [7]. В контексте футбольной видеоаналитики такие подходы особенно эффективны при работе с длинными матчами и ограниченными ресурсами экспертов.
Таким образом, action spotting выступает не только как самостоятельная задача анализа длинных футбольных матчей, но и как практический инструмент, способствующий ускорению процесса разметки и повышению масштабируемости методов футбольной видеоаналитики [7].
4. Данные и разметка в футбольном видео
Качество и структура исходных данных играют ключевую роль в задачах распознавания действий футболистов по видеозаписям. В практических и исследовательских работах используются различные типы видеоданных, отличающиеся по ракурсу съемки, разрешению, частоте кадров и уровню шума. Наиболее распространённым источником являются телевизионные трансляции матчей, которые обладают высокой доступностью, но характеризуются движущейся камерой, частыми сменами плана и неполным охватом игрового поля.
С точки зрения машинного обучения видеоданные могут рассматриваться на разных уровнях представления. В простейшем случае используются последовательности кадров или извлеченные из них визуальные признаки. В более сложных подходах применяются данные о траектории игроков и мяча, полученные с помощью детекции и сопровождения объектов. Выбор представления напрямую влияет на сложность модели, требования к вычислительным ресурсам и устойчивость метода к реальным условиям съемки.
Для обучения и оценки модели требуется разметка видеоданных, представляющая собой процесс указания временных меток и типов игровых событий на видеозаписях матчей. В задачах action recognition разметка обычно выполняется на уровне видеоклипов, каждому из которых присваивается один класс действия. Такой формат разметки относительно прост, однако требует предварительной нарезки видео и не отражает реальной непрерывной структуры матча [4]. В задачах action spotting разметка осуществляется путем указания точных временных меток игровых событий в длинных видеозаписях, что существенно повышает её трудоемкость [7].
5. Решение проблемы трудоёмкости ручной разметки данных
Высокая стоимость ручной разметки остаётся одним из ключевых ограничений для масштабирования футбольной видеоаналитики. Для задач распознавания и локализации событий (в частности, action spotting) проблема усугубляется тем, что целевые события в матчах являются редкими и распределены неравномерно: значительная часть видеопотока не содержит интересующих действий, тогда как сами моменты событий занимают малую долю времени. В результате полная разметка матчей требует существенных трудовых ресурсов и часто оказывается несоразмерной по затратам по сравнению с объёмом действительно полезных для обучения эпизодов.
В современной литературе рассматривается несколько направлений, позволяющих снизить зависимость моделей от полностью размеченных данных. Во-первых, это перенос обучения за счёт использования предобученных видеомоделей и обучения на крупных смежных датасетах, что уменьшает требования к объёму разметки в целевом домене. Во-вторых, применяются схемы слабой или частичной разметки, когда вместо точных временных меток используются более грубые аннотации (например, указание наличия события в клипе или укрупнённые интервалы), а точная локализация восстанавливается моделью. В-третьих, применяется активное обучение, которое меняет сам процесс аннотирования: вместо разметки “всего подряд” эксперт размечает лишь те примеры, которые наиболее полезны для улучшения модели.
На практике для задачи action spotting активное обучение реализуется итеративно: на первом шаге модель обучается на ограниченном наборе размеченных фрагментов, затем применяется к неразмеченному массиву и формирует набор кандидатов на разметку, после чего выбранные эпизоды передаются эксперту и добавляются в обучающий набор [7]. Таким образом, ресурсы эксперта концентрируются на тех участках данных, которые дают максимальный прирост качества, а объём лишнего аннотирования снижается.
Ключевым элементом активного обучения является стратегия отбора эпизодов. Наиболее распространённый подход основан на неопределённости предсказания: приоритет получают фрагменты, для которых модель “сомневается” или выдаёт конкурирующие гипотезы. Альтернативные стратегии ориентируются на разнообразие: выбираются эпизоды, которые покрывают разные типы сцен и условий съёмки, чтобы избежать переобучения на однотипных примерах. Возможны и гибридные варианты, сочетающие неопределённость и разнообразие, что особенно важно для футбольных данных из-за различий в трансляциях, ракурсах, освещении и визуальных особенностях команд. В совокупности это позволяет повышать качество распознавания и локализации событий при меньшем объёме размеченных данных, сохраняя практическую реализуемость подхода в условиях ограниченных ресурсов на аннотирование.
Следует отметить, что практические решения задач action recognition и action spotting нередко включают в себя предварительные этапы анализа видеопотока, прежде всего на детекцию и сопровождение ключевых объектов сцены — игроков и мяча, что обеспечивает основу для последующего распознавания и локализации событий.
6. Детекция и сопровождение игроков/мяча как основа для анализа действий
Детекция и сопровождение объектов на футбольном поле являются базовыми этапами автоматического анализа видеоданных и служат основой для последующего распознавания игровых действий. На данном уровне анализа видеопоследовательность представляется в виде набора пространственно-временных траекторий игроков и мяча, полученных в результате применения алгоритмов обнаружения и трекинга объектов [9]. Для обучения и сопоставимого сравнения методов трекинга в футбольном домене предложен бенчмарк SoccerNet-Tracking с разметкой ограничивающих прямоугольников и идентификаторов треков для игроков, судей и мяча [10].
Для решения задачи детекции широко применяются модели глубокого обучения, основанные на сверточных нейронных сетях, среди которых особое распространение получили одноэтапные детекторы семейства YOLO (You Only Look Once). Эти модели обеспечивают баланс между точностью обнаружения и вычислительной эффективностью, что делает их пригодными для обработки длинных видеозаписей и использования в прикладных сценариях футбольной аналитики [9]. Детекторы YOLO позволяют в реальном времени определять положение игроков и мяча на каждом кадре, формируя первичное представление сцены.
На основе результатов детекции применяются методы сопровождения объектов (tracking), целью которых является сохранение идентичности каждого игрока и мяча на протяжении последовательности кадров. Алгоритмы сопровождения позволяют восстанавливать непрерывные траектории движения объектов даже при частичных окклюзиях и изменениях ракурса камеры, что является характерным для трансляций футбольных матчей [9]. Совместное использование детекции и сопровождения обеспечивает более устойчивое и информативное представление динамики игры.
Полученные траектории игроков и мяча используются в качестве входных данных для анализа действий более высокого уровня, включая распознавание передач, ударов, взаимодействий между игроками и тактических паттернов. Таким образом, точность и устойчивость этапов детекции и сопровождения напрямую влияют на качество последующего анализа игровых действий и интерпретацию событий матча [9].
7. Повторная идентификация игрока (Re-ID): как связать действие с конкретным футболистом
Повторная идентификация игроков (player re-identification, Re-ID) является важным компонентом футбольной видеоаналитики, обеспечивающим связь между обнаруженным игровым действием и конкретным футболистом. В отличие от задач детекции и сопровождения, где объект отслеживается в пределах одной видеопоследовательности, Re-ID направлена на сопоставление изображений одного и того же игрока в разных временных интервалах, ракурсах камеры или видеосегментах [11].
В условиях трансляций футбольных матчей задача Re-ID существенно усложняется из-за частых переключений камер, окклюзий, схожей формы игроков одной команды и низкого разрешения отдельных фрагментов. В таких сценариях стандартное сопровождение объектов может терять идентичность игрока, что делает невозможным корректное накопление индивидуальной статистики и привязку событий к конкретным участникам матча [11].
Методы Re-ID, как правило, основаны на извлечении устойчивых визуальных признаков игроков с использованием сверточных нейронных сетей. В качестве таких признаков используются элементы внешнего вида, включая цвет формы, номер, антропометрические характеристики и локальные текстурные признаки. Сопоставление осуществляется в пространстве признаков, где изображения одного и того же игрока должны находиться ближе друг к другу, чем изображения разных игроков [11].
Интеграция Re-ID с результатами детекции, сопровождения и распознавания действий позволяет формировать целостное представление о действиях отдельных футболистов на протяжении всего матча. Это является необходимым условием для построения индивидуальных профилей игроков, анализа их тактической роли и оценки эффективности, а также для практического применения методов action spotting и распознавания действий в профессиональной футбольной аналитике [11].
8. Простые признаки и анализ движения: цвет формы, поза и «взаимодействие»
Наряду с методами глубокого обучения в футбольной видеоаналитике широко применяются подходы, основанные на использовании относительно простых и интерпретируемых признаков. К таким признакам относятся цветовые характеристики формы игроков, геометрические параметры позы, а также показатели движения и пространственного взаимодействия между объектами на поле [12].
Анализ цвета формы используется для первичного разделения игроков по командам и устойчив при высоком качестве видеопотока и стабильном освещении. Несмотря на простоту, цветовые признаки часто применяются как вспомогательный элемент в задачах детекции, сопровождения и повторной идентификации игроков, особенно в условиях ограниченных вычислительных ресурсов [12].
Информация о позе игрока и характере его движений позволяет выявлять базовые игровые действия, такие как бег, остановка, удар или изменение направления движения. Для этого используются ключевые точки тела и их временная динамика, что делает возможным анализ действий без необходимости сложных моделей высокого уровня [12]. Подобные методы отличаются большей интерпретируемостью, однако чувствительны к качеству детекции и ракурсу съемки.
Отдельный класс признаков связан с анализом пространственного взаимодействия игроков и мяча. К таким признакам относятся расстояния между игроками, относительное расположение объектов, совместные траектории движения и плотность игроков в отдельных зонах поля. Эти характеристики используются для описания коллективных действий, тактических схем и эпизодов взаимодействия между футболистами [12].
Таким образом, методы, основанные на простых визуальных и кинематических признаках, представляют собой интерпретируемую и вычислительно эффективную альтернативу сложным нейросетевым моделям. Хотя их точность может уступать современным подходам глубокого обучения, такие методы остаются востребованными в прикладных сценариях и часто используются в качестве вспомогательных компонентов комплексных систем анализа футбольных матчей [12].
Заключение
В данной работе представлен обзор подходов машинного обучения, применяемых для распознавания действий футболистов на игровом поле по видеоданным. Рассмотрены основные постановки задачи анализа футбольного видео, включая распознавание действий по коротким видеоклипам и поиск игровых событий во времени в длинных видеозаписях матчей, а также особенности соответствующих нейросетевых моделей и методов обучения.
Показано, что выбор подхода определяется характеристиками исходных видеоданных, форматом разметки и требованиями к практическому применению. Методы action recognition являются удобным инструментом для построения и анализа нейросетевых архитектур на основе видеоклипов, тогда как подходы action spotting ориентированы на работу с полными матчами и позволяют выявлять игровые события в их естественном временном контексте. Существенное внимание уделяется методам снижения трудоёмкости разметки, включая перенос обучения и активное обучение.
Отдельно рассмотрены вспомогательные компоненты анализа видеопотока, такие как детекция и сопровождение игроков и мяча, повторная идентификация футболистов, а также использование простых визуальных и кинематических признаков, включая цвет формы, позу и характеристики движения. Показано, что данные методы играют важную роль в обеспечении устойчивости и практической применимости систем распознавания действий в условиях реальных футбольных трансляций.
Проведённый обзор демонстрирует, что современные системы футбольной видеоаналитики представляют собой комплексные решения, сочетающие нейросетевые модели анализа видео с вспомогательными методами обработки и интерпретации данных. Представленные в работе подходы могут быть использованы в качестве основы при проектировании и развитии прикладных систем автоматического анализа футбольных матчей.
Литература:
- Giancola S., Amine M., Dghaily T., Ghanem B. SoccerNet: A Scalable Dataset for Action Spotting in Soccer Videos. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPR Workshops) . 2018. DOI: 10.1109/cvprw.2018.00223
- Deliège A., Cioppa A., Giancola S. SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of Broadcast Soccer Videos // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2021. DOI: 10.1109/cvprw53098.2021.00508
- Видеоанализ и его значение в современном футболе. URL: https://soccerinteraction.com/video-analysis-modern-football (дата обращения: 20.12.2025).
- Giancola S., Dghaily T., Ghanem B. SoccerKDNet: Knowledge Distillation for Action Recognition in Soccer Videos. // Proc. of CVPR Workshops, 2021. DOI: 10.1007/978–3–031–45170–6_47
- Simonyan K., Zisserman A. Two-Stream Convolutional Networks for Action Recognition in Videos. NeurIPS, 2014.
- Tran D. et al. A Closer Look at Spatiotemporal Convolutions for Action Recognition. CVPR, 2018. DOI: 10.1109/cvpr.2018.00675
- Cioppa A. et al. Towards Active Learning for Action Spotting in Association Football Videos. Computer Vision and Image Understanding, 2022.
- Cioppa A., Deliège A., Giancola S. A Context-Aware Loss Function for Action Spotting in Soccer Videos // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. DOI: 10.1109/cvprw59228.2023.00538
- Тарасов А. А. Методы и алгоритмы обнаружения и сопровождения подвижных объектов на видеопоследовательности: автореф. дис. … канд. техн. наук. М., 2023.
- Cioppa A., Giancola S., Deliège A. SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in Soccer Videos // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2022. DOI: 10.1109/cvprw56347.2022.00393
- Игнатьева А. В. Повторная идентификация человека на изображениях систем видеонаблюдения с использованием сверточных нейронных сетей: автореф. дис. … канд. техн. наук. М., 2025.
- Ульев В. В. Методы и средства автоматизированного распознавания и анализа взаимодействия людей по видеоизображению: автореф. дис. … д-ра техн. наук. М., 2023.

