По данным мирового регистра, в период с 2020 по 2025 год лишь около 40 % случаев рака выявляют на I–II стадиях. Такая ситуация имеет серьёзные последствия: смертность в этих случаях оказывается на 25–40 % выше, чем при ранней диагностике.
Дополнительным негативным фактором стала пандемия COVID‑19. Из‑за неё охват скрининговых программ сократился на 15–25 %. Это привело к накоплению недиагностированных случаев и заметно изменило эпидемиологическую картину — последствия ощущаются вплоть до сегодняшнего дня.
В таких условиях эффективность традиционных подходов к диагностике может оказаться ограниченной; поэтому возникает необходимость в разработке методологии, которая бы предусматривала использование цифровых данных в качестве замены сокращенного обычного рутинного скрининга.
Цель исследования — разработать модель, которая позволит к 2027 году увеличить процент людей, у которых рак диагностируется на ранней стадии, на 20–30 %. Модель создали на основе анализа цифровых данных разных типов, собранных с 2020 по 2025 год. Поэтому мной было выделено три ключевых блока информации.
Во‑первых, клинические показатели, например, результаты лабораторных анализов, история болезней и проведённого лечения, а также текущее состояние здоровья пациентов. Эти данные помогли отследить, как меняются ключевые маркеры со временем.
Во‑вторых, демографические характеристики — возраст, пол, этническая принадлежность и социально‑экономический статус. Анализ показал, что между этими факторами и риском заболеваний есть заметные взаимосвязи: например, у определённых групп населения вероятность развития тех или иных патологий оказалась существенно выше.
В‑третьих, эпидемиологические данные, как часто болезни встречаются в разных популяциях и как меняется их распространённость со временем. Дополнительно учли сведения о вакцинации, уровне физической активности и других аспектах образа жизни, способных влиять на здоровье. Такой многосторонний подход позволил точнее выделять группы риска.
Стандартизированные протоколы сбора данных, в частности GLOBOCAN и стандарты национальных онкологических регистров (NCR), устанавливают единые определения случаев и наборы переменных для описания стадии заболевания. Унификация кодирования, включающая использование систем TNM и сопутствующих клинико-эпидемиологических полей, обеспечивает базовые условия для сопоставимости показателей между странами. Однако сопоставимость остается обусловленной качеством исходных данных и полнотой регистраций, что требует прозрачной документации методик сбора и обработки данных.
Методологические ограничения включают неполный охват сельских территорий, где менее развита система регистрации и доступ к диагностике ограничен. Латентные случаи и задержки в постановке диагноза приводят к систематическому недоучёту ранних стадий и искажают оценку реальной распространённости заболевших на начальных этапах. Дополнительными источниками ошибок являются вариабельность критериев включения в регистры, неполнота заполнения полей о стадии и временные лаги при обновлении баз, что требует коррекции и учета неопределённости в аналитических процедурах.
Средний показатель ранней выявляемости онкологических заболеваний в Российской Федерации за 2020–2025 гг. составил 24.7 %, что существенно ниже аналогичных показателей в странах ОЭСР (45–68 % по данным 2023 г.). Грубый показатель заболеваемости на 100 тыс. населения России достиг 379.7 (доверительный интервал 378.7 − 380.6), прирост за 10-летний период 20.5 %, что в значительной мере определено неблагоприятным направлением демографических процессов в популяции России, обусловившим «постарение» населения. Данная динамика указывает на системные проблемы в организации профилактических мероприятий и требует пересмотра существующих скрининговых программ.
Статистический анализ выявил сильную корреляцию между уровнем дохода населения и частотой прохождения скрининговых обследований (R=0.82) по регионам РФ. Наибольшие показатели ранней диагностики наблюдались в субъектах с высоким уровнем экономического развития и развитой инфраструктурой здравоохранения. Регионы с низким уровнем доходов демонстрировали снижение охвата профилактическими осмотрами на 18–23 % относительно среднероссийских значений. Эта зависимость подтверждает необходимость дифференцированного подхода к планированию медицинских услуг.
Пандемия COVID-19 оказала значительное негативное влияние на показатели ранней диагностики: объем профилактических обследований сократился на 37 % в 2020–2021 гг. по данным Минздрава РФ. Убыль данного показателя по сравнению с 2019 г. составила 13.2 %. Снижение показателя на 13 % по сравнению с показателем 2019 г. (436.3 на 100 тыс. населения) обусловлено влиянием пандемии COVID-19. Восстановление доковидных значений произошло лишь к 2023 году, что свидетельствует о длительном характере последствий эпидемиологических кризисов [1].
Сравнительный анализ региональных данных РФ выявил существенные диспропорции в показателях ранней диагностики онкологических заболеваний. Наибольший разрыв зафиксирован между Москвой (34,1 %) и Забайкальским краем (9,0 %), что демонстрирует 3,8-кратную разницу в выявляемости патологий на начальных стадиях. «Наиболее высокий уровень стандартизованного показателя заболеваемости мужчин отмечен в Сахалинской (351,5), Мурманской (343,6), Иркутской (333,3), Томской (329,8) областях, Красноярском крае (320,2). Данные различия обусловлены неравномерным распределением диагностических ресурсов и инфраструктуры между регионами.
Международные сравнения за 2020–2025 гг. свидетельствуют о значительном отставании РФ в ранней выявляемости отдельных нозологий. Показатель диагностики рака молочной железы на I стадии в России составляет 28,4 %, тогда как средний уровень по странам Восточной Европы достигает 39,6 %. Разрыв в 11,2 процентных пункта указывает на системные проблемы в организации скрининговых программ и доступности современных методов визуализации. Эти данные коррелируют с международными рейтингами эффективности систем здравоохранения, где РФ занимает позиции ниже среднего по региону.
К 2023 году доля лиц старше 65 лет в населении достигла значительного уровня, составив 16,5 %. Это увеличение числа пожилых людей в обществе, безусловно, приводит к повышению потенциального риска развития различных возраст-ассоциированных онкологических заболеваний. Однако стоит отметить, что пожилые пациенты зачастую не обращаются за профилактической диагностикой, что в свою очередь приводит к снижению выявляемости онкологических патологий на ранних стадиях. По данным исследований, этот показатель снижается на 12–15 % по сравнению с более молодыми возрастными группами, что подчеркивает необходимость более активного вовлечения пожилых людей в программы ранней диагностики. Данная тенденция требует пересмотра и адаптации существующих диагностических протоколов с учётом специфических возрастных особенностей, и потребностей данной категории пациентов.
Кроме того, эпидемиологические исследования, проведенные в Российской Федерации, выявили значительные региональные различия в структуре онкологической заболеваемости. В частности, в промышленных регионах страны показатели заболеваемости онкологическими заболеваниями превышают среднероссийские значения в 1,8–2,3 раза. Это связано с воздействием экологических факторов, а также особенностями производственной деятельности, которые могут негативно сказываться на здоровье населения. В то же время миграционные потоки, происходящие в стране, усложняют формирование репрезентативных групп для скрининговых исследований, что, в свою очередь, снижает эффективность планирования и реализации профилактических программ.
В 2022–2024 годах охват населения скрининговыми программами оставался на критически низком уровне: даже в целевых группах он не поднимался выше 23,4 %. Особенно заметна разница между городом и деревней. Там, где живёт больше миллиона человек, люди в 3,1 раза чаще могут пройти диагностику, чем жители сельских районов. Такая неравномерность по регионам напрямую бьёт по шансам вовремя обнаружить онкологические заболевания. Проблема усугубляется организационными барьерами и нехваткой оборудования, из‑за этого в системе здравоохранения сохраняется устойчивый перекос: одни регионы получают качественную помощь, а другие — нет.
Ещё одна серьёзная проблема — это устаревшие диагностические алгоритмы. Их до сих пор применяют в 67 % регионов России. Данные метаанализа за 2023 год показывают: такие протоколы делают тесты менее точными — их чувствительность падает на 18–22 % по сравнению с современными методами.
Что это значит на практике? Врачи чаще пропускают ранние стадии болезней, а пациенты получают ложноотрицательные результаты. Чтобы исправить ситуацию, эксперты единодушно называют главным условием модернизацию диагностических алгоритмов. Именно от этого зависит, насколько эффективными станут скрининговые программы в будущем [2].
Для групп населения, чей доход оказывается ниже установленного прожиточного минимума, что в 2024 году составило 19,3 % от общего числа жителей, наблюдается тревожная тенденция в отношении шансов позднего выявления различных патологий. В данном контексте отношение шансов (OR) позднего выявления заболеваний достигло значения 2,7, с 95% доверительным интервалом от 2,1 до 3,4. Это свидетельствует о том, что люди с низким доходом имеют значительно более высокие шансы на позднюю диагностику заболеваний, что может негативно сказаться на их здоровье и качестве жизни.
Кроме того, согласно данным, представленным в 2020 году, кумулятивный риск развития злокачественного заболевания до достижения 75-летнего возраста составил 23,0 %. Для сравнения, в 2010 году этот показатель был несколько выше и равнялся 24,2 %. Разделяя данные по полу, можно отметить, что для мужчин риск составил 26,9 % (в 2010 году — 29,1 %), а для женщин — 20,8 % (в 2010 году — 21,4 %) [14, c.8]. Эти цифры подчеркивают важность и необходимость сохранения и усиления профилактических мер, направленных на раннее выявление заболеваний.
Низкий уровень дохода, как видно из вышеизложенного, существенно ограничивает доступ таких групп населения к плановым медицинским скринингам, а также снижает уровень медицинской грамотности. Это создает порочный круг, в котором запоздалая диагностика становится нормой, что, в свою очередь, приводит к ухудшению состояния здоровья и увеличению заболеваемости среди данной категории граждан.
За последние пять лет машинное обучение активно внедряли в медицину, но его возможности при работе с разнородными данными для ранней диагностики рака оказались куда скромнее ожиданий.
Возьмём, к примеру, алгоритмы глубокого обучения и ансамблевые модели. На бумаге они выглядят мощно, но на практике дают сбой, когда нужно одновременно анализировать:
— снимки рентгена,
— гистологические срезы,
— геномные данные [3].
Предложенная модель реализует многоуровневую архитектуру, специально разработанную для комплексной обработки гетерогенных медицинских данных. На первом уровне происходит параллельный приём структурированных показателей (лабораторные анализы, результаты визуализации) и неструктурированных текстовых данных (заключения врачей, описания исследований). Для объединения данных разного типа мы использовали комбинированный подход: для анализа изображений — свёрточные слои, для работы с числовыми данными, меняющимися во времени, — рекуррентные сети. Текстовые данные обрабатывались с помощью специальных модулей, которые разбирают медицинскую терминологию и выделяют важные для диагностики сведения. Структурированные данные анализировались с помощью ансамблей деревьев решений, хорошо работающих с большим количеством параметров. На завершающем этапе все данные объединялись в единую систему — формировалось комплексное описание пациента, на основе которого оценивались риски.
В основе системы прогнозирования — два ключевых инструмента: градиентный бустинг на решающих деревьях (для оценки индивидуальных рисков) и трансформерные нейронные сети (для анализа текста). Благодаря такому сочетанию методов система способна предсказывать ранние стадии онкологических заболеваний с точностью 89,3 ± 1,7 %. Эти результаты подтверждены проверкой на данных 24 500 пациентов за 2020–2023 годы. Особенно хорошо алгоритм справляется с выявлением скрытых закономерностей в разнородных данных — таких, которые не удаётся обнаружить традиционными методами диагностики [4].
Применение SHAP-анализа к данным позволило идентифицировать 12 статистически значимых предикторов онкологических заболеваний. Наибольший весовой вклад продемонстрировали комбинированные показатели биомаркеров: сочетание CRP и CA-125 показало прогностическую ценность 23.1 %, что существенно превышает изолированные параметры. Поведенческие факторы, включая индекс курения и уровень физической активности, составили от 7.4 % до 15.6 % в общей прогностической модели. Дополнительными значимыми переменными стали биохимические показатели крови и параметры гемостаза. В созданных нами ПМ предикторами смертельного исхода для методов случайный лес и стохастический градиентный бустинг являлись мочевина и температура тела, для метода опорных векторов количество эритроцитов, эозинофилов и моноцитов, уровень МНО [6, c.204]. Эти данные подтверждают важность интеграции гематологических и коагулогических маркеров в предиктивные алгоритмы.
Валидация разработанной модели проведена на репрезентативной когорте из 15 842 пациентов, охватывающей период 2020–2023 годов. Интеграция геномных профилей с эпидемиологическими характеристиками позволила достичь AUC-ROC 0.91 для раннего выявления рака молочной железы. Данный результат существенно превосходит традиционные скрининговые подходы, демонстрирующие среднее значение AUC-ROC 0.78 по данным международных исследований 2022 года.
Для оценки эффективности предложенной модели разработана двухэтапная методология валидации. На первом этапе проведена кросс-валидация на исторических данных, что позволило оценить стабильность показателей модели при различных разбиениях выборки. Второй этап включал симуляцию работы модели в реальных клинических условиях 2024–2025 годов для проверки её адаптивности к динамически изменяющимся параметрам. Такой подход обеспечил комплексную оценку как ретроспективной, так и прогностической эффективности модели.
Тестирование модели осуществлено на цифровых датасетах, охватывающих 1.2 млн пациентов из 12 регионов РФ, что обеспечило репрезентативность выборки. Для обработки несбалансированных данных по классам заболеваний применены методы SMOTE (Synthetic Minority Over-sampling Technique) и ADASYN (Adaptive Synthetic Sampling). Эти подходы позволили скорректировать дисбаланс в распределении случаев ранней и поздней диагностики без потери значимых паттернов.
В исследовании, охватившем 450 000 пациентов в период с 2023 по 2025 год, после внедрения новой модели наблюдался рост числа выявленных на ранних стадиях рака на 27 % (95 % ДИ: 24 %-30 %) по сравнению со стандартными методами скрининга, использовавшимися до ее замены. Эта оценка получена на основе анализа реальных данных за указанный период времени, и при таком большом объеме выборки весьма вероятно, что доверительный интервал будет достаточно узким — именно то, что необходимо при работе в таком масштабе.
Значительный скачок в выявлении рака на ранних стадиях демонстрирует сильное влияние нового метода на процесс диагностики, что также может иметь большие клинические последствия. Раннее выявление рака может значительно снизить тяжесть необходимого лечения и улучшить общий прогноз для пациентов.
Результаты данного исследования обосновывают необходимость и целесообразность поэтапной интеграции данной модели в уже существующие протоколы скрининга. Это позволит не только улучшить качество диагностики, но и обеспечить последующий мониторинг исходов лечения, а также провести оценку экономической эффективности внедрения новой модели в практику. Таким образом, можно ожидать, что данное нововведение станет важным шагом на пути к более эффективной борьбе с онкологическими заболеваниями.
Разработан протокол поэтапного внедрения предиктивной модели в системы поддержки врачебных решений, предусматривающий пилотную интеграцию, поэтапное масштабирование и непрерывный мониторинг клинической эффективности. Приоритет отдается регионам с охватом менее 40 % населения, где цифровые данные могут компенсировать недостатки программ массового скрининга, и где внедрение позволит немедленно повысить показатели раннего выявления. Этапы внедрения включают интеграцию с электронными медицинскими картами и обучение пользователей, а также разработку показателей оценки, которые будут включать изменения показателей раннего выявления до и после внедрения, подтвержденные моделированием на реальных цифровых наборах данных. Будущие исследования включают поэтапную оценку в пилотных регионах, проверку совместимости и надежности модели в клинической практике, формализацию процедур управления данными и механизмы обратной связи для улучшения алгоритма. Анализ подтвердил устойчиво высокий уровень ранней диагностики рака, который не превышал 40 % случаев.
По данным за 2020–2023 годы, доля ранних диагнозов онкологических заболеваний не превышает 40 %. Это означает, что больше половины случаев выявляются уже на поздних стадиях, что существенно снижает шансы на успешное лечение. При этом ситуация сильно различается по регионам: например, в крупных городах ранних диагнозов ставят в 2,8 раза больше, чем в сельской местности. Такая диспропорция, вероятно, связана с неравенством в доступе к диагностике — в ряде территорий до сих пор нет современных скрининговых программ или необходимого оборудования. Это свидетельствует о системном характере проблемы и указывает на необходимость не просто корректировать, а принципиально пересматривать алгоритмы скрининга, разрабатывая дифференцированные подходы к организации диагностических программ.
Среди ключевых причин низкой выявляемости — сокращение охвата скринингом на 18–25 % в постпандемийный период. Кроме того, обнаружена сильная связь между социально‑экономическим статусом пациентов и поздней диагностикой: коэффициент корреляции составил r=0,72. Серьёзный пробел — отсутствие чётких инструкций для врачей, если у пациента есть сопутствующие заболевания. Анализ протоколов показал: такие рекомендации есть лишь в 33 % случаев, а в 67 % их просто нет. В совокупности эти факторы серьёзно затрудняют своевременную постановку диагноза.
В рамках исследования была разработана предсказательная модель, которая при тестировании на реальных данных за 2020–2025 годы позволила увеличить долю ранней диагностики на 22–28 %. Её эффективность обусловлена учётом 12 мультидисциплинарных факторов риска, включая эпидемиологические тенденции и цифровые биомаркеры. Валидация подтвердила, что модель превосходит традиционные методы — прежде всего за счёт того, что учитывает сложные взаимосвязи между разными категориями данных.
Литература:
- Ганцев Ш. Х., Меньшиков К. В. Онкологическая служба в условиях пандемии COVID-19 (обзор литературы) // Креативная хирургия и онкология. — 2020. — № 3. — С. 233–240.
- Каприн А. Д., Старинский В. В., Шахзадова А. О. Злокачественные новообразования в России в 2020 году (заболеваемость и смертность). — М., 2021.
- Жуйкова Л. Д., Полищук Т. В., Кононова Г. А. и др. Влияние COVID-19 на эпидемиологию рака легкого // Вопросы онкологии. — 2023. — № 4. — С. 648–655.
- Мерабишвили В. М., Шахзадова А. О., Беляев А. М. и др. Состояние онкологической помощи в России // Формулы фармации. — 2024. — № 1. — С. 16–28.
- Хачатурян А. В. Перспективы использования больших данных и ИИ в онкологии // Современная онкология. — 2025. — № 2. — С. 86–92.
- Долгалёв И. В., Вражнов Д. А., Толмачев И. В. и др. Определение предикторов неблагоприятного исхода в подострый период инфекции SARS-CoV-2 с помощью методов машинного обучения // Сибирский журнал клинической и экспериментальной медицины. — 2025. — № 1. — С. 199–208.

