Исследование применения больших языковых моделей для автоматизации оценки сроков и бюджета IT-проектов

Темников Константин Сергеевич; Вакорин Михаил Павлович

В статье автор исследует применение больших языковых моделей (LLM) для автоматизации оценки сроков и бюджета IT-проектов.

Ключевые слова: искусственный интеллект, оценка бюджета, модель, первичная оценка параметров проекта, оценка сроков.

Введение

В современном мире информационные технологии играют ключевую роль в цифровой трансформации бизнеса, общества и технологий. Одной из наиболее сложных задач на этапе планирования таких проектов является точная оценка сроков и бюджета. Ошибки в оценке могут привести к перерасходу средств, срыву сроков и, в конечном итоге, к провалу проекта [2, с. 64].

За последние три десятилетия проведено множество исследований, посвященных оценке усилий и стоимости разработки программного обеспечения. Традиционные методы, такие как COCOMO, функциональные точки и экспертные оценки, широко используются [1, с. 2], но часто сталкиваются с ограничениями в точности и применимости. В последние годы методы искусственного интеллекта, включая генеративные модели, стали набирать популярность и применяться в различных сферах жизни и бизнеса. Особенно это касается генеративных моделей искусственного интеллекта, таких как ChatGPT, которые способны обрабатывать сложные запросы и предоставлять обоснованные ответы на основе анализа большого объёма данных.

Данное исследование посвящено изучению применимости генеративных моделей искусственного интеллекта для автоматизированной оценки стоимости и сроков IT-проектов. В рамках работы рассматривается использование таких моделей для первичной оценки параметров проекта, их точность сравнивается с реальными данными. Основная гипотеза исследования заключается в том, что использование генеративных моделей искусственного интеллекта может повысить скорость и качество оценки, снизив необходимость в трудоёмких ручных методах.

Цель исследования — оценить применимость и точность генеративных моделей искусственного интеллекта для задач прогнозирования стоимости и сроков IT-проектов.

Основная часть

В исследовании использовались данные из технического задания (ТЗ) для проекта, реализуемого на языке программирования C++ с использованием фреймворка Qt. Проект включал интеграцию голосового помощника «Маруся» и блок-модуля диспетчеризации «Обь 7.2».

Объектом исследования стали ответы LLM-сервисов (Large Language Model, «большая языковая модель») на запросы, связанные с оценкой сроков и бюджета проекта. Эти оценки были сопоставлены с реальными данными, согласно которым проект был выполнен двумя Junior-разработчиками за три месяца с бюджетом в размере 350 000 рублей и 200,000 рублей на оборудование.

Методология исследования

Для проведения исследования был подготовлен набор запросов, которые были направлены на оценку стоимости, сроков и количества специалистов, необходимых для реализации проекта. Запросы были отправлены через API к следующим LLM-сервисам: DeepSeek , GigaChat , ChatGPT 4o , YandexGPT.

Каждый сервис предоставил свои оценки, которые были затем сопоставлены с реальными данными. Для повышения точности оценок были использованы различные формулировки запросов, включая уточнения о уровне опыта разработчиков (Junior) и размере проекта (небольшой проект).

Обоснование выбора моделей

В рамках данного исследования были выбраны несколько ключевых моделей, представляющих различные рынки и технологии, для проведения всестороннего анализа и сравнения их возможностей в контексте оценки стоимости и сроков реализации проекта.

В частности, ChatGPT 4 является лидирующей моделью на рынке и активно развивается. Также была выбрана китайская модель DeepSeek, которая демонстрирует высокие результаты в лингвистических задачах и является достойным конкурентом для GPT-4 в этой области [3, с. 20].

GigaChat и YandexGPT были выбраны как популярные модели, доступные пользователям онлайн, которые показывают хорошие результаты на русском языке [4].

Анализ ответов

Фактические данные показывают, что проект был выполнен за 3 месяца с бюджетом 350 000 рублей на зарплату разработчиков и 200 000 рублей на оборудование. Таким образом, общий бюджет составил 550 000 рублей.

– DeepSeek: Оценки бюджета варьировались от 279 000 рублей до 12,888,000 рублей, а сроки от 2 до 12 месяцев.

– DeepSeek (DeepThink): Оценки бюджета варьировались от 210 000 рублей до 12,000,000 рублей, а сроки от 1,5 до 9 месяцев.

– ChatGPT 4o: Оценки бюджета варьировались от 350 000 рублей до 4,000,000 рублей, а сроки от 1,5 до 8 месяцев.

– GigaChat и YandexGPT: Не смогли предоставить точных оценок, но предоставили инструкции, которые могут быть полезными при оценке проекта.

После уточнения, что проект небольшой, оценка моделями бюджета и сроков приблизилась к реальным данным.

Заключение

В ходе исследования и тестирования было установлено, что генеративные модели могут предоставить приблизительную структуру затрат на проект. Однако их оценки сроков и стоимости проекта не всегда соответствуют реальным затратам.

Генеративные модели искусственного интеллекта могут быть полезны для первичной оценки параметров проекта, особенно в ситуациях, когда требуется быстрое принятие решения. Однако для получения точных оценок по-прежнему рекомендуется использовать традиционные методы.

Дальнейшие исследования могут быть направлены на улучшение точности генеративных моделей путём обучения на более специализированных данных, а также на разработку шаблонов запросов, которые позволят повысить точность оценки.

Приложение

Таблица 1

Вход — Документ

Сервис	Оценка бюджета (руб)	Оценка сроков (месяцы)
DeepSeek	3,500,000–5,500,000	3–4
DeepSeek (DeepThink)	500,000–600,000	4–6
ChatGPT 4o	2,500,000–4,000,000	3–4

Таблица 2

Вход — Текст

Сервис	Оценка бюджета (руб)	Оценка сроков (месяцы)
DeepSeek	2,700,000−4,500,000	3–4
DeepSeek (DeepThink)	400,000–900,000	4–6
ChatGPT 4o	1,500,000–2,500,000	4–8

Таблица 3

Вход — Документ. Уточнение Junior

Сервис	Оценка бюджета (руб)	Оценка сроков (месяцы)
DeepSeek	1,000,000–1,500,000	8–12
DeepSeek (DeepThink)	540,000	9
ChatGPT 4o	930,000–1,260,000	3

Таблица 4

Вход — Текст. Уточнение Junior

Сервис	Оценка бюджета (руб)	Оценка сроков (месяцы)
DeepSeek	11,512,000–12,888,000	5–7
DeepSeek (DeepThink)	8,000,000–12,000,000	4–6
ChatGPT 4o	1,790,000–1,940,000	4.5–5

Таблица 5

Вход — Текст. Уточнение — Junior. Уточнение — Это небольшой проект

Сервис	Оценка бюджета (руб)	Оценка сроков (месяцы)
DeepSeek	279,000	2
DeepSeek (DeepThink)	210,000	1,5
ChatGPT 4o	350 000–450 000	1,5–2

Литература:

Sakib S. M. N. Software Effort Estimation for Improved Decision Making. — 2022.
Arslan F. et al. A review of machine learning models for software cost estimation //Review of Computer Engineering Research. — 2019. — Т. 6. — №.2. — С. 64–75.
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model / Liu Aixin. — Текст: электронный // arxiv: [сайт]. — URL: https://arxiv.org/pdf/2405.04434 (дата обращения: 16.12.2024).
Группа «Т-Технологии» представила лучшие в мире открытые большие языковые модели на русском языке. — Текст: электронный // tbank: [сайт]. — URL: https://www.tbank.ru/about/news/11122024-the-t-technologies-group-has-introduced-the-worlds-most-efficient-open-large-language-models-in-russian/ (дата обращения: 16.12.2024).

Молодой учёный

Исследование применения больших языковых моделей для автоматизации оценки сроков и бюджета IT-проектов

Исследование применения больших языковых моделей для автоматизации оценки сроков и бюджета IT-проектов

Молодой учёный