Предиктивная аналитика
Универсальный программно-технический комплекс
«Система предиктивной аналитики»

Универсальный программно-технический комплекс «Система предиктивной аналитики» (далее — ПТК) предназначен для автоматизации жизненного цикла рекомендательных систем, построенных на базе алгоритмов машинного обучения, включая процессы получения исторических данных, их очистки, подбора и настройки отдельных математических моделей и их совмещения, обучения и анализа предсказательной силы и точности, предоставления и интерпретации результатов прогнозирования.
Архитектура программно-технического комплекса и инфраструктурные компоненты
В архитектуру программно-технического комплекса входят следующие инфраструктурные компоненты
  • Серверная часть с предоставлением REST API;
  • Контейниризатор приложений;
  • Обучающее ядро системы;
  • База данных.
На схеме ниже приведена детализация каждого из основных инфраструктурных компонентов
Серверная часть с предоставлением
REST API
Серверная часть ПТК представляет собой функционал управления пользователями, организациями и проектами. Управление пользователями осуществляется в соответствии с встроенной ролевой моделью доступа. Также реализован базовый вариант авторизации и регистрации с наличие различных вариантов Личных кабинетов в зависимости от роли пользователя.
Ядро машинного обучения
  • Первичная базовая предобработка данных. Механизмы препроцессинга отвечают за загрузку данных, их первичную проверку по заданным в программной части ПТК параметрам и дальнейшую обработку. В рамках данного блока реализованы инструменты очистки данных, приведения текста к нижнему регистру, заполнения пустых значений, удаления выбросов. Функции препроцессинга позволяют подготовить данные для дальнейшего создания модели и увеличить ее точность.

  • Обучение и ранжирование моделей. Механизмы обучения и ранжирования моделей позволяют создавать предобученные модели на основе загруженных пользователем и обработанных системой данных по одному из представленных в системе сценариев: базовый (на бейслайне выбранной математической задачи) и расширенный (с применением механизма ранжирования моделей).

  • Использование полученных моделей с целью создания «Отчета о прогнозировании». Механизмы осуществления прогнозирования и формирования «Отчетов о прогнозировании» отвечают за развертку сформированных ранее моделей и их применение к загруженным пользователем данным с целью осуществления прогнозирования, а также дальнейшее формирование «Отчетов о прогнозировании» посредством использования механизмов постпроцессинга.
Хранилище данных
программно-технического комплекса
В качестве хранилища данных пользователей, организаций, проектов используется база данных PostgreSQL. Хранение датасетов также осуществляется в базовом варианте посредством формирования уникальных директорий, содержащих в себе соответствующие данные. Хранение моделей осуществляется аналогично хранению датасетов.
    Функциональные компоненты
    и средства разработки ПТК
    Основные компоненты программно-технического комплекса
    • Компонент машинного обучения;
    • Компонент управления доступом и идентификацией пользователей;
    • Компонент управления проектами и их версиями;
    • ПТК разработан с использованием языка программирования – Python 3.
    Средства разработки
    • GitLab;
    • PyCharm CE;
    • VS Code;
    • Docker;
    • pgAdmin.
    Функциональные возможности ПТК
    Задачи, которые возможно решить с использованием функциональных возможностей ПТК
    Ниже приведен перечень основных задач, к способам решения которых пользователь получает доступ при использовании всех функциональных компонентов программно-технического комплекса имея только базовые навыки и верхнеуровневые знания в работе методов машинного обучения и предиктивной аналитики
    • Обучение модели на предоставленных пользователем данных;
    • Управление отраслевыми технологическими задачами в части подбора базового варианта методики ее решения и конфигурации задачи машинного обучения;
    • Загрузка, валидация и первичная предобработка предоставленных пользователем данных в различных доступных форматах (CSV, JSON, XML, XLS, XLSX, XLSM) к дальнейшему обучению модели, в частности очистка датасета от выбросов и лишних/некорректных значений, извлечение наиболее значимых признаков, обработка текстовых данных и их дальнейшая векторизация, заполнение недостающих значений на основе заданных в программе методик расчета;
    • Реализация алгоритмов машинного обучения типов: регрессия, кластеризация, классификация; выбор сценария обучения: базовый и расширенный (базовый – модель, используемая по умолчанию; расширенный – подбор наиболее подходящей модели);
    • Осуществление предсказания и возможность выгрузки Отчета о предсказании;
    • Подбор наиболее эффективных архитектур или алгоритмов для формирования модели на основе предоставленных пользователем данных и решаемой математической задачи;
    • Подбор наиболее эффективной модели путем их ранжирования на основании совокупности полученных на валидации и тестировании показателей метрик;
    • Оценка результативности и предсказательной силы;
    • Обогащение данных посредством объединения новых данных пользователей с предыдущими подобными датасетами, а также дальнейшим переобучением модели, позволяющим увеличить ее эффективность и показатели ее метрик;
    • Контроль версий модели, обеспечивающий наиболее эффективное использование полученных результатов обучения.
    Документация
    Стоимость ПО рассчитывается индивидуально в зависимости
    от задач каждого конкретного пользователя
    Информация о стоимости программного обеспечения