Автоматизированная предиктивная аналитика
  • Полнофункциональный сервис
    «Автоматизированная предиктивная аналитика Auto-ML»
    Сервис предназначен для автоматизации жизненного цикла рекомендательных систем, построенных на базе алгоритмов машинного обучения, включая процессы получения исторических данных, их очистки, подбора и настройки отдельных математических моделей и их совмещения, обучения и анализа предсказательной силы и точности, предоставления и интерпретации результатов прогнозирования.

    Программно-технический комплекс, решающий задачи поддержки принятия решений в различных бизнес-процессах посредством использования алгоритмов машинного обучения и предсказания с использованием данных, предоставленных пользователем
Архитектура программно-технического комплекса и инфраструктурные компоненты
  • В архитектуру программно-технического комплекса входят следующие инфраструктурные компоненты:
    • Серверная часть с предоставлением REST API
    • Контейнеризация приложений
    • Распределенное хранилище данных
    • Объектное хранилище данных S3
    • База данных
Серверная часть с предоставлением REST API
Серверная часть ПТК представляет собой функционал управления доступом в соответствии с встроенной ролевой моделью, управления пользователями, организациями и проектами машинного обучения с поддержкой процессов
Ядро машинного обучения
  • Первичная базовая предобработка данных. Механизмы препроцессинга отвечают за загрузку данных, их первичную проверку по заданным в программной части ПТК параметрам и дальнейшую обработку. В рамках данного блока реализованы инструменты очистки данных, подготовки текстовых значений, заполнения пустых значений, удаления выбросов. Функции препроцессинга позволяют подготовить данные для дальнейшего создания модели и увеличить ее точность

  • Расширенная предобработка данных. Механизмы препроцессинга с применением более сложных настроек для предобработки данных. В рамках данного блока возможно использование инструментов энкодинга данных, масштабирования, балансировки классов, агрегации данных по времени, а также обработка текстовых данных

  • Обучение и ранжирование моделей. Механизмы обучения и ранжирования моделей позволяют создавать предобученные модели на основе загруженных пользователем и обработанных системой данных по одному из представленных в системе сценариев: базовый (на бейслайне выбранной математической задачи) и расширенный (с применением механизма ранжирования моделей)

  • Использование полученных моделей с целью создания «Отчета о прогнозировании». Механизмы осуществления прогнозирования и формирования «Отчетов о прогнозировании» отвечают за развертку сформированных ранее моделей и их применение к загруженным пользователем данным с целью осуществления прогнозирования, а также дальнейшее формирование «Отчетов о прогнозировании» посредством использования механизмов постпроцессинга
Хранилище данных программно-технического комплекса
В качестве хранилища данных пользователей, организаций, проектов используется база данных PostgreSQL. Хранение датасетов осуществляется посредством формирования уникальных директорий внутри распределенной файловой системы HDFS, содержащих в себе соответствующие данные. Хранение обработанных данных и весов моделей осуществляется в масштабируемом объектном хранилище S3
Основные бизнес-задачи решения
  • ПО позволяет решать следующие задачи:
    • Управление доступом и идентификацией пользователей
    • Управление организационной структурой, пользователями и их виртуальным балансом
    • Управление проектами и их версиями
    • Поддержка процессов машинного обучения
    • Построение графиков и визуализация данных
    • Инструменты интеграции внешних систем, извлечения, трансформации и доставки данных
Функциональные возможности ПО
Задачи, которые возможно решить с использованием функциональных возможностей ПТК:

  • Обучение модели на предоставленных пользователем данных
  • Управление отраслевыми технологическими задачами в части подбора базового варианта методики ее решения и конфигурации задачи машинного обучения
  • Загрузка, валидация и первичная предобработка предоставленных пользователем данных в различных доступных форматах (CSV, JSON, XML, XLS, XLSX, XLSM) к дальнейшему обучению модели, в частности очистка датасета от выбросов и лишних/некорректных значений, извлечение наиболее значимых признаков, обработка текстовых данных и их дальнейшая векторизация, заполнение недостающих значений на основе заданных в программе методик расчета
  • Реализация алгоритмов машинного обучения типов: регрессия, кластеризация, классификация, детекция аномалий, анализ временных рядов, NLP; выбор сценария обучения: базовый и расширенный (базовый – модель, используемая по умолчанию; расширенный – подбор наиболее подходящей модели)
  • Осуществление предсказания и возможность выгрузки Отчета о предсказании
  • Подбор наиболее эффективных архитектур или алгоритмов для формирования модели на основе предоставленных пользователем данных и решаемой математической задачи
  • Подбор наиболее эффективной модели путем их ранжирования на основании совокупности полученных на валидации и тестировании показателей метрик
  • Оценка результативности и предсказательной силы
  • Обогащение данных посредством объединения новых данных пользователей с предыдущими подобными датасетами, а также дальнейшим переобучением модели, позволяющим увеличить ее эффективность и показатели ее метрик
  • Контроль версий модели, обеспечивающий наиболее эффективное использование полученных результатов обучения
Документация
Информация о стоимости программного обеспечения
Стоимость ПО рассчитывается индивидуально в зависимости
от задач каждого конкретного пользователя