Smart BI: Как сократить получение аналитики с недель до 1 минуты с помощью ИИ

Name: ИИ-инструмент поддержки принятия решений для руководителей
Start: 2024-08-14
End: 2024-08-14

TL;DR

Владимир Подош (Comtech) рассказывает, как они внедрили AI-бота, который переводит вопросы руководителей на естественном языке в SQL-запросы к базе данных. Это позволило топ-менеджменту получать нестандартные отчеты мгновенно, не загружая отдел аналитики. Реализация заняла всего 1.5 месяца силами двух человек.

Кому будет полезно

Роли: CTO, CDO, руководители BI, Product Managers.
Уровень: Любой (от джуна до C-level).
Условия: Если в вашей компании бизнес постоянно ждет выгрузки от аналитиков или IT-отдела.

Краткий контекст

Спикер: Владимир Подош, CEO Comtech (разработка софта для ритейла реального времени: Самокат, МегаМаркет).
Проблема: Стандартных отчетов (продажи, движение средств) часто не хватает. Чтобы получить уникальный срез данных, руководитель ждет от часов (через помощников) до недель (через доработку DWH).
Решение: Чат-бот на базе LLM, генерирующий SQL-запросы на лету.

Ключевые идеи

1. Проблема «последней мили» в аналитике

Что сказали: Стандартные отчеты закрывают базу, но уникальные вопросы («сколько пингвинов осталось?») требуют ручного вмешательства. Почему это важно: Бизнес теряет время. Запрос к DWH-команде — это бюрократия, ожидание и риск, что данные станут неактуальны к моменту получения. Как применить: Проанализируйте, сколько времени ваши аналитики тратят на разовые выгрузки ("ad-hoc" запросы). Если много — это кандидат на автоматизацию.

2. Схема Text-to-SQL

Что сказали: Используется цепочка:

Пользователь пишет вопрос.
Модель получает вопрос + описание структуры данных (схемы таблиц).
Модель генерирует SQL-запрос.
Система выполняет запрос к БД.
Другая модель превращает «сырой» ответ в понятный текст или график. Почему это важно: Это демократизация данных. Руководитель общается с базой данных как с человеком. Как применить: Начните с описания метаданных ваших витрин. LLM плохо работает с «голыми» таблицами, ей нужны понятные названия колонок и контекст.

3. Контекст и диалог

Что сказали: Бот помнит контекст. Если спросить «Сколько холодильников продано в июле?», а потом «А какая модель самая популярная?», бот поймет, что речь всё ещё про холодильники и июль. Почему это важно: Это делает инструмент естественным. Пользователю не нужно каждый раз формулировать гигантский промпт со всеми условиями.

4. Безопасность vs Облака

Что сказали: Начинали с OpenAI (Azure), но служба безопасности запретила передавать данные в облако. Пришлось переезжать на Open Source модели (Llama-like) и дообучать их (fine-tuning) для работы внутри контура (On-premise). Как применить: Если у вас строгая безопасность — готовьтесь к хостингу собственных моделей. Если нет — используйте облачные API, это дешевле, быстрее и качественнее.

5. Аналитика причин (будущее)

Что сказали: Сейчас бот отвечает на вопрос «Что случилось?» (цифры). Следующий шаг — научить его отвечать «Почему это случилось?» (анализ факторов падения продаж). Как применить: Не останавливайтесь на простой выборке данных. Экспериментируйте с агентами, которые могут проверять гипотезы.

Примеры и кейсы

Было:

Руководитель хочет узнать продажи конкретного товара в конкретном регионе.
Пишет помощнику → помощник пишет аналитику → аналитик пишет SQL → выгрузка в Excel → пересылка обратно.
Время: Часы или дни.

Стало:

Руководитель пишет в Telegram-бот: «Сколько холодильников продали в июле?».
Бот выдает цифру (скрыта в демо, но реальная) и ссылку на детали.
Руководитель уточняет: «Какая модель топ?» — получает ответ сразу.
Время: < 1 минуты.

Ошибки и грабли

Безопасность данных: Использование публичных облачных моделей (ChatGPT и аналоги) для корпоративных данных может быть заблокировано безопасниками. Спикеры потратили время на прототип в облаке, но в итоге пришлось переделывать под локальный запуск.
Сложность: Спикер отмечает, что инженерно задача кажется сложной, но на самом деле «вся магия внутри моделей». Главная ошибка — думать, что это требует огромной команды R&D.

Что можно сделать уже сегодня

Выделить витрины данных: Определите 2-3 ключевые таблицы, по которым чаще всего прилетают вопросы.
Описать схему: Сделайте понятное текстовое описание полей (Data Dictionary) для этих таблиц — это будет «инструкция» для нейросети.
Проверить безопасность: Узнайте в отделе ИБ, можно ли использовать API OpenAI/Anthropic/Google для обезличенных запросов. Если нет — ищите инженеров для поднятия Llama/Mistral локально.
Сделать MVP: Попробуйте вручную скормить ChatGPT схему вашей таблицы и попросить написать SQL по вопросу. Оцените качество.

Цитаты

«Мы привыкли, что данные в интернете можно получать очень просто и быстро (Google, Яндекс). Хотелось бы так же узнавать информацию о продажах».

«Мы потратили на это полтора месяца силами всего двух человек».

«Если есть возможность не использовать on-premise [локальные модели], лучше используйте облачные. Это сильно дешевле, сильно проще и по итогу эффективнее».

Итоговый вывод

Основная мысль доклада: Text-to-SQL уже работает и доступен небольшим командам. Вам не нужен штат Data Scientists, чтобы сделать «говорящую аналитику». Самый разумный первый шаг — взять готовую LLM, описать ей структуру вашей самой популярной базы данных и сделать простого бота для топ-менеджмента, чтобы снять с аналитиков рутину простых вопросов.

ИИ-инструмент поддержки принятия решений для руководителей

Саммари мероприятия