Заметил кое-что странное несколько месяцев назад. Рели в команде, которые тренировались в одиночку с AI, выходили на живые звонки увереннее, чем те, кто делал roleplay с менеджером. Не потому что менеджер плохой. А потому что без человека над плечом - меньше стресса, больше повторений, можно облажаться и попробовать ещё раз без последствий.
Начал собирать нормальный тренажёр. Выяснилось, что почти все компоненты - бесплатные или стоят копейки.
Зачем это вообще нужно
Traditional roleplay с менеджером работает плохо по одной причине: человек нервничает. Знает, что его оценивают. Старается выглядеть компетентным, а не тренироваться честно. В итоге - 30 минут в неделю вместо нормальной практики.
AI-среда убирает этот барьер. Рель может прогнать один и тот же сложный сценарий пять раз подряд, ошибиться на третьем, разобраться почему, и сделать нормально на пятом. Никто не видит, никто не записывает в голове “он опять завалил тайм-возражение”.
Субъективно - те, кто регулярно тренировался с AI, звонили увереннее. Это первые впечатления, рано говорить о конкретных цифрах. Но этого было достаточно, чтобы начать копать.
Как устроена архитектура
Система работает линейно:
Рель говорит
→ Parakeet STT транскрибирует речь в текст
→ Claude API генерирует ответ "клиента"
→ edge-tts озвучивает ответ
→ система анализирует диалог и выдаёт feedback
Три компонента, каждый решает свою задачу. Всё крутится в FastAPI-бэкенде с простым React-фронтом. Parakeet запускается локально или через free tier Together.ai. Claude - через API. edge-tts - бесплатная библиотека без ключей.
Почему именно эти компоненты
STT: Parakeet, а не Whisper
Первую неделю я сидел на Whisper в Docker. Работало, но медленно - 10 секунд аудио обрабатывалось несколько секунд, а иногда дольше. Рели начали ждать ответ дольше, чем в реальном звонке бывают паузы. Разговор рваный, напряжение пропадает.
Переехал на Nvidia Parakeet TDT 0.6B V3. Результат - работает в реальном времени. Рель говорит фразу, через мгновение клиент отвечает. NVIDIA заявляет больше 3000x real-time throughput - ощущения совпадают. Разговор потёк нормально.
По точности - Parakeet быстрее и точнее Whisper по бенчмаркам NVIDIA на английском. Точные цифры зависят от датасета, поэтому не буду приводить конкретный WER: разные источники дают разные числа. Для русского - Parakeet поддерживается, но я пока не тестировал. Это отдельная задача на следующий месяц.
Модель весит около 1.2GB, запускается локально или через NVIDIA NIM/Together.ai. Есть готовый FastAPI-wrapper на GitHub (проект parakeet-tdt-0.6b-v2-fastapi) с WebSocket-стримингом и OpenAI Audio API совместимостью - это заметно ускоряет интеграцию.
LLM: Claude, а не Llama
Пробовал Llama 2 7B локально для roleplay. Работает, но возражения - мёртвые. “Вот три причины, почему я не готов купить сейчас.” Ни один реальный CFO так не говорит.
Claude Opus 4.6 отвечает живее. “Стоп, а у вас вообще есть кейсы в финтехе? Потому что мы не стартап, у нас compliance тяжёлый.” Это уже похоже на настоящий разговор.
Стоимость: от $0.01 до $0.05 за 5-минутный диалог. При 10 сессиях в месяц на рель - дешевле одной чашки кофе. Есть prompt caching: системный промпт с персоной кэшируется, и повторные запросы обходятся заметно дешевле. На практике это важно, потому что промпты с персонами длинные.
На горизонте - гибридный подход: Claude для сложных персон (CFO, CIO), Llama для базовых сценариев. Но это месяц 3, не сейчас.
TTS: edge-tts
Бесплатная Python-библиотека с 300+ голосами. Работает через Microsoft Edge без API-ключей - просто pip install и готово. Асинхронная, обрабатывает сотни фраз параллельно.
Звучит не как Eleven Labs. Слышно, что синтез. Но для тренировочного тренажёра это не критично - рель фокусируется на словах и логике возражений, а не на качестве голоса.
Eleven Labs звучит лучше, но это платный сервис. Для MVP - лишние расходы без понятной отдачи. Если окажется, что натуральность голоса влияет на обучение - переключусь или сделаю гибрид.
Что уже работает, что ещё сырое
Прототип работает. FastAPI-бэкенд, React-фронт, базовые персоны. Запускается на одной машине.
Первое что я заметил при тестировании - персоны важнее, чем думал изначально. Вместо generic “interested buyer” выбрал трёх персонажей: Skeptical CFO, Risk-Averse IT Director, Time-Stretched CEO. CFO спрашивает ROI. CIO - SOC 2 и часы внедрения. CEO говорит “занят, пришли письмо”. Рели сразу понимают, в чём сложность каждого типа.
После диалога система выдаёт скор и конкретное следующее действие: “потренируйся на тайм-возражения” или “в этот раз хорошо закрыл бюджетный блок, попробуй теперь CIO”. Это работает - рели возвращаются и тренируются снова.
Что ещё сырое:
- Русский язык: Parakeet поддерживает, но я пока не тестировал. Планирую в следующем месяце.
- CRM-интеграция: наброски есть, интеграции нет.
- Анализ видео (мимика, зрительный контакт): в планах, но пока не в приоритете.
- Fine-tuning под специфичную терминологию: нужен бюджет и данные.
Один неожиданный инсайт: люди не привыкли “разговаривать с AI” как с живым человеком. Первые сессии - скованные, чувствуется дискомфорт. Когда показал коллегам вживую как это работает - они сами начали пробовать. Письмо с инструкцией не работало.
Сколько это стоит
Одна 5-минутная тренировочная сессия:
- Parakeet STT: $0 (локально) или $0 (free tier Together.ai)
- Claude API: $0.01 - $0.05
- edge-tts: $0
Итого за сессию: меньше $0.05.
Для команды из 50 рели с 10 сессиями в месяц - около $2-3K в год только на Claude API, плюс инфраструктура (один GPU L4 тянет примерно сотню параллельных сессий). Против живого sales trainer за $5-10K в месяц на команду - разница очевидна.
Это не “бесплатно” в буквальном смысле. Claude API платный. Но порядок цифр другой.
Что дальше
Ближайший месяц - тест на русском. Хочу сравнить Parakeet и Whisper на реальных русских диалогах с продажной лексикой и посмотреть, где разрыв критичный. Там пока больше вопросов, чем ответов.
Параллельно - добавить 5-7 персон в базу вместо двух. Dashboard для менеджеров, чтобы видеть прогресс команды без ручного анализа.
Дальше - интеграция с Pipedrive или HubSpot, чтобы связать практику в тренажёре с реальными метриками по сделкам. Это единственное, что убедит sales leadership в ценности.
Когда попробовал и увидел, что рель заметно улучшается за неделю регулярных тренировок - стало понятно, что это не AI ради AI. Это реальный инструмент для реальной боли: обучение рели - один из самых узких bottleneck-ов в sales-командах, и он плохо масштабируется людьми.