AI-тренажёр продаж за бесплатно: Parakeet + Claude + edge-tts

Заметил кое-что странное несколько месяцев назад. Рели в команде, которые тренировались в одиночку с AI, выходили на живые звонки увереннее, чем те, кто делал roleplay с менеджером. Не потому что менеджер плохой. А потому что без человека над плечом - меньше стресса, больше повторений, можно облажаться и попробовать ещё раз без последствий.

Начал собирать нормальный тренажёр. Выяснилось, что почти все компоненты - бесплатные или стоят копейки.


Зачем это вообще нужно

Traditional roleplay с менеджером работает плохо по одной причине: человек нервничает. Знает, что его оценивают. Старается выглядеть компетентным, а не тренироваться честно. В итоге - 30 минут в неделю вместо нормальной практики.

AI-среда убирает этот барьер. Рель может прогнать один и тот же сложный сценарий пять раз подряд, ошибиться на третьем, разобраться почему, и сделать нормально на пятом. Никто не видит, никто не записывает в голове “он опять завалил тайм-возражение”.

Субъективно - те, кто регулярно тренировался с AI, звонили увереннее. Это первые впечатления, рано говорить о конкретных цифрах. Но этого было достаточно, чтобы начать копать.


Как устроена архитектура

Система работает линейно:

Рель говорит
    → Parakeet STT транскрибирует речь в текст
    → Claude API генерирует ответ "клиента"
    → edge-tts озвучивает ответ
    → система анализирует диалог и выдаёт feedback

Три компонента, каждый решает свою задачу. Всё крутится в FastAPI-бэкенде с простым React-фронтом. Parakeet запускается локально или через free tier Together.ai. Claude - через API. edge-tts - бесплатная библиотека без ключей.


Почему именно эти компоненты

STT: Parakeet, а не Whisper

Первую неделю я сидел на Whisper в Docker. Работало, но медленно - 10 секунд аудио обрабатывалось несколько секунд, а иногда дольше. Рели начали ждать ответ дольше, чем в реальном звонке бывают паузы. Разговор рваный, напряжение пропадает.

Переехал на Nvidia Parakeet TDT 0.6B V3. Результат - работает в реальном времени. Рель говорит фразу, через мгновение клиент отвечает. NVIDIA заявляет больше 3000x real-time throughput - ощущения совпадают. Разговор потёк нормально.

По точности - Parakeet быстрее и точнее Whisper по бенчмаркам NVIDIA на английском. Точные цифры зависят от датасета, поэтому не буду приводить конкретный WER: разные источники дают разные числа. Для русского - Parakeet поддерживается, но я пока не тестировал. Это отдельная задача на следующий месяц.

Модель весит около 1.2GB, запускается локально или через NVIDIA NIM/Together.ai. Есть готовый FastAPI-wrapper на GitHub (проект parakeet-tdt-0.6b-v2-fastapi) с WebSocket-стримингом и OpenAI Audio API совместимостью - это заметно ускоряет интеграцию.

LLM: Claude, а не Llama

Пробовал Llama 2 7B локально для roleplay. Работает, но возражения - мёртвые. “Вот три причины, почему я не готов купить сейчас.” Ни один реальный CFO так не говорит.

Claude Opus 4.6 отвечает живее. “Стоп, а у вас вообще есть кейсы в финтехе? Потому что мы не стартап, у нас compliance тяжёлый.” Это уже похоже на настоящий разговор.

Стоимость: от $0.01 до $0.05 за 5-минутный диалог. При 10 сессиях в месяц на рель - дешевле одной чашки кофе. Есть prompt caching: системный промпт с персоной кэшируется, и повторные запросы обходятся заметно дешевле. На практике это важно, потому что промпты с персонами длинные.

На горизонте - гибридный подход: Claude для сложных персон (CFO, CIO), Llama для базовых сценариев. Но это месяц 3, не сейчас.

TTS: edge-tts

Бесплатная Python-библиотека с 300+ голосами. Работает через Microsoft Edge без API-ключей - просто pip install и готово. Асинхронная, обрабатывает сотни фраз параллельно.

Звучит не как Eleven Labs. Слышно, что синтез. Но для тренировочного тренажёра это не критично - рель фокусируется на словах и логике возражений, а не на качестве голоса.

Eleven Labs звучит лучше, но это платный сервис. Для MVP - лишние расходы без понятной отдачи. Если окажется, что натуральность голоса влияет на обучение - переключусь или сделаю гибрид.


Что уже работает, что ещё сырое

Прототип работает. FastAPI-бэкенд, React-фронт, базовые персоны. Запускается на одной машине.

Первое что я заметил при тестировании - персоны важнее, чем думал изначально. Вместо generic “interested buyer” выбрал трёх персонажей: Skeptical CFO, Risk-Averse IT Director, Time-Stretched CEO. CFO спрашивает ROI. CIO - SOC 2 и часы внедрения. CEO говорит “занят, пришли письмо”. Рели сразу понимают, в чём сложность каждого типа.

После диалога система выдаёт скор и конкретное следующее действие: “потренируйся на тайм-возражения” или “в этот раз хорошо закрыл бюджетный блок, попробуй теперь CIO”. Это работает - рели возвращаются и тренируются снова.

Что ещё сырое:

  • Русский язык: Parakeet поддерживает, но я пока не тестировал. Планирую в следующем месяце.
  • CRM-интеграция: наброски есть, интеграции нет.
  • Анализ видео (мимика, зрительный контакт): в планах, но пока не в приоритете.
  • Fine-tuning под специфичную терминологию: нужен бюджет и данные.

Один неожиданный инсайт: люди не привыкли “разговаривать с AI” как с живым человеком. Первые сессии - скованные, чувствуется дискомфорт. Когда показал коллегам вживую как это работает - они сами начали пробовать. Письмо с инструкцией не работало.


Сколько это стоит

Одна 5-минутная тренировочная сессия:

  • Parakeet STT: $0 (локально) или $0 (free tier Together.ai)
  • Claude API: $0.01 - $0.05
  • edge-tts: $0

Итого за сессию: меньше $0.05.

Для команды из 50 рели с 10 сессиями в месяц - около $2-3K в год только на Claude API, плюс инфраструктура (один GPU L4 тянет примерно сотню параллельных сессий). Против живого sales trainer за $5-10K в месяц на команду - разница очевидна.

Это не “бесплатно” в буквальном смысле. Claude API платный. Но порядок цифр другой.


Что дальше

Ближайший месяц - тест на русском. Хочу сравнить Parakeet и Whisper на реальных русских диалогах с продажной лексикой и посмотреть, где разрыв критичный. Там пока больше вопросов, чем ответов.

Параллельно - добавить 5-7 персон в базу вместо двух. Dashboard для менеджеров, чтобы видеть прогресс команды без ручного анализа.

Дальше - интеграция с Pipedrive или HubSpot, чтобы связать практику в тренажёре с реальными метриками по сделкам. Это единственное, что убедит sales leadership в ценности.

Когда попробовал и увидел, что рель заметно улучшается за неделю регулярных тренировок - стало понятно, что это не AI ради AI. Это реальный инструмент для реальной боли: обучение рели - один из самых узких bottleneck-ов в sales-командах, и он плохо масштабируется людьми.