---
title: "AI-тренажёр продаж за бесплатно: Parakeet + Claude + edge-tts"
description: "Как собрать AI-тренажёр продажных диалогов из бесплатных компонентов: Nvidia Parakeet для распознавания речи, Claude для roleplay клиента, edge-tts для озвучки"
url: "https://ifonin.ru/blog/ai-sales-trainer-free/"
date: 2026-04-07
tags: ["ai","sales","stt","tts","claude","pet-project"]
---

# AI-тренажёр продаж за бесплатно: Parakeet + Claude + edge-tts

Заметил кое-что странное несколько месяцев назад. Рели в команде, которые тренировались в одиночку с AI, выходили на живые звонки увереннее, чем те, кто делал roleplay с менеджером. Не потому что менеджер плохой. А потому что без человека над плечом - меньше стресса, больше повторений, можно облажаться и попробовать ещё раз без последствий.

Начал собирать нормальный тренажёр. Выяснилось, что почти все компоненты - бесплатные или стоят копейки.

---

## Зачем это вообще нужно

Traditional roleplay с менеджером работает плохо по одной причине: человек нервничает. Знает, что его оценивают. Старается выглядеть компетентным, а не тренироваться честно. В итоге - 30 минут в неделю вместо нормальной практики.

AI-среда убирает этот барьер. Рель может прогнать один и тот же сложный сценарий пять раз подряд, ошибиться на третьем, разобраться почему, и сделать нормально на пятом. Никто не видит, никто не записывает в голове "он опять завалил тайм-возражение".

Субъективно - те, кто регулярно тренировался с AI, звонили увереннее. Это первые впечатления, рано говорить о конкретных цифрах. Но этого было достаточно, чтобы начать копать.

---

## Как устроена архитектура

Система работает линейно:

```
Рель говорит
    → Parakeet STT транскрибирует речь в текст
    → Claude API генерирует ответ "клиента"
    → edge-tts озвучивает ответ
    → система анализирует диалог и выдаёт feedback
```

Три компонента, каждый решает свою задачу. Всё крутится в FastAPI-бэкенде с простым React-фронтом. Parakeet запускается локально или через free tier Together.ai. Claude - через API. edge-tts - бесплатная библиотека без ключей.

---

## Почему именно эти компоненты

### STT: Parakeet, а не Whisper

Первую неделю я сидел на Whisper в Docker. Работало, но медленно - 10 секунд аудио обрабатывалось несколько секунд, а иногда дольше. Рели начали ждать ответ дольше, чем в реальном звонке бывают паузы. Разговор рваный, напряжение пропадает.

Переехал на Nvidia Parakeet TDT 0.6B V3. Результат - работает в реальном времени. Рель говорит фразу, через мгновение клиент отвечает. NVIDIA заявляет больше 3000x real-time throughput - ощущения совпадают. Разговор потёк нормально.

По точности - Parakeet быстрее и точнее Whisper по бенчмаркам NVIDIA на английском. Точные цифры зависят от датасета, поэтому не буду приводить конкретный WER: разные источники дают разные числа. Для русского - Parakeet поддерживается, но я пока не тестировал. Это отдельная задача на следующий месяц.

Модель весит около 1.2GB, запускается локально или через NVIDIA NIM/Together.ai. Есть готовый FastAPI-wrapper на GitHub (проект parakeet-tdt-0.6b-v2-fastapi) с WebSocket-стримингом и OpenAI Audio API совместимостью - это заметно ускоряет интеграцию.

### LLM: Claude, а не Llama

Пробовал Llama 2 7B локально для roleplay. Работает, но возражения - мёртвые. "Вот три причины, почему я не готов купить сейчас." Ни один реальный CFO так не говорит.

Claude Opus 4.6 отвечает живее. "Стоп, а у вас вообще есть кейсы в финтехе? Потому что мы не стартап, у нас compliance тяжёлый." Это уже похоже на настоящий разговор.

Стоимость: от $0.01 до $0.05 за 5-минутный диалог. При 10 сессиях в месяц на рель - дешевле одной чашки кофе. Есть prompt caching: системный промпт с персоной кэшируется, и повторные запросы обходятся заметно дешевле. На практике это важно, потому что промпты с персонами длинные.

На горизонте - гибридный подход: Claude для сложных персон (CFO, CIO), Llama для базовых сценариев. Но это месяц 3, не сейчас.

### TTS: edge-tts

Бесплатная Python-библиотека с 300+ голосами. Работает через Microsoft Edge без API-ключей - просто pip install и готово. Асинхронная, обрабатывает сотни фраз параллельно.

Звучит не как Eleven Labs. Слышно, что синтез. Но для тренировочного тренажёра это не критично - рель фокусируется на словах и логике возражений, а не на качестве голоса.

Eleven Labs звучит лучше, но это платный сервис. Для MVP - лишние расходы без понятной отдачи. Если окажется, что натуральность голоса влияет на обучение - переключусь или сделаю гибрид.

---

## Что уже работает, что ещё сырое

Прототип работает. FastAPI-бэкенд, React-фронт, базовые персоны. Запускается на одной машине.

Первое что я заметил при тестировании - персоны важнее, чем думал изначально. Вместо generic "interested buyer" выбрал трёх персонажей: Skeptical CFO, Risk-Averse IT Director, Time-Stretched CEO. CFO спрашивает ROI. CIO - SOC 2 и часы внедрения. CEO говорит "занят, пришли письмо". Рели сразу понимают, в чём сложность каждого типа.

После диалога система выдаёт скор и конкретное следующее действие: "потренируйся на тайм-возражения" или "в этот раз хорошо закрыл бюджетный блок, попробуй теперь CIO". Это работает - рели возвращаются и тренируются снова.

Что ещё сырое:
- **Русский язык**: Parakeet поддерживает, но я пока не тестировал. Планирую в следующем месяце.
- **CRM-интеграция**: наброски есть, интеграции нет.
- **Анализ видео** (мимика, зрительный контакт): в планах, но пока не в приоритете.
- **Fine-tuning** под специфичную терминологию: нужен бюджет и данные.

Один неожиданный инсайт: люди не привыкли "разговаривать с AI" как с живым человеком. Первые сессии - скованные, чувствуется дискомфорт. Когда показал коллегам вживую как это работает - они сами начали пробовать. Письмо с инструкцией не работало.

---

## Сколько это стоит

Одна 5-минутная тренировочная сессия:

- Parakeet STT: $0 (локально) или $0 (free tier Together.ai)
- Claude API: $0.01 - $0.05
- edge-tts: $0

Итого за сессию: меньше $0.05.

Для команды из 50 рели с 10 сессиями в месяц - около $2-3K в год только на Claude API, плюс инфраструктура (один GPU L4 тянет примерно сотню параллельных сессий). Против живого sales trainer за $5-10K в месяц на команду - разница очевидна.

Это не "бесплатно" в буквальном смысле. Claude API платный. Но порядок цифр другой.

---

## Что дальше

Ближайший месяц - тест на русском. Хочу сравнить Parakeet и Whisper на реальных русских диалогах с продажной лексикой и посмотреть, где разрыв критичный. Там пока больше вопросов, чем ответов.

Параллельно - добавить 5-7 персон в базу вместо двух. Dashboard для менеджеров, чтобы видеть прогресс команды без ручного анализа.

Дальше - интеграция с Pipedrive или HubSpot, чтобы связать практику в тренажёре с реальными метриками по сделкам. Это единственное, что убедит sales leadership в ценности.

Когда попробовал и увидел, что рель заметно улучшается за неделю регулярных тренировок - стало понятно, что это не AI ради AI. Это реальный инструмент для реальной боли: обучение рели - один из самых узких bottleneck-ов в sales-командах, и он плохо масштабируется людьми.