Аннотация 2026-07-02: документ инженерной фазы (февраль 2026), сохранён как есть, не отретуширован. Технически нейтрален к текущему канону: софт-архитектура не привязана к конкретному железу, RK3588 NPU здесь — иллюстрация класса устройств, а не обязательство по железу.
Роутинг запросов
Вход (запрос пользователя) → классификатор (on-device, 0.5B параметров, <100ms) → развилка:
- Простое / приватное / офлайн → локально: on-device LLM — 1.5B, 15 tok/s
- Сложное / креативное → облако: Cloud API (Claude) — 100+ tok/s
Модели на устройстве
Бенчмарки на RK3588 NPU, 6 TOPS INT8.
| Модель | Размер | Скорость |
|---|---|---|
| Qwen2.5-0.5B | ~600 MB | 25–35 tok/s |
| Llama 3.2-1B | ~1 GB | 20–30 tok/s |
| Qwen2.5-1.5B (выбор проекта) | ~1.5 GB | 15 tok/s |
| DeepSeek-R1-Distill-1.5B | ~1.5 GB | 15 tok/s |
| Phi-3-mini | 3.8B / ~3.8 GB | 6.5 tok/s |
| Qwen2.5-7B | ~7 GB | 3–4 tok/s |
RK3588 NPU: только W8A8 квантизация, макс. 16K контекст, 6 TOPS.
Голосовой пайплайн
Полный цикл: микрофон (вход) → VAD (Silero, <50ms, 50 MB) → STT (SenseVoice, <500ms, 400 MB) → LLM (Qwen 1.5B, 15 tok/s, 1.5 GB) → TTS (Piper, <200ms, 50 MB) → динамик (выход).
Итого: ~2–2.5 GB RAM, ~1–2s end-to-end.
Сравнение сред выполнения
| Runtime | NPU | CPU | Для чего |
|---|---|---|---|
| RKLLM | Да (единственный!) | Нет | LLM на NPU |
| llama.cpp | Нет | Да (NEON) | LLM на CPU, fallback |
| sherpa-onnx | Да (для STT) | Да | Речь: STT/TTS/VAD с NPU |
| Piper | Нет | Да | TTS, 0.2 RTF (5x realtime) |
На устройстве vs Облако
| Параметр | На устройстве | Облако (Claude) |
|---|---|---|
| Скорость | 15 tok/s | 100+ tok/s |
| Качество | Базовое | Отличное |
| Первый токен | 200–500ms | +сеть latency |
| Стоимость | $0 | $0.04–15/M tok |
| Офлайн | Да | Нет |
| Приватность | Полная | Данные идут в облако |
Стратегия: гибрид. On-device для простых, приватных и офлайн задач. Cloud для сложного рассуждения и креативных задач.
Источник
Перенесено дословно из первой версии сайта, страница «AI Runtime» (февраль 2026, живой архив). См. также инженерную базу.