AI Runtime: on-device + cloud

Аннотация 2026-07-02: документ инженерной фазы (февраль 2026), сохранён как есть, не отретуширован. Технически нейтрален к текущему канону: софт-архитектура не привязана к конкретному железу, RK3588 NPU здесь — иллюстрация класса устройств, а не обязательство по железу.

Роутинг запросов

Вход (запрос пользователя) → классификатор (on-device, 0.5B параметров, <100ms) → развилка:

Простое / приватное / офлайн → локально: on-device LLM — 1.5B, 15 tok/s
Сложное / креативное → облако: Cloud API (Claude) — 100+ tok/s

Модели на устройстве

Бенчмарки на RK3588 NPU, 6 TOPS INT8.

Модель	Размер	Скорость
Qwen2.5-0.5B	~600 MB	25–35 tok/s
Llama 3.2-1B	~1 GB	20–30 tok/s
Qwen2.5-1.5B (выбор проекта)	~1.5 GB	15 tok/s
DeepSeek-R1-Distill-1.5B	~1.5 GB	15 tok/s
Phi-3-mini	3.8B / ~3.8 GB	6.5 tok/s
Qwen2.5-7B	~7 GB	3–4 tok/s

RK3588 NPU: только W8A8 квантизация, макс. 16K контекст, 6 TOPS.

Голосовой пайплайн

Полный цикл: микрофон (вход) → VAD (Silero, <50ms, 50 MB) → STT (SenseVoice, <500ms, 400 MB) → LLM (Qwen 1.5B, 15 tok/s, 1.5 GB) → TTS (Piper, <200ms, 50 MB) → динамик (выход).

Итого: ~2–2.5 GB RAM, ~1–2s end-to-end.

Сравнение сред выполнения

Runtime	NPU	CPU	Для чего
RKLLM	Да (единственный!)	Нет	LLM на NPU
llama.cpp	Нет	Да (NEON)	LLM на CPU, fallback
sherpa-onnx	Да (для STT)	Да	Речь: STT/TTS/VAD с NPU
Piper	Нет	Да	TTS, 0.2 RTF (5x realtime)

На устройстве vs Облако

Параметр	На устройстве	Облако (Claude)
Скорость	15 tok/s	100+ tok/s
Качество	Базовое	Отличное
Первый токен	200–500ms	+сеть latency
Стоимость	$0	$0.04–15/M tok
Офлайн	Да	Нет
Приватность	Полная	Данные идут в облако

Стратегия: гибрид. On-device для простых, приватных и офлайн задач. Cloud для сложного рассуждения и креативных задач.

Источник