Эвристика на смеси языков (по умолчанию):

Латиница: 1 токен ≈ 4 символа
Кириллица: 1 токен ≈ 2 символа
Цифры и пунктуация: ≈ 2 символа на токен
Пробелы: ≈ 4 символа на токен

Точность ±10%. Для платёжной точности используйте tiktoken у OpenAI или POST /v1/messages/count_tokens у Anthropic — оба требуют серверной части или API ключа.

Prompt Caching — у Claude, GPT-4o, Gemini, DeepSeek повторяющийся system-промпт кэшируется на стороне вендора. Цена кэшированной части — в 2-10 раз ниже базовой. Если вы используете один системный промпт во всех запросах — большая часть input уйдёт в кэш.

Claude: cached = 10% цены
GPT-4o, Gemini Batch: 50%
DeepSeek cache hit: ~25%
YandexGPT, GigaChat: prompt caching не поддерживают

Batch API — у OpenAI и Anthropic асинхронный режим со скидкой 50% (ответ в течение 24ч). Подходит для аналитики, бэкенд-задач, бэкап-обработки.

Multi-turn диалог: в каждом следующем запросе вы отправляете всю историю предыдущих сообщений. Калькулятор моделирует накопление: turn N input = system + (N-1)×(user+assistant) + new user. Это объясняет, почему длинные диалоги быстро становятся дорогими.

Скорость и задержка — приблизительные значения из публичных бенчмарков. tps (tokens/sec) важен для UX чатов, ttft — задержка до первого токена.

Счётчик токенов и стоимости