Как устроена LLM — 4 принципа

Основы · ≈ 5 мин

Зачем это знать

Когда понимаешь, как модель работает — её странности перестают удивлять. Каждый принцип ниже даёт конкретный приём, который ты будешь использовать каждый день.

Принцип 1. LLM предсказывает следующее слово

Модель не «думает». Она выучила, какие слова обычно идут за какими.

Когда пишешь «Столица Франции —», модель не знает, что это Париж. Она видела тысячи текстов, где после этих слов шло «Париж».

Промпт — это не команда. Это начало текста, которое модель продолжает.

→ Стиль и тон промпта задают стиль ответа. Начал плохо — продолжит плохо.

Принцип 2. Контекстное окно

У модели нет долговременной памяти. Каждый раз модель получает весь текст разговора целиком — это и есть «окно».

Модель	Окно	Страниц
Claude Sonnet 4	200k токенов	~500
Claude Opus 4.7 (1M)	1M токенов	~2500
ChatGPT-4o	128k токенов	~300

Окно закончилось → старые сообщения обрезаются. Модель буквально перестаёт видеть начало разговора.

→ Длинные чаты «тупеют» — это не баг, а ограничение окна. На сложной задаче открывай новый чат. В Claude Code: /context (посмотреть), /clear (сбросить), /compact (сжать).

Принцип 3. Роль и контекст важнее команды

«Senior маркетолог в EdTech, объясни...» работает заметно лучше, чем «напиши хороший текст».

Модель ищет в обучающих данных паттерны, похожие на запрос. Дал роль — подбирает примеры из текстов таких людей. Не дал — берёт усреднённый интернет.

Три рычага: роль · контекст · формат. Без них — усреднённый ответ. С ними — то, что нужно. Подробнее в блоке 2.1 «Бриф вместо промпта».

Принцип 4. Галлюцинации — свойство, не баг

Модель не проверяет факты. Она проверяет, похоже ли это на правильный ответ. «Уверенность» — тоже выученный паттерн. Модель не знает, что не знает.

Опасные зоны: цифры и даты · цитаты · ссылки (URL правдоподобный, но не существует) · API и библиотеки.

→ Никогда не используй ответ AI без проверки в зонах высокой стоимости ошибки. Методики — в блоке 2.3 «3 уровня проверки AI».

Бонус: токены

Модель работает с токенами — кусочками слов. «Привет» = 1-2 токена, «Работоспособность» = 3-4. Русский «дороже» английского в 2-3 раза. Окно меряется в токенах, не в словах.

Посмотреть токенизацию — tiktokenizer.vercel.app.

Чек-лист готовности

0 из 4

Могу объяснить, почему модель «галлюцинирует»: предсказывает, не знает
Понимаю, почему длинные чаты «тупеют»
Помню три рычага: роль · контекст · формат
Знаю, что русский «дороже» английского по токенам