Исследуем: предсказание следующего слова

⏱️ Примерное время: ~12 минут · 🎯 Урок 4 курса «AI Fluency для малого бизнеса»

Отправьте сообщение

Когда-то давно мы с друзьями играли в одну игру: ты берёшь телефон и составляешь сообщение для приятеля, используя только те слова, которые подсказывает клавиатура. Может быть, вы тоже так делали.

Вот симулятор, который был «обучен» на небольшом наборе текстов. Попробуйте сами!

Мы говорили об этом так, будто это «бот-я». Мы понимали, что он подсказывает слова, опираясь на наши индивидуальные привычки в переписке, и узнавали собственный голос в персональных подсказках.

Тогда мы спокойно списывали это на технологическую магию. Не думаю, что мы понимали, насколько простым может быть этот алгоритм.

Читайте дальше, если хотите собрать такой вместе со мной :)

«Обучение» вашей модели

Давайте обучимся на нескольких сообщениях. Всё, что нужно, — это подсчитать связи между словами. Сделаем это по одному сообщению за раз.

Матрица переходов

Добавьте сообщения выше, чтобы начать строить матрицу.

Эта готовая карта связей между словами называется таблицей частот. Нормализуйте каждую строку — и вы получите распределение вероятностей того, какое слово идёт следующим.

Действие выбора следующего слова на основе того, что уже есть, называется сэмплированием. Тот же самый термин мы используем для этого процесса в современных языковых моделях, таких как Claude.

Немного посэмплируем

Используя ту же матрицу, построенную на 5 текстах, сыграйте в нашу игру уже более осознанно. Мы покажем вам вероятности.

Подсвеченная строка — это ваш текущий контекст. Выберите слово из доступных вариантов, чтобы продолжить.

Технологии, которым 100 лет

«А это настоящая технология?» Отличный вопрос, читатель.

Марков опубликовал эту идею в 1906 году. Спустя век, в 2010-м, n-граммные модели вроде этой уже отвечали за предсказание следующего слова на вашем телефоне (сначала SwiftKey, затем QuickType от Apple). Около 2015 года нейросети — сначала RNN, а затем трансформеры в 2017-м — начали вытеснять подход с поиском по таблице обученной функцией, и всё остальное — ну, это как раз то, над чем мы работаем сейчас.