Взгляд внутрь AI

Существуют огромное количество разных AI. Различные AI могут создавать изображения , музыку, текст и даже видео . Обратите внимание, что это все генеративные AI, в основном AI, которые что-то создают.

ПРИМЕЧАНИЕ
Этот курс находится в стадии интенсивной разработки. Мы прилагаем все усилия, чтобы улучшить процесс обучения и добавить больше контента. Если у вас есть какие-либо предложения, пожалуйста, дайте нам знать!

Модели, такие как GPT (Generative Pretrained Transformer), действительно используют подход, основанный на токенах, для обучения и понимания текста. Давайте рассмотрим этот процесс более подробно.

Токенизация: Прежде всего, текст делится на токены. Токен может быть словом, символом или частью слова. Как правило, в английском языке токенизация основана на пробелах между словами и знаками препинания, но в некоторых других языках, таких как китайский или японский, где нет очевидных границ слов, токенизация может быть более сложной. GPT использует метод токенизации под названием Byte Pair Encoding (BPE), который позволяет ему обрабатывать разнообразные формы слов и обходиться без ограниченного словаря.
Векторное представление: Каждый токен затем сопоставляется с вектором в многомерном пространстве. Это пространство иногда называют "пространством смыслов", потому что близость векторов в этом пространстве соответствует семантической близости токенов. Например, векторы для слов "кот" и "кошка" будут ближе, чем векторы для "кот" и "автомобиль".[1]
Обучение модели: Во время обучения модель видит множество примеров текста и учится предсказывать следующий токен на основе предыдущих токенов. Модель обновляет свои веса (которые определяют векторы токенов) таким образом, чтобы минимизировать ошибку между предсказаниями модели и действительностью.
Непрерывное обучение: Модель GPT обучается на больших объемах текста. В результате она учится обрабатывать широкий спектр токенов и семантических контекстов. Но, как вы верно заметили, некоторые токены встречаются реже, и их векторы могут быть менее точно обучены.
Заключение: Важно понимать, что модель GPT, хоть и способна генерировать текст, который кажется понятным и смысловым, фактически не понимает текст в том смысле, как понимает человек.

Модель GPT не имеет представления о реальном мире, истории или культуре за пределами того, что было представлено в текстах, на которых она была обучена и не имеет представления о реальном мире, истории или культуре за пределами того, что было представлено в текстах, на которых она была обучена. Ее 'знание' базируется исключительно на статистических связях между токенами в данных обучения. Это важно учитывать при оценке ее возможностей и ограничений.

Также стоит отметить, что модель не способна обучаться или адаптироваться во время взаимодействия с пользователем. Все ее знания и "понимание" текста зафиксированы на момент ее последнего обучения. Это означает, что модель не будет "учиться" или "памятовать" информацию от одного общения к другому.

В целом, подход GPT к обучению и пониманию текста представляет собой мощный инструмент для анализа и генерации текста, но он также имеет свои ограничения и необходимо принимать это во внимание при его использовании.

В процессе формирования словарного запаса для обучения языковой модели применяется техника, известная как токенизация. Она заключается в разбиении текста на фрагменты, называемые токенами. Для обучения моделей GPT-2 и GPT-3 использовался токенизатор с кодированием байтовых пар на уровне байтов. Этот тип токенизатора начинает свой словарный запас с отдельных байтов, что позволяет разбить все слова на токены.

Токенизатор обучается на текстовых данных, обычно представленных в виде файлов. По завершению обучения, токенизатор создает файл vocab.json, содержащий список наиболее часто встречающихся токенов, отсортированных по частоте, и файл merges.txt, содержащий список слияний.

В случае с GPT модель работает с токенами. Она берет текст, преобразует его в целочисленные токены и затем предсказывает, какие токены должны следовать за текущими. Большинству распространенных английских слов присваивается один токен.

При токенизации учитывается заглавные буквы, и пробелы, так как они могут влиять на получение разных токенов. Например, "The" с заглавной буквой T представляется токеном 464, а " the" с пробелом и строчной буквой t - токеном 2622. Языки, отличные от английского, могут испытывать трудности с токенизацией из-за особенностей английского ориентированного токенизатора.

Будьте в курсе последних лайфхаков в Prompt Engineering и осваивайте навыки общения с ChatGPT и ИИ

Получайте бесплатные шпаргалки по ChatGPT и новые интересные статьи о том как управлять ChatGPT