Использование систем искусственного интеллекта (ИИ) при решении производственных задач в реальном мире сопряжено со многими трудностями. Компании испытывают сложности с привлечением и удержанием нужного персонала, построением и развёртыванием ИИ-моделей, определением ответственных методов использования новых технологий и соблюдением новых законов в этой области. В это самое время крупные высокотехнологичные компании, такие как Alphabet или Meta, продолжают наращивать темпы исследований в этой области, благодаря тому, что у них есть возможность привлекать лучших мировых специалистов. Такие компании чаще остальных успешно внедряют разработки в сфере ИИ в свои бизнес-процессы, продолжая увеличивать разрыв между ними и остальным миром в области ИИ. Сейчас крупные компании концентрируют свои усилия на следующих направлениях, которые пока доступны только им, но в будущем станут общераспространенными.
Один из ключевых вопросов, касающихся дальнейшего развития ИИ, заключается в том, может ли простое увеличение масштаба модели привести к существенному улучшению её качества. Недавняя работа группы исследователей из Google Research, Стэнфордского университета, UNC Chapel Hill и DeepMind утверждает, что это возможно.
В их исследовании рассматривается то, что ученые называют эмерджентными способностями больших языковых моделей (Large Language Model, LLM). Способность считается эмерджентной, если она не присутствует в малых моделях, но появляется в больших. Авторы работы утверждают, что если такие способности существуют, то дополнительное увеличение параметров языковых моделей может еще больше расширить диапазон их возможностей.
В работе оцениваются эмерджентные способности в моделях LaMDA и PaLM от Google, GPT-3 от OpenAI, а также Gopher и Chinchilla от DeepMind. Что же такого "большого" в больших языковых моделях? Исследователи отмечают, что современные языковые модели масштабируются в основном по трем факторам: объем вычислений (в количестве операций в секунду), количество параметров модели и размер обучающего набора данных.
Больше всего внимания в работе уделяют фактору вычислений, однако не стоит забывать о двух других. Возможно, имеет смысл рассматривать эмерджентные свойства как функцию многих связанных между собой переменных, отмечают исследователи.
Для того чтобы оценить способности LLM, исследователи использовали парадигму подсказок, в которой предварительно обученная языковая модель вначале получает подсказку (например, инструкцию или вопрос на естественном языке) и формулирует ответ без дальнейшего обучения или обновления параметров.
LLM оценивались с помощью стандартных бенчмарков как для простых подсказок или так называемых задач с малых числом шагов, так и для сложных подсказок, для правильного ответа на которые нужно сформулировать особые стратегии. Задачи с малым числом шагов включают в себя задачи на сложение и вычитание, а также на понимание вопросов на естественном языке в таких областях, как математика, история, право и т.д. Сложные подсказки включают в себя такие задачи, как многоэтапные рассуждения и исполнение инструкций.
Исследователи обнаружили, что целый ряд способностей наблюдался только у достаточно больших языковых моделей. Их появление нельзя предсказать, просто экстраполируя результаты тестов на моделях меньшего масштаба. Общий вывод заключается в том, что дальнейшее масштабирование, вероятно, наделит еще более крупные языковые модели новыми способностями. Существует множество задач, для которых даже самые большие модели LaMDA и GPT-3 не показывают результатов лучше, чем можно было бы объяснить простой случайностью.
Исследователи выдвинули несколько объяснений тому, почему появляются новые способности. Возможно, дело в том, что задачи, требующие для выполнения большого количества шагов, также требуют от модели соответствующей глубины, то есть достаточного количества параметров, определенных на больших массивах тренировочных данных. В таком случае разумно предположить, что дальнейшее увеличение глубины позволит моделям лучше запоминать информацию, которая нужна для решения задач, требующих знаний об окружающем мире.
Исследователи отмечают, что по мере развития новых подходов к обучению LLM, определенные способности смогут проявляться и у относительно небольших моделей. Но для этого потребуется создание новых архитектур, сбор более качественных тренировочных данных и улучшение методов обучения. Это означает, что со временем рассмотренные в исследовании способности, могут стать доступными и для пользователей других моделей ИИ.
Еще одна эмерджентная способность, о которой говорится в недавно опубликованной работе исследователей из Google Research Brain Team — проведение сложных рассуждений.
Гипотеза проста: Что, если вместо того, чтобы быть немногословными, предлагая LLM подсказку, пользователи покажут модели несколько примеров многоэтапного процесса рассуждения, аналогичных тем, которые использует человек?
Цепь мыслей — это серия промежуточных шагов рассуждений на естественном языке, которые приводят к конечному результату. Она похожа на то, как люди используют целенаправленные логические конструкции, чтобы найти решения сложным задачам.
Эта работа обусловлена двумя ключевыми идеями. Во-первых, демонстрация промежуточных результатов рассуждений значительно повышает точность при решении задач, включающих множество шагов. Во-вторых, LLM можно «подсказать» несколькими примерами, как можно решать ту или иную задачу. И тогда модель «научится» ее выполнять. Исследователи отмечают, что подсказка в виде цепи мыслей обладает рядом привлекательных свойств и упрощает процесс рассуждения для больших языковых моделей.
Во-первых, у моделей появляется возможность разложить многоэтапные задачи на промежуточные шаги, что повышает сложность задач, которые она может потенциально решить. Во-вторых, такие подсказки проливают больше света на то, как модель приходит к тому или иному решению. В-третьих, такой подход можно в принципе применить к любой задаче, которую человек способен решить с помощью рассуждений на естественном языке. И, в четвертых, он может быть относительно просто реализован для уже готовых и достаточно больших языковых моделях.
В исследовании оцениваются модели LaMDA и PaLM от Google, а также GPT-3 от OpenAI. Ученые изучили способность моделей решать эталонные задачи, основанные на математических вычислениях, логических рассуждениях и операциях с символами.
Давайте посмотрим, как исследователи сформулировали подсказки для LLM и рассмотрим следующую задачу: «У Роджера есть 5 теннисных мячей. Он покупает еще 2 банки теннисных мячей. В каждой банке по 3 теннисных мяча. Сколько теннисных мячей у него теперь?»
Стандартный подход к обучению с подсказкой заключается в предоставлении LLM прямого ответа, т.е. «Ответ — 11». Побуждение к размышлению происходит при помощи расширения ответа и выглядит следующим образом: « Вначале у Роджера было 5 мячей. 2 банки по 3 теннисных мяча в каждой — это 6 теннисных мячей. 5 + 6 = 11. Ответ — 11».
Оказалось, что чем сложнее интересующая нас задача и чем большего числа логических шагов она требует для решения, тем эффективней становятся подсказки в виде цепи мыслей. Кроме того, похоже, что чем больше модель, тем больше выигрыш. Это указывает на то, что подход цепочки мыслей может быть полезен для обучения LLM другим задачам, для выполнения которых они не были специально разработаны.