Группа российских ученых из Исследовательского центра прикладных систем искусственного интеллекта МФТИ, Института искусственного интеллекта AIRI и Лондонского института математических наук предложила новаторский метод для обработки больших данных. Он позволяет искусственному интеллекту генерировать ответы на вопросы по текстам объемом до 2 миллионов токенов. На момент выхода статьи этот результат стал рекордным для нейросетевых моделей.
Исследование опубликовано в сборнике трудов конференции AAAI-24, которая в этом году прошла в Ванкувере (Канада). Это одно из крупнейших глобальных событий в сфере изучения искусственного интеллекта.
Предложенный метод основан на особом механизме использования языковых моделей (алгоритмов для предсказания слова, знака или фразы на основе контекста). Такие модели лежат в основе современных диалоговых систем, поисковых сервисов и голосовых помощников.
При этом их программную часть составляют трансформеры — универсальные архитектуры, которые помогают выстроить правильный порядок действий при обработке запроса и генерации ответа. В частности, трансформеры позволяют нейросетям выполнять множество задач одновременно, что ускоряет их работу.
«Однако модели, которые используют стандартные трансформеры, не могут обрабатывать длинные тексты. Их скорость быстро падает, когда размер текста увеличивается. В результате нейросети приходят к пределам возможностей, выдают “галлюцинации” или ошибочные ответы», — объяснил проблему один из авторов научной работы, программист-разработчик лаборатории нейронных систем и глубокого обучения МФТИ Айдар Булатов.
По его словам, чтобы обойти преграду, команда исследователей предложила добавить трансформерам «механизм памяти». Суть идеи в том, чтобы разделить длинные входные последовательности на сегменты и снабдить их дополнительными алгоритмами для резервирования информации. Эти элементы служат как бы «мостиками», по которым важные данные переносятся с предыдущего сегмента на следующий. Это позволяет языковой модели держать в «памяти» длинный текст на всем его протяжении. На следующем этапе программа уже может выполнять с «усвоенным» текстом различные операции, обрабатывая информацию в соответствии с запросами пользователей.
«Сначала мы проводили эксперименты на небольших последовательностях — от 7 до 15 сегментов, в каждом из которых по 500 токенов (базовых единиц информации в языковых моделях), но заметили, что качество обработки данных при увеличении длины не падает. Тогда мы продолжили тестирование модели и дошли до миллиона, а затем и до двух миллионов токенов. Для сравнения, это объем всех книг о Гарри Поттере», — добавил со своей стороны соавтор работы, научный сотрудник AIRI Юрий Куратов.
В ходе работы ученые также исследовали «интеллектуальные» способности модели, задавая ей задачи на обнаружение в длинных текстах нужных данных, на их запоминание и на «рассуждения» на основе усвоенного. При этом программа продемонстрировала не только способность удерживать в «памяти» массивы информации, но и навыки «критического мышления» и «писательского мастерства».
В дальнейшем, по мнению авторов работы, предложенный метод будет востребован для разработки технологий обработки больших баз данных. Например, для быстрого перевода книг, чтения программного кода, изучения геномных последовательностей или предсказания новых материалов.
6