Математики из МФТИ, лаборатории искусственного интеллекта Сбербанка и Университета Иннополис создали метод JAGUAR для задач оптимизации “черного ящика”. Метод сохраняет свою эффективность в сложных и гладких функциях, функциях с особыми свойствами, а также ситуациях, когда расчет сопровождается случайными ошибками. Работа опубликована в журнале Chaos, Solitons & Fractals.
«Алгоритм JAGUAR открывает новые возможности для разработки и применения методов оптимизации в задачах, где традиционные подходы сталкиваются с ограничениями. Он эффективно решает проблемы, связанные с вычислительными сложностями подсчета градиента. С подобными трудностями все чаще сталкиваются разработчики современных приложений, в том числе при обучении больших языковых моделей», — прокомментировал Андрей Веприков, первый автор статьи, сотрудник лаборатории фундаментальных исследований МФТИ—Яндекс.
В исследовании авторы предложили новый метод оптимизации нулевого порядка, который использует не градиент целевой функции, а только значения в точках. JAGUAR рассмотрен в классическом и стохастическом алгоритмах Франка—Вульфа. Результаты работы позволяют оптимизировать сложные недифференцируемые функции потерь, специфичные для прикладной задачи, за меньшее число итераций для умного тюнинга гиперпараметров в моделях машинного обучения.
Например, с помощью такого подхода можно оптимизировать двухэтапные процедуры, когда на первом этапе обучается нейронная сеть для извлечения эмбеддингов данных, которые обеспечивают максимальную точность классификации или регрессии на втором этапе. Кроме того, метод может быть использован в случаях, при которых вычисление градиента целевой функции сложно с вычислительной точки зрения или затрат по памяти при дообучении больших языковых моделей.
В работе рассматриваются вопросы оптимизации, когда отсутствует доступ к точной формуле для расчета результата и приходится оценивать его приближенно. Представленный метод обучения AI-моделей сохраняет информацию из предыдущих шагов и требует определенного количества запросов к системе. В своем исследовании ученые внедрили его в два известных алгоритма оптимизации, которые остались эффективными даже с таким приближенным расчетом.
Ученые также проанализировали использование метода в сложных и гладких функциях, функциях с особыми свойствами и ситуациях, когда расчет сопровождается случайными ошибками. Во всех рассмотренных случаях он продемонстрировал стабильную эффективность, обеспечивая рост качества на тестовых множествах примерно в 10 % по сравнению с доступными аналогами, которые есть в открытом доступе на рынке.