Разработка ученых лаборатории нейронных систем и глубокого обучения Исследовательского центра прикладных систем искусственного интеллекта МФТИ открывает новые горизонты для виртуальных ассистентов и чат-ботов для поддержки клиентов, успешно преодолевая ограничения, характерные для больших языковых моделей. Новая методика может существенно повысить качество диалоговых систем в узкоспециализированных областях, таких как туризм или медицина. Работа опубликована в сборнике конференции LREC-COLING 2024
В последние годы диалоговые системы стали неотъемлемой частью повседневной жизни, претерпев значительные изменения. Эти программы, способные вести беседы с людьми и имитировать человеческие ответы, широко используются в различных сферах — от работы виртуальных ассистентов до поддержки клиентов.
Одной из ключевых задач в области диалоговых систем является предсказание интентов участников диалога, то есть определение скрытого намерения или цели, лежащих в основе конкретного высказывания в диалоге. Например, интенты могут представлять собой заказ такси («Мне нужно такси до аэропорта на 18:00») или бронирование столика в ресторане («Хотел бы забронировать столик на двоих на завтра вечером»). Точное предсказание интента следующего высказывания в диалоге критически важно, поскольку это позволяет диалоговым системам на основе предсказанного интента генерировать контекстно подходящие и эффективные ответы в ходе общения.
На сегодня для решения подобных задач на основе диалоговых данных часто применяются большие языковые модели (LLMs). Однако их эффективность в узкоспециализированных областях ограничена из-за сложностей адаптации к специфическому домену.
Исследователи из Московского физико-технического института (МФТИ) предложили инновационный подход к разработке диалоговых систем, который основан на автоматическом построении диалоговых сценарных графов и предсказании намерений с использованием графовой структуры диалоговых данных. Этот метод не только улучшает точность предсказаний, но и решает другую значимую проблему, связанную с LLMs — прозрачностью генерируемых ими ответов, позволяя понять логику, лежащую в основе каждого конкретного ответа диалоговой системы.
Основой предложенного метода являются графы. С точки зрения математики, граф — это структура, состоящая из узлов (вершин) и соединяющих их линий (ребер). Узлы представляют объекты, а ребра — связи или отношения между ними. Графы широко используются для моделирования различных систем и процессов, таких как социальные сети, транспортные системы, молекулярные структуры и многое другое.
В контексте разработки диалоговый граф представляет собой интерпретируемое представление диалоговой системы, основанное на регулярной структуре диалоговых данных. Такая структура обусловлена тем, что в диалогах, ориентированных на выполнение задач, каждое высказывание участника диалога содержит определенный интент по отношению к другим участникам. Это, в свою очередь, позволяет моделировать диалоги как последовательности интентов с переходами между ними.
Исследование представляет концепцию многодольного диалогового графа, где каждая доля представляет одну из ролей участников диалога, каждая вершина определяет интент, а ребра в графе представляют переходы между интентами. Необходимость использования многодольности обусловлена тем, что в задачно-ориентированных диалогах участники выполняют разные роли. Это требует отдельного формирования интентов для каждой из ролей ввиду их различной природы и подтверждается результатами экспериментов.
«Сценарные диалоговые графы являются распространенным инструментом в разработке диалоговых помощников. Одной из ключевых проблем, связанных с такими графами, является отсутствие необходимой разметки данных для их построения. Однако процесс ручной разметки требует значительных ресурсов, в то время как наш алгоритм автоматически группирует похожие высказывания на основе диалогового корпуса, определяя интенты участников диалога, которые лежат в основе построения диалогового графа», — объяснила один из авторов исследования Дарья Леднева, научный сотрудник лаборатории нейронных систем и глубокого обучения МФТИ.
Она подчеркнула, что использование диалоговых графов позволяет создать графовое представление для каждого отдельного диалога, что в сочетании с графовыми нейронными системами эффективно решает задачу предсказания следующего интента в диалоге по сравнению с другими рассмотренными методами.
В ходе исследования специалисты из Исследовательского центра прикладных систем искусственного интеллекта МФТИ продемонстрировали методологию разработки диалоговых систем, предложив новый подход к предсказанию интентов с использованием графовых структур. Особое внимание было уделено отличительным особенностям диалоговых данных, ограниченным узкими предметными областями. В целом результаты исследования подтвердили эффективность графовых моделей для повышения точности предсказания интентов в различных доменах диалоговых систем.