Ученые из Исследовательского центра прикладных систем ИИ МФТИ разработали полуавтоматический алгоритм разметки текстовых данных, основанный на больших языковых моделях. Новый алгоритм показал хорошие результаты и позволит сократить расходы на обработку текстовых данных. Результаты опубликованы в журнале ACL Technology.
Алгоритмы нейросетей обучаются на размеченных данных — это набор данных, в котором каждый пример снабжен соответствующей меткой, указывающей на правильный ответ или желаемый результат. Эти метки обычно предоставляются человеком, который может быть экспертом в предметной области или руководствуется правильными ответами из предыдущих наблюдений. Хорошо размеченные данные позволяют алгоритмам лучше обучаться и эффективнее взаимодействовать с человеком, например, в чатботах. Аннотацией текстовых данных занимаются люди — как эксперты в лингвистике, так и обычные пользователи, обученные на простых инструкциях. Эксперты имеют глубокие знания в языке, но обработка больших объемов данных требует массового участия, включая аннотацию от людей с минимальной подготовкой. Даже так это продолжительный и затратный процесс, который сегодня пытаются оптимизировать с помощью больших языковых моделей, таких как, например, ChatGPT.
Исследователи из лаборатории нейронных систем и глубокого обучения, входящей в состав Исследовательского центра прикладных систем искусственного интеллекта МФТИ, разработали полуавтоматическую систему на базе ChatGPT, которая проводит аннотацию текста. Затем ученые сравнили ее результаты с тем, что получили обычные люди и эксперты. Для аннотации текстов как людьми, так и алгоритмами были разработаны иерархические рекомендации и инструкции, основанные на теории сегментированного представления дискурса (SDRT) и теории актов диалога (DA) — теоретические основы анализа диалогов. Сначала корпус текстов был проанализирован и размечен экспертами, а затем тем же процессом занимались обычные люди и ChatGPT. Для обучения модели и людей использовались иерархические рекомендации, включающие в себя простые вопросы о теме, типах предложений, прагматических аспектах высказываний, а также примеры для лучшего понимания таксономии. Исследователи оценивали степень совпадения аннотации людей и ChatGPT между собой, а также ее совпадение с экспертной аннотацией, которая выступала в качестве золотого стандарта в данном исследовании.
Результаты исследования показывают, что ChatGPT способен достигать результатов, сопоставимых с профессиональными аннотаторами, в аннотации дискурса. Однако в некоторых случаях модель может не достигать уровня экспертов. Но интеграция больших языковых моделей, таких как ChatGPT, в процесс аннотации текстов может значительно повысить эффективность и экономичность этого процесса. Эксперименты также показали эффективность техник промпт-инженерии — изменения входных данных для модели в соответствии с конкретной задачей.