Коллектив российских ученых исследовал применение методов машинного обучения для проектирования трассерных исследований. Целью было повышение достоверности результатов по выявлению гидродинамической связи в пласте между нагнетательными и добывающими скважинами в низкопроницаемых коллекторах с самопроизвольным развитием трещин гидроразрыва пласта (автоГРП) в нагнетательных скважинах. Работа была опубликована в российском журнале «Искусственный интеллект и принятие решений».
Трассерные (маркерные) исследования — это метод изучения скважин. Он заключается в том, что в пласт закачивают специальные реагенты-индикаторы (маркеры), которые могут быть химическими веществами или красителями. Они «метят» движение флюидов (нефти, воды) в пласте. Когда эти флюиды выходят на поверхность, исследователи могут анализировать их и узнавать, как именно они двигались под землей.
Данные, полученные при промысловых исследованиях, помогают определить фильтрационные потоки в продуктивном пласте — в каком направлении и с какой скоростью в нем движутся жидкости, в том числе в условиях низкопроницаемых коллекторов, в которых проводится гидравлический разрыв пласта (инициируются магистральные трещины) в добывающих и нагнетательных скважинах. Это помогает экономически эффективно управлять разработкой месторождения, предупреждать и выявлять преждевременное обводнение добывающих скважин, которые могут обводняться от трещин автоГРП в нагнетательных скважинах.
Важной задачей в таких исследованиях является обнаружение и оценка наличия гидродинамической связи в низкопроницаемых пластах между нагнетательными и добывающими скважинами. Если меченая жидкость обнаруживается в добывающих скважинах, это подтверждает наличие гидродинамической связи между ними. Если же связи нет, это влияет на планы по управлению заводнением или дополнительному уплотняющему бурению новых скважин на исследованном участке месторождения. Если связь между скважинами значительная и жидкость поступает с высокой скоростью и в больших объемах, это может означать риск или наличие преждевременного обводнения добывающих скважин.
Для того чтобы приступить к практическим действиям и оценить их экономическую эффективность, строят деревья решений — схемы действий и затрат, изображаемые графами, имеющими форму деревьев.
Рассмотрим пример такого дерева, чтобы было понятно, о чем идет речь. Представим себе, что нефтегазовая компания хочет решить, стоит им проводить новые сейсмические исследования или нет. Во втором случае они не тратят никаких средств, но и ничего не получают. Но если нефтегазовая компания инвестирует средства в сейсмические исследования, то она может столкнуться с несколькими сценариями дальнейшего развития событий.
Первый сценарий — новые запасы нефти обнаружены, и можно бурить новую скважину. Этот результат оправдывает затраты на исследования.
Во втором сценарии компания может обнаружить, что верхний пласт месторождения не вовлечен в разработку или задействован лишь частично. Это открывает новые возможности для оптимизации добычи нефти.
Третий сценарий предполагает, что пласт уже вовлечен в разработку, но бурение новой скважины невыгодно. В этом случае можно рассмотреть возможность проведения геолого-технических мероприятий (ГТМ) на уже пробуренных скважинах. Сейсмические исследования могут помочь повысить эффективность этих мероприятий.
В итоге аналитики компании получают целое «дерево» возможных сценариев, каждый из которых имеет свои экономические показатели. Суммируя их с заданными весами, они могут оценить общую ценность сейсмических исследований для проекта.
В частности, в результате подобных исследований специалистами был получен патент «СПОСОБ ПОВЫШЕНИЯ ИНФОРМАТИВНОСТИ ТРАССЕРНЫХ ИССЛЕДОВАНИЙ В НЕФТЕГАЗОВЫХ МЕСТОРОЖДЕНИЯХ», https://www.elibrary.ru/item.asp?id=49218356
Дерево решений особенно полезно для специалистов, работающих с промысловыми данными, поскольку оно предоставляет ясные и понятные выводы. Однако у метода есть минус — переобучение. Оно заключается в том, что дерево может делать слишком точные выводы на основе небольших групп данных, что делает его менее надежным при встрече с новыми данными.
Чтобы справиться с этой проблемой, коллектив российских ученых в своей научной работе предложил подход, при котором в каждом узле дерева решений локально минимизируется переобучение. Проще говоря, вместо того чтобы бороться с переобучением на всём дереве сразу, задача решается для каждого узла отдельно. Для этого используют специальные методы оценки переобучения, такие как критерий ожидаемой переобученности (EOF) и критерий полного скользящего контроля (CCV), которые были разработаны в рамках комбинаторной теории переобучения.
Эти методы оценки помогают уменьшить переобучение при построении модели, как было показано в прошлых исследованиях. В нынешней же работе российских ученых показано, что использование таких оценок для выбора признаков в логических алгоритмах классификации помогает сделать модель более надежной и устойчивой к переобучению.
Критерий EOF оценивает ожидаемую переобученность, возникающую при выборе порогового значения доли ошибок для данного признака. Критерий CCV оценивает саму эту долю ошибок на выбранном множестве примеров. Преимущество этого подхода в том, что эти критерии позволяют вычислять величину переобученности непосредственно, а не косвенным образом.
Расчет точных значений критериев требует огромных вычислительных затрат. Для улучшения производительности ученые использовали намного более быстрый алгоритм, который позволяет вычислить их приближенно.
Для проверки эффективности новых методов разработчики сравнили их с уже известными критериями, такими как индекс Джини (Gini Index), используемый в алгоритме CART, и коэффициент прироста информации (Gain Ratio), используемый в алгоритме C4.5.
Для оценки качества работы алгоритмов использовалась метрика под кривой (AUC). Это означает, что дерево решений рассчитывает вероятность того, что пример относится к определенному классу, а затем на основе этой вероятности выдает окончательный ответ. С помощью этой метрики проверяется, насколько хорошо вероятности, рассчитанные моделью, совпадают с реальными метками классов (0 и 1). Так можно понять, насколько хорошо модель распознает и классифицирует данные.
Переобученность алгоритма оценивалась как разность значений метрики на обучающей и контрольной выборках. Оказалось, что критерий ожидаемой переобученности действительно приводит к статистически значимому уменьшению переобученности.
«Мы смогли улучшить алгоритм, который позволяет определить, связаны ли друг с другом разные нефтегазовые скважины, — рассказал Константин Воронцов, доктор физико-математических наук, профессор кафедры интеллектуальных систем ФУПМ МФТИ, профессор РАН. — Проведенное тестирование на примере двух месторождений в Западной Сибири позволило сделать вывод о статистически значимом улучшении качества модели дерева решений при использовании новых критериев отбора признаков».
Практические испытания показали, что алгоритм, протестированный на двух месторождениях в Западной Сибири, может точно выявлять пары скважин с трассером и повысить процент успешных обнаружений с 40 до 60 %. Это позволяет оптимизировать исследования, улучшая их эффективность и снижая затраты.
Работа выполнена совместно учеными и исследователями из МФТИ (г. Москва), ООО «РН-БашНИПИнефть» (г. Уфа) и ООО «РН-Юганскнефтегаз» (г. Нефтеюганск).
40