Yandex.Cloud поможет российским ученым разработать нейросеть для оценки здоровья Байкала
Новое технологическое решение будет использоваться в проекте экологического мониторинга Байкала «Точка №1». Проект заключается в регулярном анализе фито- и зоопланктона в воде озера. Наблюдения показывают, как развивается экосистема Байкала и как на неё влияет изменение климата на планете. Алгоритм позволит не только автоматизировать анализ планктона, но и масштабировать проект, открыв новые точки наблюдения.
В работе над созданием алгоритма принимают участие специалисты НИИ биологии Иркутского государственного университета, разработчики моделей искусственного интеллекта для изучения морских экосистем MaritimeAI, команда облачной платформы Yandex.Cloud и Фонда поддержки прикладных экологических разработок и исследований «Озеро Байкал».
Для обучения алгоритма учёные из НИИ биологии ИГУ предоставили более 1000 снимков каждого вида планктона. На основе этих данных команда Maritime AI создаст механизм классификации видов планктона с использованием Yandex DataSphere — сервиса Yandex.Cloud для анализа данных, разработки и эксплуатации моделей машинного обучения. Изображения микроорганизмов будут передаваться в Yandex.Cloud прямо с микроскопов лаборатории НИИ биологии ИГУ, и алгоритм будет автоматически определять видовую принадлежность планктонных частиц. Предполагается, что алгоритм будет определять до 99% всех видов планктона, а специалисты института биологии будут контролировать качество его работы. Рабочий прототип системы будет представлен уже этим летом.
Проект «Точка №1» появился в 1945 году и входит в Книгу рекордов России как самый длительный проект регулярного экологического мониторинга в истории науки. На протяжении более чем 75 лет учёные каждые 7–10 дней берут пробы воды с глубин от 0 до 800 метров. Накопленные данные позволяют следить за состоянием экосистемы Байкала и прогнозировать её развитие.
Почему ученые и разработчики объединили усилия
В последние годы проект «Точка №1» находился под угрозой закрытия. Методика распознавания данных, которую сейчас применяют в проекте, технологически устарела. Ученые определяют виды микроорганизмов с использованием классических методов микроскопии. Для этого специалисту необходимо научиться различать более 400 видов фито- и зоопланктона, подготовка такого специалиста занимает более 10 лет непрерывной практики. Для поддержания проекта потребовалось бы несколько десятков специалистов высокого уровня, согласных при этом на выполнение рутинных операций. Для сохранения и развития проекта ученые НИИ Биологии ИГУ и Фонда «Озеро Байкал» сформулировали цель - создать интеллектуальную систему цифровой поддержки процесса анализа проб с использованием технологии искусственного интеллекта, которую можно обучить распознаванию микроорганизмов, чтобы автоматизировать основной объем рутинной работы ученых.
Практическая реализация задачи упиралась в барьер - создание такой нейросети с нуля требовало технической экспертизы и ИТ-инфраструктуры, которых не было у НИИ биологии ИГУ.
Эксперты в области ИИ платформы Yandex.Cloud предложили использовать в проекте облачные вычислительные мощности, а также сервис для ML-разработки DataSphere, который ускоряет разработку моделей искусственного интеллекта. Также команда Yandex.Cloud помогла привлечь в проект экспертов по созданию ML-алгоритмов для изучения морских экосистем - компанию Maritime AI.
Алексей Башкеев, руководитель платформы Yandex.Cloud:
«Сейчас учёные определяют виды микроорганизмов с использованием классических методов микроскопии. Для этого им необходимо научиться различать более 400 форм фито- и зоопланктона, на это уходит более 10 лет почти непрерывной работы. В Yandex.Cloud мы решили помочь учёным применить новый сервис Yandex DataSphere, чтобы облегчить их работу и вывести уникальный проект сбора и анализа данных о стоянии Байкала на новый уровень».
Максим Тимофеев, доктор биологических наук, директор НИИ биологии ИГУ:
«Сообщество фито- и зоопланктона является по сути фундаментом всей экосистемы Байкала. Понимая процессы в этом фундаменте, их динамику, мы можем делать прогнозы по векторам развития всей экосистемы озера. Мониторинговый проект „Точка №1“ уникален тем, что позволяет сделать анализ на основе долговременных и непрерывных рядов наблюдений, накопленных за 75 лет. Партнёрство с Yandex.Cloud позволит решить важную задачу по переводу мониторинга с технологических подходов XX века на парадигму XXI века: с ручного анализа проб на методы с использованием машинного распознавания и обучения. При этом мы сможем не только сохранить преемственность всей многолетней программы, но и масштабировать проект, запустив новые точки наблюдений».
Анастасия Цветкова, генеральный директор Фонда поддержки прикладных экологических разработок и исследований «Озеро Байкал»:
«Совместная работа Фонда, Yandex.Cloud и других партнёров отвечает 17-й цели устойчивого развития ООН, которая обращает внимание на ценность многостороннего сотрудничества, в том числе путём мобилизации ресурсов, технологий и знаний. На протяжении пяти лет Фонд „Озеро Байкал“ поддерживает проект долговременного мониторинга Байкала „Точка №1“ грантами. В 2016 году мы помогли избежать закрытия программы и с тех пор поддерживаем её всестороннее развитие. Подключение к проекту Yandex.Cloud открывает для мониторинга новые перспективы в области внедрения технологий машинного обучения для регулярного анализа проб фито- и зоопланктона озера Байкал. Это сотрудничество — прямое свидетельство того, как бизнес, наука и общество могут сотрудничать в реализации ESG-повестки».
Павел Голубев, CEO Maritime AI:
«Команда MaritimeAI объединяет в себе экспертизу в области геологии и океанологии в совокупности с последними достижениями в сфере машинного обучения и искусственного интеллекта. Для нас этот проект особенный по многим причинам. Во-первых, это возможность применить наши знания и наш опыт для мониторинга крупнейшего на планете пресного водоёма. Во-вторых, в отличие от наших предыдущих проектов по автоматизации здесь мы имеем дело с уникальным научным процессом наблюдения длиной в 75 лет. В нашей команде есть учёные-океанологи и генетики, и мы отлично понимаем важность сохранения самого процесса наблюдения при его цифровизации. Наконец, для нас важно то, что этот проект, в отличие от наших предыдущих, является не индустриальным, а экологическим. Одним из ключевых факторов успеха проекта является скорость его реализации. Именно с этим нам помогут возможности Yandex DataSphere. Мы используем высокопроизводительные виртуальные машины с 4–8 GPU, благодаря чему время обучения алгоритмов сократилось с часов до минут. Также мы используем в процессе обучения алгоритма, а именно в разметке данных, сервис Яндекс.Толока.