- Аннотация
- Область исследования
- Датасет
- Предварительная обработка изображений и спектральные диапазоны
- Процедура генерации и аугментации обучающих данных
- Обучение
- Результаты
Аннотация
В повышении урожайности сельскохозяйственных культур ключевую роль играет азотное питание, которое должно быть равномерно распределено между всеми растениями. Для проведения мониторинга состояния посевов и выявления участков с нехваткой питательных веществ возможно сочетание методов сегментации изображений при помощи методов глубокого обучения. В частности, авторы обсуждают применимость пяти современных архитектур нейронных сетей на основе U-Net, чтобы решать задачи скорости сегментации уровня азота на ортофотоплане. Обучение, а также оценка эффективности нейросетевых моделей проводится исследователями на основе собственных данных, собранных с помощью БАС «Геоскан 401» на экспериментальном биополигоне Агрофизического научно-исследовательского института (АФИ) за 2020–2021 годы. Съемка осуществлялась на мультиспектральную камеру MicaSense RedEdge-MX. Получено более 20 тысяч изображений двух сельскохозяйственных полей, общая площадь которых составляет около 62 га. На каждом расположено шесть тестовых площадок с известным уровнем азотного питания. Снимки этих участков используются для обучения моделей нейронных сетей (U-Net, Attention U-Net, R2-UNet, Attention R2-Unet и U-Net3+). Также в данном исследовании был проведен эксперимент по оценке влияния выбора комбинации каналов снимков (RGB, RedEdge, NearIR и NDVI) на точность рассматриваемых методов сегментации.
Область исследования
Исследование проводилось на двух сельскохозяйственных полях экспериментального биополигона АФИ (рис. 1), расположенных в деревне Меньково (Гатчинский район, Ленинградская область). Он состоит из 29 участков различного назначения, большинство из которых предназначены для научных экспериментов. В данной работе использовались изображения полей под номерами 9 и 26 — для выращивания зерновых культур.
Рис 1. Сельскохозяйственные поля экспериментального биополигона АФИ
Общая площадь биополигона составляет 538,56 га (поле № 9 — 23,52 га, № 26 — 38,97 га). Территория сельскохозяйственных угодий относится к Северо-Западному округу России и характеризуется переувлажнением почвы. Продолжительность вегетационного периода составляет 117 дней. На выбранных участках № 9 и 26 в течение многих лет искусственно создавались условия сильной внутриполевой изменчивости почвенных показателей. Цель — возможность проведения исследований в рамках точного земледелия. На каждом поле ежегодно закладывались так называемые тестовые площадки — небольшие участки, на которые вносилась определенная доза азотных удобрений.
Датасет
Общий массив аэрофотоснимков сельскохозяйственных полей биополигона насчитывает более 150 000 штук. АФС на базе АФИ проводится с 2003 года. Сначала использовался радиоуправляемый беспилотный летательный аппарат собственной сборки, оснащенный двумя камерами для получения изображений в видимом и ближнем инфракрасном диапазонах. С 2015 г. применяется БАС «Геоскан 401» (Рис. 2), а с 2022 г. в качестве дополнения — DJI Matrice 600pro с гиперспектральной камерой Pika L на борту. В данном исследовании аэрофотосъемка осуществлялась с помощью БАС «Геоскан 401», на которую установлена мультиспектральная камера Micasense RedEdge MX.
Рис. 2. БАС «Геоскан 401»
АФС проводилась в соответствии со следующими шагами:
- Проверка погодных условий (осадки, скорость ветра), а также выбор лучшей даты для съемки.
- Подготовка техники: заправка генератора, зарядка аккумуляторов (для RTK (Real time kinematics — система кинематического позиционирования в реальном времени) и БВС), проверка камеры, отгрузка.
- Выезд полетной группы на биополигон; развертывание оборудования БАС; выбор точек посадки и взлета; калибровка мультиспектральной камеры.
- Создание плана полета в программе Geoscan Planner на основе карты Google (Рис. 3), выбор основных параметров съемки: высота полета, скорость БАС, пространственное разрешение съемки и т.д.
- Запуск дрона и управление полетом.
- Посадка дрона, калибровка мультиспектральной камеры, сохранение аэрофотоснимков и создание геопривязанных файлов.
- Сборка оборудования, отъезд полетной группы, разгрузка в офисе, перевод комплекса в режим Storage.
Рис. 3. Пример плана полета в программе Geoscan Planner для сельскохозяйственного поля №9
За 2020 и 2021 годы было собрано более 20 000 снимков с пространственным разрешением 6 см/пикс. Общая информация о параметрах полета представлена в Таблице 1. Полученные результаты обрабатывались в программе Agisoft Metashape: загрузка снимков одного поля за один полет, поиск изображений калибровочной панели для камеры, совмещение изображений, построение плотного облака точек и ортофотоплана.
Таблица 1. Параметры полета
Дата полета | Номер поля | Кол-во снимков | Погода | |
|
|
|
Скорость ветра, |
Средняя температура, °C |
02.06.2020 |
9 |
620 |
4 |
14.4 |
09.06.2020 |
9, 26 |
3760 |
1-2 |
26.7 |
18.06.2020 |
9, 26 |
3200 |
2-3 |
27.7 |
23.06.2020 |
9, 26 |
3005 |
1-2 |
22.9 |
12.05.2021 |
9 |
2065 |
2-5 |
23.2 |
25.05.2021 |
9 |
2080 |
1 |
14.1 |
01.06.2021 |
9 |
2095 |
1-3 |
16.1 |
08.06.2021 |
9 |
2085 |
3 |
19.9 |
22.06.2021 |
9 |
2660 |
2-5 |
28.6 |
02.07.2021 |
9 |
2665 |
2-3 |
20.7 |
В результате было построено десять детальных ортофотопланов, каждый из которых состоит из пяти слоев (красного, зеленого, синего, ближнего инфракрасного и дальнего красного). Для улучшения качества набора данных авторы дополнительно обработали их в бесплатной программе SAGA GIS:
- все слои были нормализованы с помощью инструмента Calculator-Grid normalization;
- в качестве шестого слоя была построена карта NDVI с использованием инструмента Vegetation index NDVI;
- в качестве седьмого слоя был создан shape-слой с помощью инструмента Create shape, где отдельно выделялись тестовые участки и в качестве атрибутов записывались дозы азота.
В результате исходный набор данных был расширен до семи слоев в каждом ортофотоплане.
Рис. 4. Пример комбинированных слоев с картой NDVI и тестовыми площадками
Предварительная обработка изображений и спектральные диапазоны
В этом исследовании авторы использовали изображения высокого разрешения (6 см/пикс), полученные с помощью БАС в период вегетации сельскохозяйственных культур. Снимки содержат пять каналов: красный, зеленый, синий, ближний инфракрасный и дальний красный (Рис. 5), однако для обучения нейронных сетей были задействованы только первые четыре. Степень азотного питания на опытных участках подразделяется на шесть уровней: 0, 40, 80, 120, 160 и 200 кг, в соответствии с которыми было сформировано шесть тестовых площадок (Рис. 6). Изображения этих участков разрешением 128×128 пикселей используются для создания обучающих, оценочных и тестовых наборов данных.
Рис. 5. Каналы камеры
Рис. 6. Пример тестовых участков на поле №9
Процедура генерации и аугментации обучающих данных
Получение размеченных данных для обучения нейронных сетей — трудоемкий процесс, поскольку метки требуются для всего сельскохозяйственного поля. Эту проблему можно было бы решить, равномерно покрыв всё поле датчиками для сбора агрофизических данных о почве. Однако это дорогое решение, так как размеры полей могут быть значительными. Для минимизации расходов авторы статьи разработали процедуру генерации синтетических данных. В ее основе лежит гипотеза о том, что азот распределяется по полю случайным образом, при этом его содержание на участках может быть высоким и низким. Процедура состоит из следующих шагов:
Шаг 1: Из ортофотоплана извлекаются изображения тестовых участков.
Шаг 2: Снимки, принадлежащие одному и тому же каналу, смешиваются, чтобы создать, во-первых, изображения для оценки производительности модели после обучения и, во-вторых, изображения для генерации набора данных. Смешение происходит путем замены каждой второй строки строкой другого изображения того же канала.
Шаг 3: Случайным образом выбирается одно из исходных изображений с известным уровнем азота.
Шаг 4: Выбирается другое исходное изображение, но с другим уровнем азота, которое затем смешивается с первым с использованием случайно сгенерированной маски, содержащей 3–6 фрагментов поля, для имитации случайного распространения азота.
Шаг 5: Затем все шесть исходных изображений выбираются и смешиваются в одно, чтобы имитировать поле за пределами тестовых зон с неизвестным уровнем азота.
Рис. 7. Пример применения процедуры формирования обучающих данных для поля №9
Для поля № 9 доступны семь ортофотопланов, из которых авторы смогли извлечь 60 изображений: 30 используются для оценки производительности нейросетевой модели и еще 30 для создания набора данных.
В результате было создано два обучающих и два оценочных набора: один для поля № 9, другой для поля № 26. Соответственно, обучались две нейросетевые модели. Каждый набор данных для обучения содержит 15 000 случайно сгенерированных изображений, а для оценки — 50 изображений.
Обучение
Чтобы разработать готовый к машинному обучению набор данных, авторы сначала случайным образом сгенерировали 15 050 изображений таким образом, чтобы каждое имело шесть различных уровней азота. Во время обучения были использованы дополнительные методы увеличения данных, такие как вращение, горизонтальное отражение, сдвиг по ширине и высоте.
Как уже было сказано, исследователи разделили коллекцию изображений на два набора: 15 000 снимков для обучения и 50 для оценки. Чтобы улучшить данный процесс и избежать переобучения, они использовали адаптивное обучение и методы ранней остановки. Если производительность нейросетевой модели не улучшалась, скорость обучения умножалась на 0,15. Максимальный номер эпохи был установлен на 100, но модель прекращала работу, если за четыре попытки улучшения не наблюдались.
Затем авторы статьи исследовали применение пяти свёрточных нейронных сетей: U-Net, Attention U-Net, R2U-Net, Attention R2U-Net и U-Net3+. Базовая модель для всех — U-Net.
Результаты
Вышеупомянутые модели были обучены по отдельности для сегментирования поля № 9 и поля № 26 в соответствии с различными размерами батчей и комбинацией каналов. Для данных целей авторы использовали оптимизатор Adam и функцию потери перекрестной энтропии. Начальная скорость обучения была установлена на 1×10-4, а максимальное количество эпох — на 100.
Так, в рамках эксперимента с размером батчей, то есть с количеством изображений, подаваемых в нейронную сеть за один прямой проход, выяснилось, что этот параметр влияет на конечный результат. Настройка производилась вручную путем обучения с разными размерами и оценки результата. Для эксперимента были выбраны размеры батчей 5, 25 и 50. Для обучения моделей использовались диапазоны RGB, NearIR и NDVI.
Количественные результаты оценки эффективности моделей, обученных для поля № 9, показали следующую закономерность: чем больше размер батча, тем выше производительность.
- При размере батча 5 лучшими моделями являются Attention R2U-Net (t3), Unet3+ с глубоким контролем и R2U-Net (t3).
- При размере батча 25 — Unet3+ с глубоким контролем, Attention R2U-Net (t2) и R2U-Net (t2).
- При размере батча 50 — R2U-Net (t4), Unet3+ с глубоким контролем и Attention R2U-Net (t2).
Результаты оценки эффективности моделей, обученных для поля № 26, показали противоположную зависимость: производительность была лучше при меньшем размере батча.
В итоге, среди всех моделей Attention R2U-Net (t2) оказалась более устойчивой и надежной для разных видов культур (точность 97,59–99,96 %). В качестве универсального размера батча (для разных типов агроландшафтов) для предлагаемой модели рекомендуется использовать батч, равный 25.
Исследователи использовали данную модель и в эксперименте по определению того, какое сочетание каналов больше подходит для обучения и сегментации изображения. В результате оказалось, что для обучения нейронной сети подходит только три комбинации: RGB, RGB + NearIR и RGB + NearIR + NDVI. Они позволили достичь высоких значений всех восьми метрик (на 0,41–1,77 % больше, чем стандартное сочетание каналов RGB). Другие комбинации приводят либо к низкому результату метрики, либо к ошибке деления на ноль. Использование дальнего красного канала оказывает существенное негативное влияние на качество сегментации уровня азота в сельскохозяйственном поле.
Ниже (Рис. 8) показан пример сегментации поля № 9 с размером батча 50 по трем лучшим архитектурам U-Net: (a) R2U-Net (t = 4); (b) U-Net 3 + с глубоким контролем; (c) Attention R2U-Net (t = 2).
Рис. 8. Пример сегментации поля №9
Полученные в ходе исследования результаты позволят в будущем отказаться от использования тестовых площадок или анализа проб и создать качественный инструмент для автоматизированного картирования при контроле за азотным статусом зерновых культур. Также возможно внедрение полученных результатов в единую веб-систему. Такой сервис мог бы выдавать пользователю карту-задание, где каждому участку сельскохозяйственного поля назначалась бы необходимая для внесения доза азотных удобрений.
Авторы статьи: I. Blekanov, A. Molin, D. Zhang, E. Mitrofanov, O. Mitrofanova, Yin Li.
Опубликовано в журнале Computers and Electronics in Agriculture, июль 2023