Диагностика растений по фото: как новая нейросеть находит болезни точнее экспертов
Перед лицом глобального изменения климата вредители и болезни сельскохозяйственных культур приобрели массовый характер, отличаются разнообразием видов, длительной продолжительностью и широким спектром воздействия. Эффективная и точная идентификация вредителей и болезней сельскохозяйственных культур имеет решающее значение для повышения урожайности. Тем не менее, сложность и разнообразие сценариев делают эту задачу сложной.
Аннотация
В этой статье мы предлагаем сеть мелкозернистой классификации болезней сельскохозяйственных культур, интегрирующую модуль эффективного тройного внимания (ETA) и стратегию улучшения данных AttentionMix. Модуль ETA способен более эффективно захватывать информацию о внимании каналов и пространственном внимании, что способствует улучшению репрезентативной способности глубоких сверточных нейронных сетей (CNN). Кроме того, AttentionMix может эффективно решить проблему неправильного присвоения меток в CutMix, широко используемом методе получения высококачественных выборок данных. Модуль ETA и AttentionMix могут работать совместно в глубоких CNN для достижения большего прироста производительности. Мы провели эксперименты на нашем собственном наборе данных по болезням сельскохозяйственных культур и на широко используемом наборе данных IP102 по классификации вредителей и болезней растений. Результаты показали, что сеть, объединяющая модуль ETA и AttentionMix, может достичь точности до 98,2% на нашем наборе данных по болезням сельскохозяйственных культур. Что касается набора данных IP102, эта сеть достигла точности 78,7% и полноты 70,2%. По сравнению с передовыми моделями внимания, такими как ECANet и Triplet Attention, предложенная нами модель показала среднее улучшение производительности на 5,3% и 4,4% соответственно. Все это говорит о том, что предложенный метод является практичным и применимым для классификации болезней большинства типов сельскохозяйственных культур. На основе результатов классификации предложенной сети была разработана не требующая установки мини-программа WeChat, которая позволяет проводить автоматическое распознавание болезней сельскохозяйственных культур в реальном времени путем фотографирования с помощью камеры смартфона. Это исследование может обеспечить точную и своевременную диагностику вредителей и болезней сельскохозяйственных культур, тем самым предоставляя эталонное решение для точного земледелия.
1. Введение
Болезни сельскохозяйственных культур оказывают значительное негативное влияние на урожайность и качество сельскохозяйственной продукции. Масштабные заболевания могут уничтожить большое количество посевов, что приводит к серьезному снижению урожая [1]. Таким образом, своевременное выявление болезней сельскохозяйственных культур и вмешательство имеют важнейшее значение для повышения продовольственных урожаев. Традиционное исследование вредителей и болезней сельскохозяйственных культур полагается на опытную рабочую силу, что отнимает много времени и труда и сталкивается с трудностями в обеспечении точности. С непрерывным расширением применения технологий искусственного интеллекта и больших данных в области сельского хозяйства все больше и больше исследовательских усилий начинают фокусироваться на автоматической идентификации вредителей и болезней сельскохозяйственных культур на основе машинного обучения.
Ранние методы распознавания изображений болезней сельскохозяйственных культур полагались на априорные знания для извлечения признаков, разработанных вручную, и использования классификаторов, таких как SVM (метод опорных векторов), для классификации болезней. Го и др. [2] использовали байесовский подход для идентификации инфекций ложной мучнистой росы, антракноза, мучнистой росы и серой гнили, используя текстурные и цветовые характеристики. Средняя точность для четырех заболеваний составила 88,48%. Чжан и др. [3] использовали метод кластеризации k-средних для разделения участков инфекции на листьях огурца. Однако эти методы разработаны только для конкретных сценариев и менее эффективны в реальной природной среде. С непрерывным углублением исследований в области компьютерного зрения глубокие сверточные нейронные сети (CNN) достигли больших успехов во многих компьютерных задачах [4,5,6,7,8]. На сегодняшний день в исследованиях классификации болезней сельскохозяйственных культур на основе глубоких CNN были достигнуты некоторые замечательные успехи. Лу и др. [9] использовали подход глубокого обучения с несколькими экземплярами для разработки автоматизированной системы диагностики болезней пшеницы, и точность модели превысила 95%. CGDR [10] захватывает информацию о разнообразных признаках болезней листьев томата в различных измерениях и сенсорных полях, используя многоветвевую структуру комплексных сгруппированных дифференциальных остатков. Дэн и др. [11] сегментировали пораженные болезнью области листьев томата с помощью предложенной ими MC-UNet. Чжоу и др. [12] предложили архитектуру трансформера с остаточной дистилляцией и получили 92% точности классификации на четырех категориях болезней листьев риса: бактериальный ожог листьев, коричневая пятнистость, пирикуляриоз риса и бурая полосатость. Хасан и др. [13] представили новую архитектуру CNN. Она имеет относительно небольшой масштаб, но показывает многообещающую производительность, позволяя прогнозировать болезни листьев риса с умеренной точностью и меньшей временной сложностью.
Эти работы представляют большую ценность для понимания идентификации болезней сельскохозяйственных культур, но имеют следующие три ограничения: (1) Большинство существующих работ используют для обучения общедоступные наборы данных, и эти данные имеют однородный фон и интенсивность освещения, а большинство участков заболеваний сконцентрировано в области листьев. В результате эти методы обладают слабой обобщающей способностью в реальных условиях выращивания. (2) Все еще существует много трудностей в идентификации некоторых мелкозернистых болезней сельскохозяйственных культур из-за межклассового сходства и сложного фона реальных условий в поле. (3) Большинство доступных в настоящее время исследований находятся на лабораторной стадии, без применения предложенных моделей идентификации болезней сельскохозяйственных культур в реальной среде.
Чтобы решить эти проблемы, цель данного исследования состояла в разработке структуры, поддерживающей идентификацию болезней сельскохозяйственных культур в реальной среде выращивания. В предлагаемой модели мелкозернистой классификации болезней сельскохозяйственных культур были разработаны и введены модуль ETA и AttentionMix в качестве ключевых частей глубоких CNN для улучшения производительности обнаружения. С точки зрения полевого применения, мы также разработали мини-программу WeChat для идентификации болезней сельскохозяйственных культур на основе публичной платформы WeChat. Встраивая предложенную модель распознавания болезней сельскохозяйственных культур в мини-программу, мы можем добиться распознавания болезней сельскохозяйственных культур, просто используя смартфоны для съемки изображений.
Таким образом, основные вклады этой статьи включают следующее:
(1) Мы предлагаем эффективный модуль тройного внимания для эффективного извлечения информации о внимании каналов и пространственном внимании из изображений болезней сельскохозяйственных культур.
(2) Предлагается стратегия увеличения данных AttentionMix, чтобы избежать потери информации об объекте из-за случайного вырезания в CutMix.
(3) Мы создаем крупномасштабный набор данных по болезням сельскохозяйственных культур, содержащий изображения пяти культур — пшеницы, риса, рапса, кукурузы и яблони, причем изображения были сделаны в реальных полевых условиях.
(4) Мы разрабатываем мини-программу WeChat для идентификации болезней сельскохозяйственных культур, позволяющую идентифицировать болезни по изображениям, сделанным с помощью смартфонов.
(5) Обширные эксперименты на наборе данных по болезням сельскохозяйственных культур и общедоступном наборе данных по вредителям и болезням используются для демонстрации передового характера нашего предложенного метода.
2. Связанные работы
2.1. Механизм внимания
В последние годы механизм внимания, который может помочь модели лучше извлекать ключевые признаки в изображениях, повысил точность распознавания и все чаще используется при извлечении признаков изображений. Большое количество алгоритмов глубоких CNN и механизмов внимания были успешно применены в компьютерном зрении, открывая новые возможности для классификации вредителей и болезней сельскохозяйственных культур. Гао и др. [14] предложили модуль двухветвевого эффективного канального внимания (DECA), улучшив SENet [15], который использует двухветвевую операцию одномерной свертки для фильтрации эффективной информации о признаках. Точность распознавания болезней на наборе данных AI Challenger 2018 [16], наборе данных PlantVillage [17] и самостоятельно собранном наборе данных по болезням огурца составила 86,35%, 99,74% и 98,54% соответственно. Чэнь и др. [18] предложили гибридный модуль внимания, названный пространственно-эффективным канальным вниманием, реализовав последовательное соединение пространственного внимания и эффективного канального внимания. В сочетании с нейронными сетями этот модуль достиг точности классификации 87,28% при классификации некоторых данных из набора данных по болезням сельскохозяйственных культур в конкурсе AI_Challenge 2018 года. Хуан и др. [19] представили модуль Inception на основе остаточной сети (ResNet18) и использовали его многомасштабную структуру сверточных ядер для извлечения признаков болезней разных масштабов, повышая богатство признаков. Ван и др. [20] решили проблемы интерференции, вызванные двумя механизмами внимания в CBAM [21], реализовав параллельное соединение канального внимания и пространственного внимания. В отличие от исходной модели YOLOv5, которая достигла точности 82%, точность улучшенной модели была повышена на 5%.
SENet [15] представил модуль SE, который изучает веса для каналов признаков, тем самым подчеркивая важные каналы и подавляя менее важные с помощью механизма внимания. CBAM [21] генерирует карты признаков внимания как в канальном, так и в пространственном измерениях, последовательно. Однако уменьшение размерности в его канальном внимании оказывает негативное влияние на прогнозы модели. ECANet [22] улучшает SENet, используя одномерную свертку для локального межканального взаимодействия без уменьшения размерности. Triplet Attention [23] подчеркивает независимость канального и пространственного внимания CBAM, применяя операции вращения в трех ветвях для захвата межканальных взаимодействий между размерностью каналов C и пространственными размерностями W/H. Более подробная информация о вышеуказанных моделях показана на Рисунке 1. Здесь σ представляет функцию активации, и в этой статье используемой функцией активации является ReLU. ⨀ обозначает поэлементное умножение с расширением, а ⊕ представляет поэлементное сложение с расширением. Использование этих символов остается неизменным во всех иллюстрациях в этой статье. Тем не менее, он не в полной мере захватывает информацию о внимании входных признаков. Наш предлагаемый модуль ETA вычисляет канальное внимание в каждой из трех ветвей Triplet Attention, используя одномерную свертку перед выполнением последующих операций, тем самым улучшая извлечение как канального, так и пространственного внимания, а также представление признаков.
Рисунок 1. Сравнение различных модулей внимания: (a) модуль Squeeze Excitation (SE); (b) модуль ECA; (c) модуль Triplet Attention.
2.2. Увеличение данных
Сбор данных для обучения требует больших трудозатрат, а некоторые данные являются дефицитными. Увеличение данных, которое включает такие методы, как поворот, обрезка и так далее, увеличивает объем данных и улучшает производительность модели, но вносит шум. Синтез множества выборок дает образцы более высокого качества. CutMix [24], широко признанный метод, вырезает часть изображения, заполняет эту область случайными данными из обучающего набора и пропорционально назначает метки. Он улучшает распознавание за счет распознавания объектов в локальном виде и добавления информации о выборке, но случайность может привести к потере информации об объекте и ошибкам в метках (как показано на Рисунке 2). Мы предлагаем AttentionMix, который свертывает выходную карту признаков сети для получения карты внимания. Основываясь на этой карте внимания, определяются значимые области изображения, и эти значимые области синтезируются с другими изображениями, чтобы избежать ошибок в метках, возникающих из-за потери информации о целевом объекте.
Рисунок 2. Визуальное сравнение CutMix и AttentionMix. Операция случайной обрезки CutMix может привести к потере информации об объекте, что, в свою очередь, приводит к неправильному присвоению меток. Предлагаемый AttentionMix может эффективно решить эту проблему, извлекая значимые области изображения на основе нейронных сетей. Красная рамка представляет области обрезки, которые могут быть получены обоими методами.
3. Методы
В этом разделе мы сначала описываем наш набор данных по болезням сельскохозяйственных культур, а затем представляем модуль эффективного тройного внимания (ETA) и стратегию увеличения данных AttentionMix, предложенные в этой статье. Наконец, описан процесс разработки мини-программы распознавания болезней сельскохозяйственных культур.
Модуль ETA и AttentionMix могут работать совместно в глубокой CNN для большего повышения производительности. Рисунок 3 иллюстрирует нашу предложенную архитектуру для мелкозернистой классификации болезней сельскохозяйственных культур. Магистральная сеть с модулем ETA может более эффективно извлекать признаки сельскохозяйственных культур из входного изображения. Кроме того, на основе карт признаков, выводимых магистральной сетью, AttentionMix может более точно определять значимые области в изображении, эффективно избегая ошибок присвоения меток, вызванных потерей информации об объекте при смешивании с другими изображениями для создания новых данных выборки. Смесь изображений повторно подается в магистраль для участия в обучении сети вместе с исходным изображением. Это удваивает расширение набора данных.
Рисунок 3. Архитектура нашего метода классификации болезней.
3.1. Наборы данных по болезням сельскохозяйственных культур
Идентификация болезней сельскохозяйственных культур — это задача, требующая мелкозернистой визуальной классификации. Традиционные методы идентификации болезней полагаются на богатый опыт, и трудно достичь точной идентификации и своевременной профилактики. Глубокие сверточные нейронные сети могут автоматически обнаруживать болезнь по изображениям, но требуют большого количества обучающих образцов. Существует несколько общедоступных наборов данных для обнаружения болезней; однако масштаб этих наборов данных относительно невелик. PlantVillage [17] содержит 14 видов растений с в общей сложностью 26 различными видами болезней. PlantVillage включает только болезни на частях листьев, и каждое изображение содержит один лист на простом фоне, что означает, что он не может удовлетворить практическое применение в поле. Rice Leaf Disease [25] содержит изображения четырех типов болезней: бактериальный ожог, пирикуляриоз, коричневая пятнистость и разновидности тунгро. Поэтому мы создали крупномасштабный набор данных по болезням сельскохозяйственных культур. В частности, в условиях открытого воздуха при естественном освещении мы использовали цифровую камеру для сбора изображений в формате JPEG пяти болезней сельскохозяйственных культур: пшеницы, риса, рапса, кукурузы и яблони. При съемке мы настраивали камеру так, чтобы максимально разместить пораженную болезнью часть растения в центре изображения. Всего мы собрали 64 болезни этих пяти категорий сельскохозяйственных культур, причем места поражения включали листья, плоды, корни, ветви и листовые влагалища. Типы болезней были классифицированы в соответствии с экспертным руководством. В настоящее время набор данных содержит всего 27 027 изображений, которые хранятся в формате набора данных PASCAL VOC [26]. Рисунок 4 показывает некоторые примеры изображений.
Рисунок 4. Примеры изображений из нашего набора данных по болезням сельскохозяйственных культур.
Было 9 категорий болезней пшеницы, 18 категорий болезней риса, 8 категорий болезней рапса, 12 категорий болезней кукурузы и 17 категорий болезней яблони, всего 27 027 изображений. Рисунок 5 показывает конкретную информацию о наборе данных по болезням пяти культур, включая название каждой болезни и соответствующее количество изображений. На этапе обучения сети мы использовали 80% изображений в качестве обучающего набора и 20% изображений в качестве тестового набора.
Рисунок 5. Обзор наборов данных по болезням сельскохозяйственных культур. (a) Набор данных по болезням рапса, (b) набор данных по болезням пшеницы, (c) набор данных по болезням риса, (d) набор данных по болезням яблони и (e) набор данных по болезням кукурузы.
3.2. Модуль эффективного тройного внимания
Мы обсудили работу ECANet и Triplet Attention в Разделе 1. Чтобы устранить недостатки в их работе, мы предложили более эффективный модуль извлечения признаков, который учитывает как канальное внимание, так и пространственное внимание. Схему этого модуля можно увидеть на Рисунке 6. Дан входной тензор X∈R^(C×H×W), он проходит через три ветви модуля. Сверху вниз первая ветвь отвечает за установление взаимодействия между H-размерностью и C-размерностью. Входной тензор X поворачивается на 90° против часовой стрелки вдоль оси H для получения повернутого тензора X ̅∈R^(W×H×C). Для повернутого тензора X ̅ сначала используется глобальное среднее объединение (GAP) [27] для каждого канала признаков, затем используется одномерная свертка для захвата информации о межканальном взаимодействии без уменьшения размерности, и, наконец, используется сигмоидная функция для генерации весов каналов w∈R^(1×1×C). Чтобы избежать корректировки значения k с помощью перекрестной проверки, мы определяем k адаптивно, используя Ψ(·) следующим образом:
где |t|_нечетное указывает ближайшее нечетное число к t, C — размерность каналов (т.е. количество фильтров), и мы устанавливаем γ и b равными 2 и 1 во всех экспериментах. Повернутый тензор X ̅ умножается на веса каналов w с помощью широковещательного элемента для получения признака канального внимания X ̂∈R^(W×H×C). Затем X ̂ проходит через операции MaxPool и AvgPool соответственно и впоследствии уменьшается до X ̂^, имеющего форму (2×H×C). X ̂^ пропускается через стандартный сверточный слой с размером ядра k × k и слой BN [28] для получения промежуточного вывода с формой (1×H×C). Сигмоидная функция используется для генерации весов внимания для этого промежуточного вывода, которые затем применяются к тензору X ̂ для получения результата y. Конечный вывод поворачивается на 90° по часовой стрелке вдоль оси H, чтобы сохранить соответствие входной форме.
Рисунок 6. Иллюстрация модуля эффективного тройного внимания (ETA).
Вторая ветвь отвечает за установление взаимодействия между C-размерностью и W-размерностью. Она поворачивает входной тензор X на 90° против часовой стрелки вдоль оси W, а остальные операции такие же, как в первой ветви. Третья ветвь отвечает за установление взаимодействия между H- и W-размерностями. Эта ветвь не требует поворота входного тензора и выполняет извлечение каналов и пространственного внимания напрямую. Наконец, тензоры, выводимые тремя ветвями, суммируются и усредняются для получения конечного вывода модуля. Как и другие модули внимания, модуль ETA может быть легко применен к глубоким CNN, и результирующая сеть обозначается как ETANet.
3.3. AttentionMix
CutMix показал, что увеличение данных смешанными изображениями может значительно улучшить обобщение моделей в задачах распознавания изображений, но смешивание изображений на основе случайного вырезания может страдать от неправильного присвоения меток из-за потери информации об объекте. Мы предложили метод AttentionMix для улучшения вышеуказанных недостатков. В частности, на этапе обучения мы определяем I∈R^(3×H×W) и y как обучающее изображение и его метку. I_b∈R^(3×H×W) — это изображение для смешивания, а y_b — его метка. Карта внимания получается путем пропускания карты признаков через сверточный слой с размером сверточного ядра 1×1. Из карты внимания случайным образом выбирается канал A_k. Выбирается порог, а затем в исходном изображении находится ограничивающая рамка A_k^, которая полностью охватывает часть, превышающую порог. Вырезанное по вниманию изображение I_a∈R^(3×H×W) обучающего изображения I и его метка y могут быть получены на основе вырезания по вниманию A_k^. I_a^'∈R^(3×H×W) получается на основе размера обучающего изображения, а масштабный коэффициент r изменяет размер до I_a. w и h обозначаются следующим образом:
где r выбирается из равномерного распределения (α, β), а α, β обозначают верхнюю и нижнюю границы диапазона выборки.
I_a^' вставляется в случайную область I_b для получения смешанного изображения I_m∈R^(3×H×W), и метка I_m может быть обозначена следующим образом:
где λ — это масштабное отношение I_a^' к I, и λ обозначается следующим образом:
Полученные смешанные изображения эффективно избегают проблемы потери информации о целевом объекте из-за случайного вырезания и делают слияние изображений более надежным. Подача смешанного изображения I_m в сеть для участия в обучении вместе с входным изображением может эффективно повысить производительность распознавания сети. Рисунок 7 иллюстрирует наш предложенный метод увеличения данных AttentionMix.
Рисунок 7. Иллюстрация метода увеличения данных изображения AttentionMix.
3.4. Мини-программа WeChat для идентификации болезней сельскохозяйственных культур
Мини-программа WeChat имеет преимущества, заключающиеся в отсутствии необходимости установки, готовности к использованию после открытия, возможности открытия в любое время, когда это необходимо, не занимает память телефона, а функциональная реализация полностью сопоставима с приложением. Кроме того, общее количество пользователей WeChat во всем мире превысило 1,26 миллиарда человек, что очень выгодно для применения и продвижения мини-программы WeChat. Она чрезвычайно подходит для выполнения требований текущей задачи как с точки зрения пользователя, так и с точки зрения разработки.
В этой статье разрабатывается мини-программа идентификации болезней сельскохозяйственных культур на основе публичной платформы WeChat для достижения идентификации болезней сельскохозяйственных культур путем фотографирования с помощью смартфонов. Рисунок 8 показывает архитектуру идентификации болезней в мини-программе. Система идентификации болезней сельскохозяйственных культур включает две части: фронтенд и бэкенд. Фронтенд разработан с помощью инструментов разработчика WeChat и отвечает главным образом за взаимодействие на странице и отображение данных. Бэкенд отвечает за реализацию бизнес-логики и возврат правильных данных. Он разработан с использованием фреймворка Django, который используется для приема запросов от фронтенда, обработки данных и возврата ответов. Фронтенд получает изображение болезни, вызывая камеру мобильного телефона или выбирая его из альбома через мини-программу WeChat, и отправляет его в бэкенд с помощью POST-запроса. Бэкенд получает изображение и подает его в обученную модель распознавания болезней сельскохозяйственных культур для определения категории болезни на изображении. Результаты распознавания сохраняются в базе данных MySQL и возвращаются во фронтенд для отображения.
Рисунок 8. Архитектура мини-программы идентификации болезней сельскохозяйственных культур.
Мини-программа идентификации болезней сельскохозяйственных культур состоит из трех основных частей (Рисунок 9): модуля идентификации, модуля библиотеки болезней и домашнего модуля. Модуль распознавания, как основная функция мини-программы, отвечает за получение изображений болезней пяти сельскохозяйственных культур, а именно пшеницы, риса, рапса, кукурузы и яблони; распознавание изображений болезней; и отображение результатов анализа. Пользователи могут просматривать подробную информацию о конкретной болезни, введя название болезни или выбрав категорию болезни. Можно просматривать профили болезней, характеристики и меры профилактики, чтобы лучше понять болезнь. Пользователи могут войти в приложение, авторизовавшись с помощью информации своей учетной записи WeChat (имя пользователя и аватар WeChat).
Рисунок 9. Структура мини-программы идентификации болезней сельскохозяйственных культур.
Мини-программа была разработана с использованием комбинации технологий HTML5, CSS3 и JavaScript. Ключевая функциональность программы была реализована путем интеграции обученной модели распознавания болезней сельскохозяйственных культур с WeChat API. Процесс работы мини-программы выглядит следующим образом: когда пользователь запускает программу, ему представляется простой и интуитивно понятный интерфейс, который позволяет либо сделать фотографию с помощью камеры смартфона, либо выбрать изображение из альбома. Как только изображение выбрано, оно загружается на сервер, где обрабатывается моделью распознавания. Результат распознавания затем возвращается в мини-программу и отображается пользователю в течение короткого времени отклика, обычно менее 2 секунд. Однако в ходе фазы тестирования мы также выявили некоторые ограничения. Например, программа может работать медленнее на старых моделях смартфонов с ограниченной вычислительной мощностью. Чтобы решить эту проблему, мы планируем оптимизировать код и изучить такие методы, как сжатие модели, чтобы уменьшить вычислительную нагрузку и улучшить общую производительность мини-программы. Мини-программа, служащая мощным инструментом в точном земледелии, позволяет фермерам контролировать болезни сельскохозяйственных культур в любое время и в любом месте, быстро получая результаты идентификации, и способствует повышению качества и эффективности сельскохозяйственного производства.
4. Эксперименты и результаты
В этом разделе мы сначала представляем детали экспериментальной реализации, а затем приводим экспериментальные результаты и анализ для созданного нами набора данных по болезням сельскохозяйственных культур, а также для набора данных по вредителям IP102 [29]. Наконец, чтобы дополнительно подтвердить наши результаты, мы предоставляем результаты визуализации примеров изображений, демонстрирующие способность нашего подхода захватывать более точные представления признаков.
4.1. Настройки эксперимента
Для обеспечения справедливости экспериментов мы оценивали все участвующие модели, используя ResNet-50 в качестве магистральной сети, и установили одинаковые гиперпараметры. В частности, размер входного изображения сначала масштабировался до 512 × 512, а затем случайным образом обрезался до 448 × 448. Модели оптимизировались с использованием стохастического градиентного спуска (SGD) с затуханием веса 1 × 10^(-5), импульсом 0,9 и небольшим размером пакета 16. Начальная скорость обучения была установлена на 1 × 10^(-3) и уменьшалась на 0,9 каждые два периода. Все эксперименты выполнялись с использованием одного GPU NVIDIA 2080Ti для ускорения обучения сети.
4.2. Сравнение с использованием наборов данных по болезням сельскохозяйственных культур
Мы оценили наш предложенный метод на наборе данных по болезням сельскохозяйственных культур. ResNet-50 использовалась в качестве базовой линии, а предварительное обучение на ImageNet, предоставленное PyTorch [30], использовалось для каждой модели, участвующей в оценке. Таблица 1 представляет результаты прогнозирования предложенной ETANet и других методов на нашем наборе данных по болезням сельскохозяйственных культур. Когда базовая модель ResNet не была оснащена дополнительными механизмами внимания, ее производительность на каждом наборе данных сельскохозяйственных культур была относительно слабой. После внедрения механизмов внимания производительность модели значительно улучшилась. ECANet внедрил внимание в размерности каналов и показал отличную производительность на каждом наборе данных сельскохозяйственных культур. Например, точность на наборе данных по пшенице достигла 94,7%, что на 4,3% выше, чем у ResNet. Это свидетельствует о том, что, перевзвешивая канальные признаки, модель может фокусироваться на более дискриминационных каналах признаков и усиливать свою способность захватывать различные признаки болезней сельскохозяйственных культур, уменьшая помехи от нерелевантной информации. Triplet Attention фокусируется на пространственной размерности и также приносит значительные улучшения. Он достиг точности 98,2% на наборе данных по рису, что является очевидным преимуществом по сравнению с 92,8% у ResNet-50. ETANet объединил механизмы канального и пространственного внимания и продемонстрировал наиболее выдающуюся производительность. На наборе данных по кукурузе она достигла точности до 96,1%. Рассматривая все наборы данных по сельскохозяйственным культурам в комплексе, она полностью превзошла ECANet и Triplet Attention, которые используют только отдельные измерения внимания. Это полностью указывает на то, что ETANet оптимизирует извлечение и использование признаков в различных измерениях, позволяя модели глубже понимать сложные паттерны признаков болезней сельскохозяйственных культур и дополнительно повышая точность и надежность распознавания.
Таблица 1. Точность классификации (%) различных методов на наборах данных по болезням сельскохозяйственных культур.
Сравнивая производительность ResNet-50 с использованием стратегий увеличения данных и без них, как показано в Таблице 2, становится ясно, что и CutMix, и AttentionMix существенно повышают ее возможности. Возьмем, к примеру, набор данных по пшенице. Точность самой ResNet-50 [31] (как видно в Таблице 1) составляла 90,4%. Однако в сочетании с CutMix точность CutMix + ResNet-50 взлетела до 99,3%, и, кроме того, AttentionMix + ResNet-50 повысила ее до 99,4%. Такой замечательный прогресс свидетельствует о том, что эти методы увеличения данных расширяют разнообразие обучающих данных, позволяя модели захватывать более полные и вариативные признаки, связанные с болезнями сельскохозяйственных культур. CutMix с его уникальным методом смешивания изображений обогащает распределение данных. Между тем, AttentionMix, благодаря своей передовой манипуляции с признаками, уточняет данные более эффективно, тем самым уменьшая переобучение и улучшая способности к обобщению. Для ETANet ее сочетание со стратегиями увеличения данных также приносит значительные выгоды. В наборе данных по кукурузе точность отдельной ETANet (полученная из Таблицы 1) составляла 96,1%. Однако в паре с CutMix, то есть CutMix + ETANet, точность поднялась до 96,8%, а с AttentionMix, AttentionMix + ETANet достигла точности 96,9%. ETANet хорошо координируется с увеличением данных, поскольку она может лучше фокусироваться на расширенных признаках, дополнительно усиливая дискриминационную способность модели. Она способна точно извлекать и использовать критически важную информацию из расширенных данных, таким образом достигая более высокой точности в идентификации болезней.
Таблица 2. Сравнение точности классификации (%) CutMix и AttentionMix на наборах данных по болезням сельскохозяйственных культур.
4.3. Сравнение на наборе данных IP102
Чтобы проверить робастность и обобщение метода, предложенного в этой статье, мы также оценили его на общедоступном наборе данных по вредителям и болезням IP102 [29]. IP102 — это набор данных о вредителях сельскохозяйственных культур для задач классификации и обнаружения объектов. 102 относится к 102 категориям вредителей. Он содержит более 75 000 изображений восьми культур, включая рис, кукурузу, пшеницу, сахарную свеклу, люцерну, виноград, цитрусовые и манго, которые демонстрируют естественное длиннохвостое распределение. Первые пять культур являются полевыми, а последние три — техническими.
Аналогично, мы предоставляем результаты классификации ECANet, Triplet Attention и нашего метода на наборе данных по вредителям сельскохозяйственных культур IP102, используя ResNet-50 в качестве базовой линии. Также сравнивается производительность CutMix и AttentionMix на этом наборе данных. Детальная точность классификации приведена в Таблице 3.
Таблица 3. Результаты классификации различных методов на наборе данных IP102.
Среди базовых моделей ResNet-50 имела точность 68,4% и полноту 52,7% на наборе данных IP102, что указывает на ограничения в извлечении признаков и тенденцию к неправильной классификации или пропуску образцов. ECANet и Triplet Attention показали немного лучшие результаты, в то время как ETANet с ее механизмом двойного внимания достигла точности 69,7% и полноты 63,1%, демонстрируя более сильные возможности в захвате признаков. Стратегия CutMix значительно улучшила производительность всех моделей. Например, CutMix + ResNet-50 повысила точность до 72,6%, а полноту до 63,5%. Она расширила разнообразие данных, уменьшила переобучение и помогла модели адаптироваться к сложным изображениям вредителей. Сочетание с моделями внимания дало еще лучшие результаты. Стратегия AttentionMix привела к заметному скачку. AttentionMix + ETANet лидирует с точностью 78,7% и полнотой 70,2%. Ее тщательно продуманное увеличение данных и синергия модели работают превосходно, точно фокусируясь на ключевых признаках.
Учитывая, что набор данных IP102 имеет множество категорий вредителей, сложный фон и несбалансированные выборки, базовые модели с трудом справляются со всеми аспектами. CutMix смягчает некоторые проблемы, в то время как AttentionMix в сочетании с ETANet и другими решает их конкретно. Он уделяет внимание редким вредителям и усиливает извлечение признаков, достигая высоких показателей точности и полноты, таким образом предоставляя эффективное решение для идентификации вредителей.
4.4. Визуализация
Чтобы дополнительно подтвердить наш предложенный метод, мы предоставляем результаты Grad-CAM [32] для некоторых примеров изображений. Grad-CAM вычисляет веса каждого канала карты признаков, используя градиент обратного распространения сети, для получения тепловой карты. Основываясь на тепловой карте, мы можем визуализировать области интереса в сети. Как показано на Рисунке 10, ETANet может захватывать более точные и релевантные границы объекта из образцов изображений. В свою очередь, AttentionMix может получать более точные цели при вырезании и смешивании изображений, чтобы избежать неправильного распределения меток. По сравнению с другими алгоритмами внимания, наш метод может помочь более эффективно повысить производительность глубоких нейронных сетей.
Рисунок 10. Визуализация результатов Grad-CAM.
5. Заключение
Распознавание болезней сельскохозяйственных культур в естественных условиях сталкивается с такими трудностями, как высокий контраст освещения, множественные места появления болезней и незначительные различия между классами болезней, что делает распознавание болезней сельскохозяйственных культур сложной задачей. В этой статье, анализируя недостатки существующих работ, мы в основном сосредоточились на следующих аспектах.
В естественных условиях распознавание болезней сельскохозяйственных культур сопряжено с многочисленными проблемами. Высокий контраст освещения, разнообразные места появления болезней и тонкие различия между категориями болезней — все это увеличивает сложность точной идентификации болезней сельскохозяйственных культур. В этом исследовании была предложена сеть мелкозернистой классификации болезней сельскохозяйственных культур, объединяющая модуль эффективного тройного внимания (ETA) и стратегию увеличения данных AttentionMix. Это эффективно решает многие проблемы в существующих работах по распознаванию болезней сельскохозяйственных культур и предлагает надежную поддержку для борьбы с вредителями и болезнями в точном земледелии.
Модуль ETA, имеющий уникальную трехветвевую структуру, эффективно собирает информацию о канальном и пространственном внимании. Он достигает этого, обходя ограничения традиционных методов в извлечении признаков. На наборе данных по болезням сельскохозяйственных культур ETANet имела среднее увеличение точности на 4,2% по сравнению с ResNet. Это ясно показывает ее способность эффективно захватывать сложные паттерны признаков болезней и улучшать репрезентативные навыки модели. AttentionMix успешно исправил проблему неправильного присвоения меток, вызванную случайным вырезанием в CutMix. Эксперименты показали, что AttentionMix имел увеличение точности на 0,4% по сравнению с CutMix. Это значительно увеличило объем высококачественных обучающих данных и улучшило способность модели к обобщению. Совместный эффект модуля ETA и AttentionMix позволил модели достичь отличных результатов как на наборе данных по болезням сельскохозяйственных культур, так и на сложном наборе данных IP102. На наборе данных IP102 комбинация AttentionMix + ETANet достигла точности 78,7% и полноты 70,2%. Это ясно показывает преимущество перед другими передовыми методами и убедительно доказывает высокую точность и надежность этой комбинации в идентификации вредителей и болезней в сложных ситуациях.
Мини-программа WeChat для идентификации болезней сельскохозяйственных культур, созданная на основе результатов исследования, позволяет проводить автоматическую идентификацию в реальном времени, просто фотографируя с помощью смартфона. Объединяя веб-технологии и технологии разработки мини-программ с моделью глубокого обучения, она предоставляет фермерам удобный, неразрушающий и быстрый инструмент диагностики болезней. Это значительно улучшает своевременность и точность профилактики и контроля болезней в сельскохозяйственном производстве.
Поскольку некоторые болезни встречаются нечасто, набор данных по болезням сельскохозяйственных культур имеет длиннохвостое распределение. Это означает, что собранных изображений относительно мало. В будущем мы продолжим изучение наборов данных с длиннохвостым распределением, чтобы улучшить способность модели классифицировать классы хвоста, по которым данные ограничены. В то же время мы объединим другие типы данных, такие как гиперспектральные данные изображений, для распознавания болезней и будем использовать модель распознавания в оборудовании, например, в сельскохозяйственных инспекционных роботах. Это поможет сделать профилактику и контроль болезней сельскохозяйственных культур более автоматизированными и точными; это также область исследований, которая нас интересует.
Таким образом, результаты этого исследования полезны не только для производительности модели, но и имеют высокую практическую ценность. Они предоставляют полезное решение для управления болезнями в точном земледелии. Будущие исследования помогут технологии в этой области продвигаться вперед и развиваться еще дальше.
Ссылки
Li, L.; Zhang, S.; Wang, B. Plant disease detection and classification by deep learning—A review. IEEE Access 2021, 9, 56683–56698. [Google Scholar] [CrossRef]
Guo, P.; Liu, T.; Li, N. Design of automatic recognition of cucumber disease image. Inf. Technol. J. 2014, 13, 2129. [Google Scholar] [CrossRef]
Zhang, S.; Wu, X.; You, Z.; Zhang, L. Leaf image based cucumber disease recognition using sparse representation classification. Comput. Electron. Agric. 2017, 134, 135–141. [Google Scholar] [CrossRef]
Szegedy, C.; Liu, W.; Jia, Y.; Sermanet, P.; Reed, S.; Anguelov, D.; Erhan, D.; Vanhoucke, V.; Rabinovich, A. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 7–12 June 2015; pp. 1–9. [Google Scholar]
Tan, M.; Le, Q. Efficientnet: Rethinking model scaling for convolutional neural networks. In Proceedings of the International Conference on Machine Learning, PMLR 2019, Long Beach, CA, USA, 9–15 June 2019; pp. 6105–6114. [Google Scholar]
Tan, M.; Le, Q. Efficientnetv2: Smaller models and faster training. In Proceedings of the International Conference on Machine Learning, PMLR 2021, online, 18–24 July 2021; pp. 10096–10106. [Google Scholar]
Girshick, R.; Donahue, J.; Darrell, T.; Malik, J. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, 23–28 June 2014; pp. 580–587. [Google Scholar]
Redmon, J. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 June 2016; pp. 779–788. [Google Scholar]
Lu, E.; Cole, F.; Dekel, T.; Zisserman, A.; Freeman, W.T.; Rubinstein, M. Omnimatte: Associating objects and their effects in video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Virtual, 19–25 June 2021; pp. 4507–4515. [Google Scholar]
Li, M.; Zhou, G.; Chen, A.; Li, L.; Hu, Y. Identification of tomato leaf diseases based on LMBRNet. Eng. Appl. Artif. Intell. 2023, 123, 106195. [Google Scholar] [CrossRef]
Deng, Y.; Xi, H.; Zhou, G.; Chen, A.; Wang, Y.; Li, L.; Hu, Y. An effective image-based tomato leaf disease segmentation method using MC-UNet. Plant Phenomics 2023, 5, 0049. [Google Scholar] [CrossRef] [PubMed]
Zhou, C.; Zhong, Y.; Zhou, S.; Song, J.; Xiang, W. Rice leaf disease identification by residual-distilled transformer. Eng. Appl. Artif. Intell. 2023, 121, 106020. [Google Scholar] [CrossRef]
Hasan, M.; Rahman, T.; Uddin, A.F.M.S.; Galib, S.M.; Akhond, M.R.; Uddin, J.; Hossain, A. Enhancing rice crop management: Disease classification using convolutional neural networks and mobile application integration. Agriculture 2023, 13, 1549. [Google Scholar] [CrossRef]
Gao, R.; Wang, R.; Feng, L.; Li, Q.; Wu, H. Dual-branch, efficient, channel attention-based crop disease identification. Comput. Electron. Agric. 2021, 190, 106410. [Google Scholar] [CrossRef]
Hu, J.; Shen, L.; Sun, G. Squeeze-and-excitation networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 18–22 June 2018; pp. 7132–7141. [Google Scholar]
Wu, J.; Zheng, H.; Zhao, B.; Li, Y.; Yan, B.; Liang, R.; Wang, W.; Zhou, S.; Lin, G.; Fu, Y.; et al. Large-scale datasets for going deeper in image understanding. In Proceedings of the 2019 IEEE International Conference on Multimedia and Expo (ICME), IEEE 2019, Shanghai, China, 8–12 July 2019; pp. 1480–1485. [Google Scholar]
Hughes, D.; Salathé, M. An open access repository of images on plant health to enable the development of mobile disease diagnostics. arXiv 2015, arXiv:1511.08060. [Google Scholar]
Chen, Z.; Cao, M.; Ji, P.; Ma, F. Research on Crop Disease Classification Algorithm Based on Mixed Attention Mechanism. J. Phys. Conf. Ser. 2021, 1961, 012048. [Google Scholar] [CrossRef]
Huang, L.; Luo, Y.; Yang, X.; Yang, G.; Wang, D. Crop Disease Recognition Based on Attention Mechanism and Multi-scale Residual Network. Trans. Chin. Soc. Agric. Mach. 2021, 52, 264–271. [Google Scholar]
Wang, X.; Dong, Q.; Yang, G. YOLOv5 Improved by Optimized CBAM for Crop Pest Identification. Comput. Syst. Appl. 2023, 32, 261–268. [Google Scholar]
Woo, S.; Park, J.; Lee, J.Y.; Kweon, I.S. Cbam: Convolutional block attention module. In Proceedings of the European Conference on Computer Vision (ECCV), Munich, Germany, 8–14 September 2018; pp. 3–19. [Google Scholar]
Wang, Q.; Wu, B.; Zhu, P.; Zuo, W.; Hu, Q. ECA-Net: Efficient channel attention for deep convolutional neural networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, WA, USA, 14–19 June 2020; pp. 11534–11542. [Google Scholar]
Misra, D.; Nalamada, T.; Arasanipalai, A.U.; Hou, Q. Rotate to attend: Convolutional triplet attention module. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, Virtual, 5–9 January 2021; pp. 3139–3148. [Google Scholar]
Yun, S.; Han, D.; Oh, S.J.; Chun, S.; Choe, J.; Yoo, Y. Cutmix: Regularization strategy to train strong classifiers with localizable features. In Proceedings of the IEEE/CVF International Conference on Computer Vision, Seoul, Republic of South Korea, 27 October–2 November 2019; pp. 6023–6032. [Google Scholar]
Sethy, P.K.; Barpanda, N.K.; Rath, A.K.; Behera, S.K. Deep feature based rice leaf disease identification using support vector machine. Comput. Electron. Agric. 2020, 175, 105527. [Google Scholar] [CrossRef]
Everingham, M.; Van Gool, L.; Williams, I.C.K.; Winn, J.; Zisserman, A. The pascal visual object classes (voc) challenge. Int. J. Comput. Vis. 2010, 88, 303–338. [Google Scholar] [CrossRef]
Lin, M.; Chen, Q.; Yan, S. Network in network. arXiv 2013, arXiv:1312.4400. [Google Scholar]
Ioffe, S. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv 2015, arXiv:1502.03167. [Google Scholar]
Wu, X.; Zhan, C.; Lai, Y.K.; Cheng, M.; Yang, J. Ip102: A large-scale benchmark dataset for insect pest recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, 15–20 June 2019; pp. 8787–8796. [Google Scholar]
Paszke, A.; Gross, S.; Chintala, S.; Chnan, G.; Yang, E.; DeVito, Z.; Lin, Z.; Desmaison, A.; Antiga, L.; Lerer, A. Automatic Differentiation in Pytorch. 2017. Available online: https://openreview.net/forum?id=BJJsrmfCZ (accessed on 5 January 2025).
He, K.; Zhang, X.; Ren, S.; Sun, J. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 June 2016; pp. 770–778. [Google Scholar]
Selvaraju, R.R.; Cogswell, M.; Das, A.; Vedantam, R.; Parikh, D.; Batra, D. Grad-cam: Visual explanations from deep networks via gradient-based localization. In Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 22–29 October 2017; pp. 618–626. [Google Scholar]
Zhang Y, Zhang N, Zhu J, Sun T, Chai X, Dong W. Efficient Triple Attention and AttentionMix: A Novel Network for Fine-Grained Crop Disease Classification. Agriculture. 2025; 15(3):313. https://doi.org/10.3390/agriculture15030313
Перевод статьи «Efficient Triple Attention and AttentionMix: A Novel Network for Fine-Grained Crop Disease Classification» авторов Zhang Y, Zhang N, Zhu J, Sun T, Chai X, Dong W., оригинал доступен по ссылке. Лицензия: CC BY. Изменения: переведено на русский язык
Фото: freepik


















Комментарии (0)