Опубликовано 21.10 09:00

Исследование облегченной алгоритмической модели для точного распознавания и обнаружения клубники в условиях открытого грунта на основе улучшенного YOL

При сборе клубники в условиях открытого грунта такие факторы, как изменение освещения, перекрытие препятствиями и малый размер объектов, приводят к низкой точности и недостаточной скорости распознавания. Предложен усовершенствованный алгоритм высокоточного распознавания клубники на основе YOLOv5n.

Алгоритм использует сеть FasterNet для замены исходной базовой сети YOLOv5n, что повышает скорость обнаружения. Добавлен модуль механизма внимания MobileViT для улучшения извлечения признаков у объектов малого размера, что обеспечивает модели более высокую точность обнаружения при меньшем объеме. Введены гибридный модуль внимания CBAM и модуль C2f для улучшения способности нейронной сети к описанию признаков, обогащения информации о потоке градиентов и повышения производительности и точности модели. Также добавлен модуль SPPELAN для повышения эффективности обнаружения моделью малых объектов. Результаты экспериментов показывают, что точность обнаружения улучшенной модели составляет 98,94%, полнота — 99,12%, объем модели — 53,22 МБ, а значение mAP — 99,43%. По сравнению с исходным YOLOv5n, точность обнаружения увеличилась на 14,68%, а полнота — на 11,37%. Данная технология успешно решила задачу точного обнаружения и идентификации клубники в сложных условиях открытого грунта и заложила теоретическую основу для технологий точного распознавания и прецизионного сбора.

Клубника сладкая и питательная, что делает ее фруктом с высокой экономической ценностью. Китай является крупнейшим в мире производителем клубники. По мере того, как экономическая ценность клубники продолжает расти, увеличиваются и площади посадок клубники в Китае. В настоящее время основным методом сбора клубники является ручной сбор, который требует высокой трудоемкости. В то же время период созревания клубники короткий, и несвоевременный сбор приведет к гниению клубники и экономическим потерям. Точная идентификация клубники является основой для точного сбора и уборки. Поэтому эффективная и точная идентификация клубники имеет важное значение для разумной уборки клубники [ 1 , 2 ].

В настоящее время ученые в стране и за рубежом добились определенных успехов в исследованиях по идентификации и классификации фруктов, и в первые дни цвет и форма фруктов в основном использовались для их точной идентификации и классификации. Однако на этот метод влияет взаимная окклюзия между внешним светом, фруктами и препятствиями, и точность распознавания невысока. Нелегко удовлетворить требования точного распознавания. С развитием технологии глубокого обучения технология распознавания и классификации изображений была значительно улучшена [ 3 , 4 , 5 , 6, 7, 8, 9, 10, 11, 12, 13 , 14 , 15 ] . Визуальные методы продемонстрировали широкое применение в различных сельскохозяйственных и промышленных областях [ 16 , 17 ]. Например, были разработаны передовые методы визуализации для визуализации неизлучающего подпространства [ 18 ], в то время как бинокулярные стереосистемы зрения эффективно использовались для точного обнаружения и позиционирования фруктов в садах Camellia oleifera [ 19 ]. Глубокие нейронные сети в сочетании с обработкой спутниковых изображений в приложениях дистанционного зондирования оказались ценными для устойчивого городского планирования и мониторинга развития [ 20 ]. Ван и др. [ 21 ] изучали и анализировали идентификацию и обнаружение Solanum rostratum Dunal. На основе алгоритма YOLOv5 механизм внимания был улучшен и оптимизирован, а модуль CBAM был использован для замены исходного модуля внимания, что улучшило точность обнаружения модели и обнаружение Solanum rostratum Dunal в реальном времени. Цзя Сюэйин и др. [ 22 ] провели углубленное исследование проблем низкой эффективности и низкой точности автоматического обнаружения и сортировки цитрусовых и предложили модель обнаружения дефектов поверхности цитрусовых в реальном времени. На основе модели YOLOv7 был внедрен модуль координатного внимания для улучшения внимания модели, а также интегрировано статическое и динамическое представление контекста для повышения выразительных возможностей модели. Модель была протестирована, и общая точность достигла 94,4% с высокой точностью обнаружения. Для улучшения обобщающей способности распознавания болезней листьев яблони, Го и др. [ 23]] предложили улучшенную модель распознавания MobileNetV3. Модуль внимания и полносвязный слой сети в модели были оптимизированы. Анализ проверки модели проводился с использованием метода обучения с передачей обучения. Результаты показали, что средняя точность модели достигала 95,62%, что имело преимущества высокой точности и небольшого размера, что могло послужить эталоном для идентификации болезней листьев яблони. Желтая ржавчина является одним из основных заболеваний, влияющих на урожайность пшеницы. Чтобы повысить точность обнаружения заболевания и определить степень заболевания, Су Баофэн и др. [24 ] идентифицировали заболевание на основе временных рядов и алгоритма опорных векторов, а точность распознавания составила 83,7%, что дало определенную точку отсчета для определения степени заболевания пшеницы. При обнаружении насекомых-вредителей традиционный алгоритм обнаружения затрудняет их точное обнаружение из-за их высокой скрытности и мобильности. Тянь и др. [ 25 ] предложили алгоритм MD-YOLO. В алгоритм добавлены модуль плотности и модуль адаптивного внимания (AAM). Эти модули помогли улучшить выразительную силу признаков. Алгоритм объединил путь извлечения признаков и путь агрегации признаков и эффективно получил информацию о пространственном местоположении неглубокой сети. Эффективность алгоритма была подтверждена экспериментами, которые обеспечили определенную исследовательскую базу для обнаружения мелких объектов на сельскохозяйственных угодьях. Рай и др. [ 26 ] разработали модель обнаружения YOLO-Spot для повышения точности идентификации сорняков. Модель показала значительное улучшение точности и использования параметров. Модель была применена к системе обнаружения БПЛА, и были получены хорошие результаты обнаружения. Для точной идентификации и определения местоположения больных шелкопрядов Ши и др. [ 27 ] предложили улучшенную модель обнаружения, основанную на алгоритме YOLOv5s. В этой модели использовалась свертка с большой глубиной ядра ConvNeXt для расширения рецептивного поля, а также был добавлен механизм внимания к каналу ECANet для повышения способности извлечения признаков. Результаты испытаний показали, что средняя точность обнаружения составила 96,46%. Окружающая среда соевых плантаций на открытом воздухе сложна, поэтому традиционный алгоритм распознавания изображений не может точно идентифицировать вредителей. Чжу и др. [ 28 ] предложили сетевую модель CBF-YOLO. Модель может быть использована для идентификации вредителей сои в сложных условиях. Алгоритм в основном состоит из модулей CSE-ELAN, Bi-PAN и FFE, которые улучшили способность извлечения признаков в пространстве и измерениях канала и дали модели более точную способность распознавания и позиционирования. Экспериментальные результаты показали, что средняя точность обнаружения составила 86,9%. Это на 6,3% выше, чем у исходного алгоритма. Чтобы улучшить точность распознавания и позиционирования томатов черри, Чжан и др. [29 ] предложили модель распознавания и позиционирования томатов черри на основе легкой нейронной сети YOLOv4-LITE. Для построения сети модели использовался модуль MobileNet-v3, что значительно улучшило способность извлечения признаков и скорость обнаружения целей. Модификация сети пирамиды признаков улучшает способность обнаружения небольших целевых объектов, а общая модель переносится на мобильный терминал, что реализует эффективное и быстрое обнаружение. Это обеспечило определенную исследовательскую основу для сбора сельскохозяйственных культур. Хуан и др. [30] предложили легкий алгоритм обнаружения, основанный на модели YOLOv5s, для решения проблемы пропуска обнаружения, вызванного окклюзией во время сбора клубники. В этом алгоритме сеть MobileNet V3 использовалась для замены исходной магистральной сети, а функция потерь Alpha-IoU была введена для ускорения скорости сходимости модели. Экспериментальные результаты показали, что скорость обнаружения составила 44 кадра/с, а точность обнаружения — 99,4%, что намного лучше, чем у исходной модели, и отвечало требованиям быстрого и высокоточного обнаружения. Лю и др. [3 ] усовершенствовали модель YOLOv8-Pose для точного определения ключевых точек ягод и стеблей клубники на стадии созревания красного цвета. В модель были добавлены модуль Slim-neck и модуль механизма внимания CBAM, что эффективно улучшило способность модели извлекать признаки для небольших целевых объектов. Было проанализировано влияние света и других факторов на прогнозирование модели. Экспериментальные результаты показали, что точность обнаружения модели алгоритмом превысила 94%, и он продемонстрировал хороший эффект обнаружения и устойчивость.

Поскольку клубника представляет собой небольшой целевой объект, подверженный воздействию естественного света, её сложно идентифицировать. Основываясь на исследованиях вышеупомянутых учёных, в данной статье предлагается улучшенная модель обнаружения YOLOv5. Модель улучшает и оптимизирует магистральную сеть, а также добавляет механизмы внимания MobileViT, CBAM, C2f и SPPELAN. Модель не только лёгкая, но и значительно повышает скорость и точность обнаружения, что обеспечивает информационную основу для последующего сбора урожая клубники.

2.1 Источники данных

Фотографии в этом эксперименте были сделаны на клубничном поле на клубничной плантации в провинции Гуандун. Наборы данных собирались в разные периоды времени при разных условиях освещения и ракурсах съёмки для удовлетворения потребностей в разнообразии обнаружения на открытом воздухе. Всего было получено 1368 изображений клубники, которые были сохранены в формате JPG. Были получены изображения спелой, незрелой и гнилой клубники. Три типа изображений клубники показаны на рисунке 1 .

Рисунок 1. Три типа изображений клубники.

Cao X, Zhong P, Huang Y, Huang M, Huang Z, Zou T, Xing H. Research on Lightweight Algorithm Model for Precise Recognition and Detection of Outdoor Strawberries Based on Improved YOLOv5n. Agriculture. 2025; 15(1):90.

2.2 Обработка данных

Размер исходного изображения, использованного в этом исследовании, составлял 3024 × 4032 пикселей, и на изображении большого размера было больше примесей, что повлияло на скорость обучения модели. Чтобы удовлетворить требования к входным данным модели и повысить скорость обучения модели, исходное изображение было предварительно обработано, и размер изображения был изменен до 640 × 640 пикселей. Этот размер мог эффективно сохранить основную информацию изображения и не влиял на обучающий эффект, что обеспечивало хорошую основу для последующей обработки визуализации. Изображения клубники были размечены программным обеспечением Label Studio, и типы маркировки были спелыми, незрелыми и гнилыми. На рисунке 2 показана картина эффекта после маркировки. После маркировки изображение было сохранено в формате XML. Набор данных изображений был расширен до 19600 изображений с помощью методов улучшения данных. Чтобы предотвратить переобучение модели, конечный набор данных был разделен на обучающий набор, проверочный набор и тестовый набор в соотношении 8:1:1.

Рисунок 2. Диаграмма эффекта маркировки.

3.1. Модель YOLOv5n

Модель YOLOv5 обладает высокой стабильностью и точностью обнаружения небольших целей. Модель YOLOv5n [ 32 ] представляет собой облегченную модель YOLOv5 с высокой точностью и высокой скоростью обнаружения, а также небольшим объемом модели и вычислений, что делает ее подходящей для сценариев граничных вычислений. Эта модель может стать хорошей основой для последующих приложений на мобильных терминалах. Однако из-за сложности среды сбора клубники, фонового шума и проблем с препятствиями исходная модель YOLOv5n может давать ложные результаты распознавания клубники, а ее точность и скорость обнаружения затрудняют удовлетворение фактических требований к обнаружению.

3.2 Улучшенная модель YOLOv5n

Учитывая недостатки модели YOLOv5n, в данной статье предлагается улучшенная модель YOLOv5n для точного и эффективного распознавания клубники. Общая схема усовершенствования выглядит следующим образом: (1) исходная основа была модифицирована до FasterNet, (2) добавлены механизмы внимания MobileViT и CBAM, (3) добавлены модули C2f и SPPELAN, и (4) добавлен алгоритм подавления немаксимальных значений Soft-NMS. Общая улучшенная структура показана на рисунке 3 .

Рисунок 3. Улучшенная структурная схема сети YOLOv5n. Примечание: FasterNet — магистральная сеть; Neck — узкое место. C — количество каналов, H — высота, W — ширина.

3.2.1. Улучшение и оптимизация магистральной сети

Чтобы встроить изображения в модель, необходимо было предварительно обработать изображения, включая изменение размера, стандартизацию и т. д., и преобразовать их в формат, подходящий для входных данных модели. Процесс выглядит следующим образом: (1) изображение было преобразовано в 640 × 640 пикселей и нормализовано. (2) Изображение было введено как 4D тензор (batch_2, channels, height, width) в магистральную сеть. Изображения извлекались через несколько сверточных слоев в сети и постепенно встраивались в многомерное пространство признаков, что позволяло модели распознавать объекты. Из-за значительного влияния цветовых метамеров на классификацию объектов в этом исследовании сначала выполнялось преобразование цветового пространства и стандартизация изображений. После этого сеть сверточных слоев (conv) использовалась для извлечения цветовых признаков из обработанных изображений клубники. Наконец, информация о цвете вводилась в магистральную сеть.

FasterNet [ 33 ] — эффективная архитектура нейронной сети. Эта архитектура вводит частичную свёртку (PConv) и точечную свёртку (PWConv) в качестве основных операторов для сокращения избыточных вычислений и доступа к памяти, тем самым улучшая возможность извлечения пространственных признаков. PConv применяет уникальную стратегию выполнения только обычных операций свёртки на некоторых входных каналах для извлечения пространственных признаков, сохраняя остальные каналы неизменными. По сравнению с обычной свёрткой, FLOP PConv составляет всего 1/16 от обычной свёртки. Требования к доступу к памяти PConv также относительно невелики, всего 1/4 от обычной свёртки. PConv выполняет операции свёртки только на определённых каналах для повышения эффективности доступа к памяти. FasterNet имеет 4 уровня, каждый со слоем встраивания (свёртка 4 × 4 с шагом 4). Каждый FasterNet содержит один слой PConv и два слоя PWConv для пространственной понижающей дискретизации и расширения канала. Они объединяются, образуя инвертированный остаточный блок, со слоями нормализации и активации, добавленными после среднего слоя. Средний слой выполняет функцию расширения количества каналов и может повторно использовать входные признаки. PConv выполняет обычную свёртку только для некоторых входных каналов, оставляя остальные каналы неизменными, а его операции с плавающей запятой значительно медленнее, чем обычные операции свёртки. Таким образом, архитектура FasterNet может значительно повысить скорость вычислений алгоритмов. В данной статье архитектура FasterNet была принята вместо исходной основы модели YOLOv5n для дальнейшего повышения скорости и точности обнаружения, что обеспечивает хорошую основу для последующего переноса алгоритма на мобильные устройства.

3.2.2. Улучшение и оптимизация механизма внимания

В оригинальной модели YOLOv5n используется механизм внимания SENet (сети сжатия и возбуждения). Этот механизм внимания добавляет глобальный модуль собственного внимания после каждого сверточного слоя, что позволяет сети автоматически корректировать веса каждого канала признаков. Этот механизм внимания также добавляет структуру сжатия и возбуждения для сжатия размерности канала признаков и дальнейшего повышения эффективности обнаружения. Однако этот модуль учитывает адаптивность преимущественно в пространственном измерении, игнорируя адаптивность в канальном измерении, что приводит к низкой производительности при работе с изображениями высокого разрешения.

Для устранения недостатков исходного механизма внимания в данной статье были использованы модули механизмов внимания MobileViT и CBAM [ 34 , 35 ]. MobileViT — это облегчённая модель, основанная на Transformers. Основной функцией этого модуля является классификация изображений. MobileViT в основном включает свёртку, MV2 (инвертированный остаточный блок в MobiletNetV2), блок MobileViT, глобальное объединение и полносвязные слои. Структура сети показана на рисунке 4 .

Рисунок 4. Модуль механизма внимания MobileViT.

По сравнению с традиционными свёрточными нейронными сетями, MobileViT использует облегчённый механизм внимания для извлечения признаков, что обеспечивает точность при более высокой скорости обработки и меньшем размере модели. Это создаст надёжную основу для будущих приложений на мобильных устройствах.

В этом исследовании использовались модули механизма внимания CBAM (Convolutional Block Attention Module) и MobileViT. Модуль CBAM обрабатывал карты признаков изображения, используя канальное и пространственное внимание. Его входными данными была сверточная карта признаков, а выходными данными – взвешенная карта признаков. Этот модуль был встроен в сверточный слой для повышения внимания модели к важным признакам. Однако, хотя модуль внимания CBAM улучшил способность модели к извлечению признаков, он имел большое количество обучающих параметров, что увеличивало сложность модели. Таким образом, добавление модуля внимания MobileViT может сделать модель более простой. Два модуля использовались попеременно для реализации механизма смешанной свертки внимания к карте признаков изображения. Входными данными была карта признаков изображения, извлеченная по глубоким признакам, а выходными данными – карта признаков, взвешенная по вниманию, что делало модель более лёгкой и вычислительно эффективной. Модуль внимания MobileViT был встроен в часть сети, отвечающую за слияние глубоких признаков, для улучшения восприятия моделью деталей и долгосрочных зависимостей.

Для дальнейшего снижения влияния наружного освещения на распознавание целей был представлен модуль механизма внимания CBAM. Этот модуль объединил модули внимания канала и пространственного внимания для улучшения способности сверточных нейронных сетей к выражению признаков, что позволило бы модулю достичь лучших результатов обнаружения и распознавания. После ввода карты признаков клубники был настроен модуль внимания для извлечения исходной информации карты признаков клубники, тем самым повышая точность извлечения признаков магистральной сетью и получения извлеченной карты признаков клубники. Этот модуль внимания сгенерировал одномерную карту внимания канала ( C × 1 × 1) и двумерную пространственную карту внимания (1 × H × W ) для заданного размера C × H × W (где C представляет собой количество каналов, H представляет собой высоту, а W представляет собой ширину) промежуточной карты признаков F. В процессе поэлементного умножения значения внимания реплицировались, то есть значения внимания канала реплицировались вдоль пространственного измерения, и наоборот. Был получен конечный выходной результат уточненного модуля CBAM. Входные карты признаков были обработаны с использованием среднего и максимального пулинга соответственно. Две карты признаков со средним и максимальным пулингом были объединены в измерении канала для формирования карты признаков с двумя каналами, и был получен объединенный признак. Стандартные сверточные слои выполнили свертку для создания двумерной пространственной карты внимания. Полностью связанный слой сгенерировал вес внимания канала Ms и функцию активации, и, наконец, выходной результат был умножен на исходный граф для восстановления до размера C × H × W. Здесь весовой коэффициент Ms равен уравнению (1).

где Fпредставляет собой карту функций после применения модуля внимания канала, 𝐴𝑣𝑔𝑃𝑜𝑜𝑙(𝐹) , обозначает применение глобального среднего объединения F, 𝑀𝑎𝑥𝑃𝑜𝑜𝑙(𝐹) обозначает операцию глобального максимального объединения на F,σотносится к сигмоидальной функции, f7×7обозначает операцию свертки со сверточным слоем 7 × 7.

3.2.3. Модуль C2f

Чтобы еще больше повысить точность распознавания клубники и уменьшить вес модели, модуль C2f был использован для замены модуля C3 в оригинальном YOLOv5n. Модуль C2f имеет два сверточных слоя, которые объединяют высокоуровневые признаки с информацией сверху и снизу. Структура модуля C2f показана на рисунке 5. Модуль C2f состоит из (1) сверточного слоя (Conv), который получает входную карту признаков, генерирует промежуточную карту признаков и отвечает за извлечение основных признаков входного изображения; (2) модуля узкого места, где промежуточная карта признаков, сгенерированная модулем узкого места, разделяется на две части, одна из которых передается непосредственно в конечный модуль Concat, а другая — в несколько модулей узкого места для дальнейшей обработки, а модуль узкого места обрабатывает входную карту признаков с помощью серии операций свертки, нормализации и активации, при этом полученная карта признаков объединяется с частью карты признаков, переданной непосредственно в модуль Concat; и (3) модуль Concat, где модуль узкого места обрабатывает карту признаков и напрямую передает карты признаков, которые объединяются в блоке Concat для реализации слияния признаков. Модель может комплексно использовать многомасштабную и многоуровневую информацию посредством вышеуказанных операций и предоставлять богатые представления признаков для последующих задач обнаружения и классификации.

Рисунок 5. Структура C2f.

3.2.4. Модуль SPPELAN

Поскольку клубника относится к объектам обнаружения малого размера, для дальнейшего повышения точности обнаружения и эффективности модели в данное исследование был интегрирован модуль SPPELAN. В этот модуль были интегрированы характеристики SPP (объединение пространственных пирамид) и ELAN (локальная сеть агрегации признаков). В этом модуле была улучшена репрезентативность модели в локальной области карты признаков.

Модуль SPPELAN состоит из (1) слоя максимального пулинга, который используется для пространственного пирамидального пулинга. Операция максимального пулинга выполняется с использованием ядер разных размеров для захвата многомасштабных признаков, и (2) локальной сети агрегации признаков, которая улучшает репрезентативность модели за счёт агрегации локальных признаков. Модуль SPPELAN улучшает способность модели обнаруживать объекты разных размеров, сохраняя при этом чувствительность к важным локальным особенностям изображения. Схема сети представлена на рисунке 6 .

Рисунок 6. Схема сети модуля SPPELAN.

3.2.5. Модуль Soft-NMS

В данном исследовании модуль Soft-NMS использовался для оптимизации рамки обнаружения при обнаружении целей и повышения точности и эффективности обнаружения. Soft-NMS (мягкое подавление немаксимальных значений) – это усовершенствованный алгоритм подавления немаксимальных значений. Традиционный алгоритм NMS может напрямую сохранять область обнаружения с наивысшей оценкой и игнорировать другие области обнаружения после обнаружения перекрывающихся областей обнаружения при обработке областей обнаружения. Такой подход может привести к ошибочному игнорированию некоторых реальных целей. В отличие от этого, Soft-NMS сохраняет больше потенциально верных областей обнаружения, присваивая более низкие оценки частично перекрывающимся областям обнаружения вместо их прямого игнорирования. Этот модуль повысил точность и полноту обнаружения объектов. Конкретный процесс обнаружения выглядел следующим образом: при перекрытии областей обнаружения Soft-NMS взвешивал и корректировал оценки на основе их значений пересечения по объединению (IoU) вместо того, чтобы напрямую удалять области обнаружения с более низкими оценками, как в традиционной NMS. Такая стратегия взвешивания позволила Soft-NMS более гибко справляться с перекрытием рамок обнаружения, тем самым повышая точность обнаружения при сохранении эффективности обнаружения.

3.3. Обучение и тестирование модели

3.3.1. Экспериментальная среда

Эта экспериментальная модель была построена на основе фреймворка глубокого обучения PyTorch. Экспериментальной операционной системой была Windows 10. Аппаратная конфигурация включала процессор Intel® Core I9-13900K 13-го поколения и две видеокарты Nvidia Tesla P40 с памятью 24 ГБ. Программная конфигурация включала CUDA 11.8 и CUDNN 9.2.0. Параметры обучения: в данном исследовании использовалась исходная модель серии YOLO, и, судя по результатам предварительного обучения, при скорости обучения и коэффициенте затухания 0,01 она практически удовлетворяла требованиям обучения. При 500-кратном обучении была достигнута полная сходимость.

3.3.2. Индикаторы оценки

Для оценки точности модели обнаружения объектов клубники в данном исследовании в качестве показателей оценки конечного эффекта использовались точность (P), полнота (R) и средняя средняя точность (mAP). Чтобы определить, подходит ли модель для развертывания на мобильных устройствах, также необходимо было всесторонне рассмотреть такие параметры, как скорость обнаружения (кадров в секунду). Значение F1, как гармоническое среднее значение точности и полноты, может помочь в оценке производительности модели. Точность (P) представляет собой долю истинно положительных образцов среди всех обнаруженных положительных образцов, что может отражать способность модели различать отрицательные образцы. Формула расчета представлена в уравнении (2).

где TP относится к образцу, в котором как предсказанные, так и фактические результаты верны, а FP определяется как правильный образец, но не является правильным образцом.

Коэффициент полноты R представляет собой долю образцов, которые действительно были положительными и были правильно предсказаны моделью как положительные. Формула расчета представлена в уравнении (3).

где FN относится к образцам, которые на самом деле были положительными, но ошибочно предсказаны как отрицательные.

Средняя точность (mAP) относится к средней точности прогнозирования всех категорий в наборе данных. В задачах обнаружения объектов она использовалась для оценки эффективности алгоритмов обнаружения различных типов целей. Формула расчёта представлена в уравнении (4).

где C — количество категорий, а P (R) — изменение точности P относительно полноты R.

Значение F1 представляет собой среднее гармоническое значение точности и полноты, используемое для комплексной оценки эффективности моделей классификации. Формула расчета представлена в уравнении (5).

где P представляет собой точность, а R — скорость воспроизведения.

Скорость обнаружения (FPS) — это количество изображений, которые модель может обработать в секунду. Этот показатель напрямую отражает скорость обработки изображений моделью. Формула расчёта представлена в уравнении (6).

где P eTime — время предварительной обработки изображения, мс; I nferTime — время, необходимое для сетевого вывода, мс; и N MSTime — время оптимизации блоков сетевого предсказания, мс.

4.1 Результаты и анализ абляционного теста

Результаты теста абляции показаны в Таблице 1. Благодаря использованию структуры FasterNet в магистральной сети, которая имела характеристики облегченной модели и высокую вычислительную эффективность, модель стала более легкой, а скорость обнаружения значительно улучшилась. Благодаря использованию модулей внимания CBAM и MobileViT, механизм внимания значительно улучшил точность и частоту кадров обнаружения мелких объектов за счет улучшения внимания канала и пространственного внимания. В то же время в модель были введены модуль SPPELAN и модуль свертки C2f, которые эффективно повысили точность обнаружения и дополнительно уменьшили размер модели за счет оптимизации извлечения признаков и облегченной конструкции. При использовании только структуры магистральной сети FasterNet размер модели уменьшился более чем на 15 МБ по сравнению с неиспользуемой структурой. Это указывает на то, что структура магистральной сети может реализовать снижение веса в модели. Вышеуказанные эксперименты по абляции показывают, что улучшенная модель лучше неулучшенной модели с точки зрения эффекта обнаружения. На основании экспериментальных результатов можно видеть, что предложенный алгоритм имеет хорошую прикладную ценность.

Таблица 1. Результаты экспериментов по абляции.

4.2 Сравнение эффекта обнаружения с различными моделями

Для проверки эффективности обнаружения улучшенной модели YOLOv5n, в этом разделе несколько классических моделей, включая RCNN, YOLOv3, YOLOv4, YOLOv5n, YOLOv8 и YOLOv9-e, были обучены и протестированы в одной и той же среде. В таблице 2 перечислены результаты обнаружения сравниваемых моделей на тестовом наборе. Экспериментальные результаты показывают, что общие результаты улучшенной модели YOLOv5n лучше, чем у других моделей. Среднее значение точности (mAP) улучшенной модели YOLOv5n составило 99,43%, что на 59,09%, 15,86%, 5,26%, 9,25%, 16,23% и 15,58% соответственно по сравнению с RCNN, YOLOv3, YOLOv4, YOLOv5n, YOLOv8 и YOLOv9-e. Полнота улучшенной модели YOLOv5n составила 99,12%, что на 75,37%, 18,39%, 15,42%, 11,37%, 19,55% и 15,94% соответственно больше, чем у других алгоритмов. Размер модели составил 53,2 МБ, 54,81 МБ, 190,86 МБ и 86,83 МБ соответственно, что меньше, чем у RCNN, YOLOv4 и YOLOv9-e. Однако по сравнению с моделями YOLOv3, YOLOv5n и YOLOv8 он увеличился на 35,80 МБ, 46,48 МБ и 46,85 МБ соответственно. Частота кадров обнаружения составила 16,61 кадра в секунду, что на 56,83% и 37,39% выше, чем у моделей RCNN и YOLOv9-e. По сравнению с моделями YOLOv3, YOLOv4, YOLOv5n и YOLOv8, частота обнаружения снизилась и составила 35,94%, 38,17%, 437,75% и 185,56% соответственно. Что касается вычислительной сложности, улучшенная модель YOLOv5n оказалась значительно ниже, чем модели YOLOv3, YOLOv4, YOLOv5n и YOLOv8. Хотя улучшенная модель YOLOv5n не была оптимальной с точки зрения размера модели, скорости обнаружения или вычислительной сложности, она превзошла другие модели по точности и другим показателям. Таким образом, общая эффективность обнаружения этой модели выше. Улучшенная модель YOLOv5n может удовлетворить практические потребности обнаружения сбора клубники.

Таблица 2. Результаты тестирования различных алгоритмов в тестовом наборе.

Это исследование было проведено при различных условиях освещения для обнаружения и распознавания, как показано на рисунке 7. Распознавание и анализ были проведены для различных условий освещения и сред окклюзии. Как показано на рисунке 7 , под воздействием света улучшенная модель в этой статье не испытывала пропущенных или повторных обнаружений, в то время как все другие модели испытывали пропущенные или повторные обнаружения. Таким образом, улучшенная модель в этом исследовании может уменьшить влияние изменений наружного освещения на распознавание клубники. Рисунок 7 показывает эффект обнаружения каждой модели. Из рисунка 7 видно , что существует большое количество взаимных окклюзий в распределении клубники на клубничном поле, и с изменением во времени свет также меняется, что влияет на эффект обнаружения клубники. Сравнивая различные модели, можно увидеть, что при обнаружении есть пропущенные и ложные обнаружения. Более того, из-за влияния света такие явления, как повторное обнаружение, серьезно влияют на точность распознавания. Модель обнаружения RCNN испытала большое количество ложных обнаружений и повторных распознаваний; Модель обнаружения YOLOv3 столкнулась с большим количеством ложных обнаружений, идентифицируя гнилую клубнику как спелую; было много пропущенных обнаружений в моделях обнаружения YOLOv4 и YOLOv5n; модель обнаружения YOLOv8 столкнулась с ложными обнаружениями, идентифицируя зрелую клубнику как плохую клубнику; и явление слияния зрелой клубники (деформированная клубника) было идентифицировано как несколько ягод клубники в модели YOLOv9e, что привело к ошибкам распознавания. Клубника в разных местах и перекрытая клубника могла быть обнаружена улучшенной моделью YOLOv5n с высоким уровнем достоверности, что указывает на то, что модуль Soft-NMS может эффективно оптимизировать кадр обнаружения, удалять кадры обнаружения с меньшей уверенностью и оптимизировать кадры обнаружения при повторном обнаружении. Экспериментальные результаты показывают, что улучшенный алгоритм YOLOv5n по-прежнему сохраняет высокую точность и надежность в сложных условиях и обеспечивает точное обнаружение. Он соответствует требованиям точной идентификации на открытом воздухе.

Рисунок 7. Эффект обнаружения на открытом воздухе.

Из-за сложного фона, множества факторов помех и малого размера целевого объекта кривая обучения значительно изменилась. Как показано на рисунке 8 , сравнение кривых mAP, точности, полноты и функции потерь различных моделей показывает, что традиционный алгоритм RCNN имел точность менее 30% и не мог быть улучшен. Алгоритмы серии YOLO продемонстрировали превосходную производительность благодаря своей уникальной архитектуре и стратегии обучения. Эти алгоритмы достигли быстрой подгонки за меньшее количество эпох и превосходят других по точности, полноте, значению потерь и mAP. Однако различные алгоритмы продемонстрировали разные скорости улучшения и результаты. По сравнению с другими алгоритмами YOLO, улучшенная модель YOLOv5n в этом исследовании продемонстрировала более медленную скорость сходимости, но ее конечные результаты значительно превосходят результаты других алгоритмов. Следовательно, улучшенная модель YOLOv5n, предложенная в этом исследовании, больше подходит для обнаружения и распознавания в сложных условиях на открытом воздухе.

Рисунок 8. Различные кривые процесса обучения модели.

По сравнению с другими моделями глубокого обучения [ 1 , 8 , 11 ], предложенный в данном исследовании алгоритм улучшил точность (P), среднюю точность (mAP) и полноту (R), но не достиг частоты кадров обнаружения. На более позднем этапе потребовалось дополнительно улучшить частоту обнаружения алгоритма и общую эффективность обнаружения и распознавания.

В ответ на требования к высокоточной диагностике клубники в сложных условиях открытых садов в данном исследовании предложена усовершенствованная модель YOLOv5n, которая эффективно улучшила различные показатели эффективности. Основные выводы следующие:

(1) Замена исходной магистральной сети на FasterNet значительно повысила вычислительную эффективность при сохранении точности. Модель, включающая CBAM, механизм внимания MobileViT и модуль SPPELAN, повысила точность и скорость обнаружения небольших целей, таких как клубника. Включение модуля свёртки C2f дополнительно способствовало облегчению конструкции модели. Эксперименты с абляцией показали значительное улучшение всех показателей модели. Улучшенная модель YOLOv5n продемонстрировала точность обнаружения 98,94%, полноту 99,12%, размер модели 53,22 МБ и значение mAP 99,43%.

(2) В данном исследовании сравнивалась с другими моделями для дальнейшего подтверждения эффективности улучшенной модели YOLOv5n. Согласно экспериментальным результатам, общая производительность улучшенной модели YOLOv5n превзошла производительность других моделей, достигнув точности 98,9%. По сравнению с моделями RCNN, YOLOv3, YOLOv4, YOLOv5n, YOLOv8 и YOLOv9-e, она улучшилась на 71,38%, 9,78%, 4,73%, 14,68%, 14,87% и 19,36% соответственно. Эксперимент показывает, что улучшенная модель YOLOv5n эффективно повысила точность обнаружения на открытом воздухе, удовлетворяя требованиям к обнаружению и распознаванию клубники в сложных условиях.

1. Wang, Y.; Yan, G.; Meng, Q.L.; Yao, T.; Han, J.F.; Zhang, B. DSE-YOLO: Detail semantics enhancement YOLO for multi-stage strawberry detection. Comput. Electron. Agric. 2022, 198, 107057. [Google Scholar] [CrossRef]

2. Zhao, S.Y.; Liu, J.Z.; Wu, S. Multiple disease detection method for greenhouse-cultivated strawberry based on multiscale feature fusion Faster R_CNN. Comput. Electron. Agric. 2022, 199, 107176. [Google Scholar] [CrossRef]

3. Miao, R.H.; Li, G.A.; Huang, Z.B.; Li, Z.W.; Du, H.L. Maturity Detection of Apple in Complex Orchard Environment Based on YOLO v7-ST-ASFF. Trans. Chin. Soc. Agric. Mach. 2024, 55, 219–228. (In Chinese) [Google Scholar]

4. Miao, R.H.; Li, Z.W.; Wu, J.L. Lightweight Maturity Detection of Cherry Tomato Based on Improved YOLO v7. Trans. Chin. Soc. Agric. Mach. 2023, 54, 225–233. (In Chinese) [Google Scholar]

5. Zhang, Z.; Zhou, J.; Jiang, Z.Z.; Han, H.Q. Lightweight Apple Recognition Method in Natural Orchard Environment Based on Improved YOLO v7 Model. Trans. Chin. Soc. Agric. Mach. 2024, 55, 231–242+262. (In Chinese) [Google Scholar]

6. Yuan, J.; Xie, L.W.; Guo, X.; Liang, R.G.; Zhang, Y.G.; Ma, H.T. Apple Leaf Disease Detection Method Based on Improved YOLO v7. Trans. Chin. Soc. Agric. Mach. 2024, 55, 1–9. (In Chinese) [Google Scholar]

7. Song, H.B.; Yang, H.R.; Su, X.W.; Zhou, Y.H.; Gao, X.Y.; Shang, Y.Y.; Zhang, S.J. Application of Image Enhancement Technology Based on Enlighten GAN in Apple Detection in Natural Scenes. Trans. Chin. Soc. Agric. Mach. 2024, 55, 266–279. (In Chinese) [Google Scholar]

8. Yang, Z.Y.; Wang, X.C.; Qi, Z.H.; Wang, D.Z. Recognizing strawberry to detect key points for peduncle picking using improved YOLO v8 model. Trans. Chin. Soc. Agric. Eng. 2024, 40, 167–175. (In Chinese) [Google Scholar]

9. Nan, Y.L.; Zhang, H.C.; Zeng, Y.; Zheng, J.Q.; Ge, Y.F. Intelligent detection of Multi-Class pitaya fruits in target picking row based on WGB-YOLO network. Comput. Electron. Agric. 2023, 208, 107780. [Google Scholar] [CrossRef]

10. Xu, D.F.; Zhao, H.M.; Lawal, O.M.; Lu, X.Y.; Ren, R.; Zhang, S.J. An Automatic Jujube Fruit Detection and Ripeness Inspection Method in the Natural Environment. Agronomy 2023, 13, 451. [Google Scholar] [CrossRef]

11. Du, X.Q.; Cheng, H.C.; Ma, Z.H.; Lu, W.W.; Wang, M.X.; Meng, Z.C.; Jiang, C.J.; Hong, F.W. DSW-YOLO: A detection method for ground-planted strawberry fruits under different occlusion levels. Comput. Electron. Agric. 2023, 214, 108304. [Google Scholar] [CrossRef]

12. Wang, Y.W.; Wang, Y.J.; Zhao, J.B. MGA-YOLO: A lightweight one-stage network for apple leaf disease detection. Front. Plant Sci. 2022, 13, 927424. [Google Scholar] [CrossRef] [PubMed]

13. Bai, Y.F.; Yu, J.Z.; Yang, S.Q.; Ning, J.F. An improved YOLO algorithm for detecting flowers and fruits on strawberry seedlings. Biosyst. Eng. 2024, 237, 1–12. [Google Scholar] [CrossRef]

14. Wu, D.H.; Lv, S.C.; Jiang, M.; Song, H.B. Using channel pruning-based YOLO v4 deep learning algorithm for the real-time and accurate detection of apple flowers in natural environments. Comput. Electron. Agric. 2020, 178, 105742. [Google Scholar] [CrossRef]

15. Wang, D.D.; He, D.J. Channel pruned YOLO V5s-based deep learning approach for rapid and accurate apple fruitlet detection before fruit thinning. Biosyst. Eng. 2021, 210, 271–281. [Google Scholar] [CrossRef]

16. Wang, H.; Xu, X.; Liu, Y.; Lu, D.; Liang, B.; Tang, Y. Real-Time Defect Detection for Metal Components: A Fusion of Enhanced Canny–Devernay and YOLOv6 Algorithms. Appl. Sci. 2023, 13, 6898. [Google Scholar] [CrossRef]

17. Tang, Y.; Qiu, J.; Zhang, Y.; Wu, D.; Cao, Y.; Zhao, K.; Zhu, L. Optimization strategies of fruit detection to overcome the challenge of unstructured background in field orchard environment: A review. Precis. Agric. 2023, 1–37, 1183–1219. [Google Scholar] [CrossRef]

18. Siampour, H.; Nezhad, A.Z. Revealing the Invisible: Imaging Through Non-Radiating Subspace. J. Opt. Photonics Res. 2024, 1, 159–169. [Google Scholar] [CrossRef]

19. Tang, Y.; Zhou, H.; Wang, H.; Zhang, Y. Fruit detection and positioning technology for a Camellia oleifera C. Abel orchard based on improved YOLOv4-tiny model and binocular stereo vision. Expert Syst. Appl. 2023, 211, 118573. [Google Scholar] [CrossRef]

20. Jamal Jumaah, H.; Adnan Rashid, A.; Abdul Razzaq Saleh, S.; Jamal Jumaah, S. Deep Neural Remote Sensing and Sentinel-2 Satellite Image Processing of Kirkuk City, Iraq for Sustainable Prospective. J. Opt. Photonics Res. 2024. [Google Scholar] [CrossRef]

21. Wang, Q.F.; Cheng, M.; Huang, S.; Cai, Z.J.; Zhang, J.L.; Yuan, H.B. A deep learning approach incorporating YOLO v5 and attention mechanisms for field real-time detection of the invasive weed Solanum rostratum Dunal seedlings. Comput. Electron. Agric. 2022, 199, 107194. [Google Scholar] [CrossRef]

22. Jia, X.Y.; Zhao, C.J.; Zhou, J.; Wang, Q.Y.; Liang, X.T.; He, X.; Huang, W.Q.; Zhang, C. Online detection of citrus surface defects using improved YOLOv7 modeling. Trans. Chin. Soc. Agric. Eng. 2023, 39, 142–151. (In Chinese) [Google Scholar]

23. Guo, H.P.; Cao, Y.Z.; Wang, C.S.; Rong, L.R.; Li, Y.; Wang, T.W.; Yang, F.Z. Recognition and application of apple defoliation disease based on transfer learning. Trans. Chin. Soc. Agric. Eng. 2024, 40, 184–192. (In Chinese) [Google Scholar]

24. Su, B.F.; Liu, D.Z.; Chen, Q.F.; Han, D.J.; Wu, J.H. Method for the identification of wheat stripe rust resistance grade using time series vegetation index. Trans. Chin. Soc. Agric. Eng. 2024, 40, 160–170. (In Chinese) [Google Scholar]

25. Tian, Y.N.; Wang, S.H.; Li, E.; Yang, G.D.; Liang, Z.Z.; Tan, M. MD-YOLO: Multiscale Dense YOLO for small target pest detection. Comput. Electron. Agric. 2023, 213, 108233. [Google Scholar] [CrossRef]

26. Rai, N.; Zhang, Y.; Villamil, M.; Howatt, K.; Ostlie, M.; Sun, X. Agricultural weed identification in images and videos by integrating optimized deep learning architecture on an edge computing technology. Comput. Electron. Agric. 2024, 216, 108442. [Google Scholar] [CrossRef]

27. Shi, H.K.; Xiao, W.F.; Zhu, S.P.; Li, L.B.; Zhang, J.F. CA-YOLOv5: Detection model for healthy and diseased silkworms in mixed conditions based on improved YOLOv5. Int. J. Agric. Biol. Eng. 2023, 16, 236–245. [Google Scholar] [CrossRef]

28. Zhu, L.Q.; Li, X.M.; Sun, H.M.; Han, Y.P. Research on CBF-YOLO detection model for common soybean pests in complex environment. Comput. Electron. Agric. 2024, 216, 108515. [Google Scholar] [CrossRef]

29. Zhang, F.; Chen, Z.Z.; Bao, R.F.; Zhang, C.C.; Wang, Z.H. Recognition of dense cherry tomatoes based on improved YOLOv4-LITE lightweight neural network. Trans. Chin. Soc. Agric. Eng. 2021, 37, 270–278. (In Chinese) [Google Scholar]

30. Huang, J.C.; Zhao, X.D.; Gao, F.Z.; Wen, X.; Jin, S.Y.; Zhang, Y. Recognizing and detecting the strawberry at multi-stages using improved lightweight YOLOv5s. Trans. Chin. Soc. Agric. Eng. 2023, 39, 181–187. (In Chinese) [Google Scholar]

31. Liu, M.C.; Chu, Z.Y.; Cui, M.S.; Yang, Q.L.; Wang, J.X.; Yang, H.W. Red Ripe Strawberry Recognition and Stem Detection Based on Improved YOLO v8—Pose. Trans. Chin. Soc. Agric. Mach. 2023, 54, 244–251. (In Chinese) [Google Scholar]

32. Xie, R.L.; Zhu, Y.J.; Luo, J.; Qin, G.F.; Wang, D. Detection algorithm for bearing roller end surface defects based on improved YOLOv5n and image fusion. Meas. Sci. Technol. 2023, 34, 045402. [Google Scholar] [CrossRef]

33. Chen, J.R.; Kao, S.H.; He, H.; Zhuo, W.P.; Wen, S.; Lee, C.H.; Gary Chan, S.H. Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks. In Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada, 17–24 June 2023; pp. 1–15. [Google Scholar]

34. Mehta, S.; Rastegari, M. MobileViT: Lightweight, General-purpose, and Mobile-friendly Vision Transformer. arXiv 2022, arXiv:2110.02178. [Google Scholar]

35. Woo, S.; Park, J.; Lee, J.Y.; Kweon, I.S. CBAM: Convolutional Block Attention Module. In Computer Vision—ECCV 2018; Springer: Cham, Switzerland, 2018; pp. 3–19. [Google Scholar]

Перевод статьи «Research on Lightweight Algorithm Model for Precise Recognition and Detection of Outdoor Strawberries Based on Improved YOLOv5n» авторов Cao X, Zhong P, Huang Y, Huang M, Huang Z, Zou T, Xing H., оригинал доступен по ссылке. Лицензия: CC BY. Изменения: переведено на русский язык