Опубликовано 13.11 13:05

Модель обнаружения плодов груши в естественной среде на основе облегченной архитектуры Transformer

В данной статье предлагается модель для обнаружения плодов груши в естественной среде, основанная на облегченной архитектуре Transformer и созданная на базе модели RT-DETR.

Параллельно был создан набор данных о плодах сорта Синьли №7 в различных условиях окружающей среды. Во-первых, на базе исходной модели бэкбон был заменен на облегченную сеть FasterNet. Во-вторых, был использован улучшенный и эффективный механизм внимания HiLo, обеспечивающий экстракцию информации высоких и низких частот, что позволило облегчить модель и повысить способность извлечения признаков сорта Синьли №7 в сложных условиях. Модуль CCFM был реконструирован на основе метода Slim-Neck, а функция потерь исходной модели была заменена на функцию потерь механизма детектирования малых целей Shape-NWD для усиления возможности извлечения признаков сетью. Сравнительные испытания моделей RT-DETR с YOLOv5m, YOLOv7, YOLOv8m, YOLOv10m и Deformable-DETR показали, что RT-DETR способна достичь хорошего баланса между легкостью модели и точностью распознавания по сравнению с другими моделями, а также полностью превзойти точность детектирования современного продвинутого алгоритма YOLOv10, что позволяет реализовать быстрое обнаружение плодов Синьли №7. В данной статье точность, полнота и средняя точность улучшенной модели достигли 93,7%, 91,9% и 98% соответственно, а по сравнению с исходной моделью количество параметров, объем вычислений и объем памяти для весов сократились на 48,47%, 56,2% и 48,31% соответственно. Данная модель обеспечивает техническую поддержку для детектирования плодов Синьли №7 и развертывания модели в сложных условиях окружающей среды.

Груша является одним из основных фруктов в Китае. История ее выращивания в Китае насчитывает более 3000 лет. Ее площадь возделывания и объемы производства занимают первое место в мире, и она известна как король фруктов в Китае. Производство груш в Китае имеет положительную тенденцию к росту, а объем экспорта всегда превышал 500 000 тонн, что играет важную роль в аграрной экономике Китая. Уровень механизации грушевой промышленности низок, а процесс сбора требует большого количества труда, составляя 35–45% от общего объема трудозатрат [ 1 ], а стоимость сбора составляет 50–70% от всех звеньев [ 2 ]. Общий процесс интеллектуального и механизированного сбора можно в целом разделить на две части: одна заключается в быстрой идентификации плодов груши, а другая — в точном и без потерь захвате идентифицированных плодов [ 3 ]. Однако из-за влияния изменений освещенности, перекрытия ветвей и листьев, перекрытия плодов и изменения расстояния между ними, модель в реальных условиях сбора урожая подвержена таким проблемам, как трудности идентификации и низкая скорость обнаружения. Поэтому быстрое и точное определение плодов груши стало основной проблемой автоматического сбора урожая.

Обнаружение целей в реальном времени является важной технологической областью, которая широко используется во всех сферах жизни. Интеграция технологии визуального распознавания в мировое сельское хозяйство может осуществлять мониторинг в реальном времени и точный анализ различных факторов в сельскохозяйственной среде, тем самым значительно повышая эффективность, качество и устойчивость сельскохозяйственного производства. В сельскохозяйственной области это воплощено в определении качества лесных ягод [ 4 ], обнаружении разведения животных [ 5 ], обнаружении вредителей растений [ 6 ], обнаружении целей фруктов [ 7 ], классификации плотности фруктов [ 8 ] и сегментации примеров садовых дорог [ 9 ]. Существующие методы обнаружения целей в реальном времени обычно основаны на архитектуре CNN, наиболее известной из которых является модель YOLO [ 10 ], поскольку она разумно балансирует между скоростью и точностью. Тан и др. [ 11 ] предложили метод обнаружения объектов с ароматной грушей на основе улучшенного YOLOv8n. Взяв YOLOv8n в качестве базовой модели, он использовал модуль остаточной свертки для оптимизации C2 f для слияния признаков, оптимизировал Spatial Pyramid Pooling Fast (SPPF) до Simplified Spatial Pyramid Pooling Fast (simSPPF), ввел свертку PConv и использовал функцию потерь Inner-CIoU. Предлагается совместное использование весовых параметров для достижения облегченной головки обнаружения. Средняя точность самостоятельно построенного набора данных Sweet Pear составляет 94,7%, а время рассуждения исходной модели на самостоятельно построенном наборе данных составляет 62,9 мс. Чжэн и др. [ 12 ] разработали облегченную модель обнаружения цели груши M-YOLOv7-SCSN+F. Метод улучшения данных, основанный на преобразовании Фурье, генерировал новые данные изображения путем анализа информации частотной области изображения и реконструкции компонентов амплитуды изображения, тем самым улучшая способность модели к обобщению. Лю и др. [ 13 ] предложили метод обнаружения, основанный на MAE-YOLOv8 для небольших объектов в реальной сложной среде фруктового сада. Заменив сеть пирамид признаков, авторы повысили точность обнаружения небольших целевых объектов. Чтобы смягчить проблему пропусков обнаружения и неточного позиционирования, вызванных перекрытием, в качестве функции потерь регрессии вводится минимальное расстояние между точками. Чен и др. [ 14] предложили усовершенствованный метод многокритериальной сегментации на основе YOLOv8 для яблони на стадии зарождения и объединили усовершенствованные сверточные сетевые модули (ConvNeXt V2, Multi-Scale Dilated Attention (MSDA) и Distribution Shifting Convolution (DSConv)) для улучшения YOLOv8 и повышения точности сегментации органов в сложных природных средах. Вышеуказанные модели показывают определенные преимущества в точности и скорости, но модели YOLO обычно требуют подавления немаксимума (NMS) для постобработки, а введение гиперпараметров делает точность и скорость модели нестабильными, замедляя скорость рассуждений модели [ 15 ]. Кроме того, необходимость выбора разумных пороговых значений NMS препятствовала развитию обнаружения объектов в реальном времени.

DETR (Detection Transformer) [ 16 ] был впервые предложен Facebook, а архитектура Transformer [ 17 ] была введена в сеть обнаружения целей, рассматривая обнаружение как проблему прогнозирования коллекции без необходимости генерации областей-кандидатов и шагов постобработки. В последние годы применение Transformer для обнаружения целей в реальном времени стало важным направлением исследований в области компьютерного зрения. Внедрение Transformer обеспечивает новый способ мышления для традиционных сверточных нейронных сетей (CNN). Он особенно хорош, когда дело доходит до обработки долгосрочных зависимостей, глобальной контекстной информации и повышения выразительности модели. Хотя DETR очень успешен, скорость его сходимости обучения низкая, а его производительность обнаружения для небольших целей плохая. Поэтому RT-DETR [ 18 ], сквозной детектор целей в реальном времени, основанный на архитектуре Transformer, предоставляет метод для решения таких проблем. Гибридный кодер DETR вводит многомасштабные признаки для ускорения сходимости обучения и повышения производительности [ 19 ], но резко возросшая длина последовательности по-прежнему приводит к тому, что кодер становится вычислительным узким местом. Эффективный гибридный кодер разработан в RT-DETR для замены оригинального кодера Transformer. Многомасштабные признаки могут быть быстро обработаны путем кросс-масштабного слияния и разделения внутримасштабного взаимодействия. Кодер может эффективно обрабатывать признаки разных масштабов, значительно снижая вычислительную нагрузку кодера и значительно повышая скорость рассуждений. Чтобы уменьшить сложность запроса объекта, DETR использует оценку уверенности для выбора наилучшего признака в кодере для инициализации запроса объекта [ 20 , 21 ]. Однако текущий выбор запроса приводит к неопределенности в признаке выбора, что влияет на производительность модели. Поэтому RT-DETR (полное название RT-DETR приведено в Приложении A, Таблица A1 ) предлагает выбор запроса с учетом IoU в декодере. Благодаря использованию ограничений IoU в процессе обучения, декодеру предоставляются более качественные начальные запросы объектов, а точность обнаружения повышается. Чжао и др. [ 22 ] предложили облегченную модель распознавания состояния уха томата черри на основе усовершенствованного преобразователя. Замена структуры ствола и добавление адаптивного модуля слияния деталей значительно сокращают количество вычислений и параметры модели, а также гарантируют среднюю точность 90%, при этом достигается низкий объем вычислений и быстрое обнаружение. Ху и др. [ 23]] предложили улучшенную модель обнаружения RT-DETR, RIC-DETR, в которой ResNet18 был выбран в качестве магистральной сети признаков, а обратный остаточный мобильный модуль был введен, в то время как были выполнены второе нововведение и улучшение. При условии, что средняя точность сохранялась на уровне 97,2%, вычисления, количество параметров и объем памяти значительно сокращались. Ли и др. [ 24 ] предложили модель обнаружения цели курицы с высокой точностью и сильным обобщением на основе улучшенного преобразователя обнаружения в реальном времени (RT-DETR) Efficient Multi-Scale-Conv Detection Transformer (EMSC-DETR). Чтобы решить проблему легкой потери мелких целевых признаков, была введена модель табуляции данных исследования (SDTM). Модуль значительно повышает вычислительную эффективность преобразователя, при этом mAP 0,5 составляет 98,6%. Ли и др. [ 25 ] предложили сквозной полуконтролируемый метод обнаружения объектов на основе DEtection TRANSformer (DETR), который упростил процесс постобработки без необходимости подавления немаксимальных значений (NMS) и использовал более продвинутую стратегию распределения двоичных соответствий. Предлагаемый метод использовал всего 5% от общего объема данных для достижения 74,1% mAP. Хотя производительность RT-DETR несколько уступает производительности YOLO при обнаружении малых целей, он превосходит по скорости и точности существующие детекторы реального времени аналогичного масштаба.

Стремясь к проблемам низкой точности и медленной скорости обнаружения груш в реальной среде, а также сложного обнаружения мелких целевых фруктов в долгосрочной перспективе, в этом исследовании была улучшена и разработана модель обнаружения груш в естественной среде на основе RT-DETR. Во-первых, ResNet-r18 была заменена на облегченную сеть FasterNet. Во-вторых, HiLo, эффективный механизм внимания для извлечения высоко- и низкочастотной информации, используется для улучшения модуля взаимодействия признаков на основе внимания (AIFI), который обеспечивает более высокую производительность и более высокую скорость. Новый сверточный GSConv введен в компактный модуль слияния сверточных признаков (CCFM) для снижения сложности модели и поддержания высокой точности распознавания. Наконец, функция потерь в RT-DETR заменена на Shape-IoU и используется в сочетании с механизмом обнаружения мелких целей на основе нормализованного расстояния Вассерштейна (NWD) для дальнейшего повышения эффективности обнаружения мелких целевых груш.

2.1. Создание наборов данных

2.1.1. Получение изображения

Данные изображений были собраны на современной демонстрационной базе грушевого сада компании Hebei Wokang Agricultural Science and Technology Co., Ltd., города Синтай, провинции Хэбэй, Китай. Собранный сорт груши был Xinli No. 7, а время сбора - с июля по август 2024 года, в период созревания и сбора плодов. Параметры характеристик плода Xinli No. 7: форма овальная, плод от среднего до крупного, средний вес одного плода составляет 185,85 г, продольный диаметр - 72,61 мм, а поперечный диаметр - 71,73 мм. Этот сорт обладает характеристиками раннего созревания и длительного естественного периода сбора урожая, а также устойчивостью к болезням и насекомым-вредителям и устойчивостью к хранению [ 26 ]. Для скрещивания китайских груш редко удается объединить эти четыре прекрасных признака в одной плодоносящей особи одновременно, что является инновацией зародышевой плазмы в селекции китайских груш.

В ходе полевых исследований было установлено, что расстояние между растениями в современном грушевом саду составляет 1–2 м, расстояние между рядами — 4 м, высота деревьев — 3–4 м, а основным режимом выращивания является посадка с широкими рядами. Если использовать роботизированную руку JAKA C12 в качестве собирающей, радиус работы собирающей руки составляет 1327 мм, поэтому предусмотрены два расстояния съемки: для съемки с близкого расстояния (100–500 мм) и для съемки с большого расстояния (700–1350 мм). Чтобы приблизить распределение собранных данных по времени к фактическому времени сбора плодов фермерами, время съемки этого набора данных было выбрано в два периода: с 7:00 до 12:00 и с 13:00 до 19:00. В качестве оборудования для съемки использовались iPhone 13, Honor Magic 3 pro и бинокулярные камеры ZED 2i, которые сохранялись в формате jpg. В ходе эксперимента было собрано 7468 изображений плодов сорта Синьли № 7 в различных условиях и сценах. Набор данных был классифицирован по условиям ближнего зрения, включая 4001 изображение с близкого расстояния и 3467 изображений с дальнего расстояния. В зависимости от условий освещения были классифицированы 3357 изображений при слабом освещении, 1890 изображений с яркой подсветкой и 2221 изображение с подсветкой сзади. При сборе данных были всесторонне учтены факторы, влияющие на сбор данных, такие как перекрытие ветвей и листьев, перекрытие плодов, различные расстояния и условия освещения. Часть собранных изображений представлена на рисунке 1 .

Рисунок 1. Изображение плода сорта Xinli № 7 в разных условиях окружающей среды. ( a ) Покрытие ветвей и листьев. ( b ) Крупный план при прямом освещении. ( c ) Крупный план при обратном освещении. ( d ) Наложение плодов. ( e ) Дальний план при прямом освещении. ( f ) Дальний план при обратном освещении.

2.1.2 Создание набора данных

Для повышения эффективности аннотирования была применена полуавтоматическая система аннотирования YOLO [ 27 ]. Сначала labelImg использовался для аннотирования 2000 изображений фруктов Xinli № 7 в разных сценах, а модель YOLOv7 применялась для обучения аннотированных изображений с целью получения файла оптимального веса. Затем полуавтоматическая аннотация была выполнена для оставшихся изображений фруктов Xinli № 7. Наконец, labelImg использовался для ручной корректировки неправильных и отсутствующих меток в результате аннотирования.

После ручной и полуавтоматической аннотации было получено в общей сложности 7468 XML-файлов Xinli № 7, которые были случайным образом разделены в соотношении 8:1:1 для формирования обучающего набора, проверочного набора и тестового набора, где обучающий набор содержал 5974 изображения, проверочный набор и тестовый набор содержали по 747 изображений каждый.

2.2 Экспериментальный метод

2.2.1 Индекс выбора обнаружения цели

В этой статье точность (P, %), полнота (R, %), средняя точность (mAP, %), количество кадров в секунду (FPS, кадров/с), количество операций с плавающей точкой в секунду (FLOPs, G), количество параметров (Params, M) и размер модели (МБ) используются в качестве индикаторов оценки модели, а P, R и mAP используются для измерения точности обнаружения модели [ 28 ], FPS используется для измерения скорости обнаружения модели, легкость модели измеряется количеством параметров и объемом вычислений, а стоимость развертывания оценивается с использованием пространства, занимаемого моделью.

2.2.2 Обучение сетевых моделей

В данном исследовании используется операционная система Intel core i7-14700 KF Win11, основная частота составляет 3,4 ГГц, оперативная память составляет 32 ГБ, и установлена видеокарта Nvidia GeForce RTX 4070 Ti SUPER. Эксперименты проводились на платформе Pycharm, для построения окружения был настроен фреймворк глубокого обучения PyTorch, а для написания алгоритма использовался язык Python. Гиперпараметры модели были установлены следующим образом: изображение по умолчанию - 640 × 640 пикселей, количество циклов обучения модели было установлено равным 200, количество обрабатываемых образцов в каждом пакете было установлено равным 8, количество рабочих потоков при загрузке данных было установлено равным 4, а начальная скорость обучения была установлена равной 0,0001. Все остальные гиперпараметры обучения использовались в качестве значений по умолчанию, и все тесты модели проводились в том же окружении.

В данной статье совершенствуется модель обнаружения груш в естественной среде на основе сквозного детектора целей в реальном времени RT-DETR на базе архитектуры Transformer. Во-первых, основа исходной модели заменяется облегчённой сетью FasterNet. Во-вторых, для улучшения взаимодействия признаков на основе внимания (AIFI) используется HiLo, эффективный механизм внимания, способный извлекать высоко- и низкочастотную информацию, а в модуль слияния признаков на основе внимания (CCFM) вводится свертка GSConv. Наконец, функция потерь исходной модели заменяется функцией потерь механизма обнаружения малых целей Shape-NWD. Производительность модели повышается. Структурная схема сети улучшенной модели представлена на рисунке 2 .

Рисунок 2. Усовершенствованная структурная схема сетевой модели.

3.1. Обнаружение замены магистральной сети модели

Чтобы сделать улучшенную модель RT-DETR ближе к практическим приложениям, в этой статье повторно изучается обычно используемая модель магистральной сети и обнаруживается, что большинство моделей сосредоточены на сокращении операций с плавающей точкой (FLOP), но сокращение FLOP не обязательно означает сокращение той же горизонтальной задержки, как показано в формуле (1). Основная причина заключается в том, что операции с плавающей точкой в секунду (FLOPS) должны быть оптимизированы одновременно для достижения действительно низкой задержки. Поэтому в этой статье представлена легкая сеть FasterNet в качестве магистральной сети для извлечения признаков и представлен простой, но быстрый и эффективный сверточный PConv, который может извлекать пространственные признаки более эффективно, одновременно сокращая избыточные вычисления и доступ к памяти. Блок FasterNet показан в синем пунктирном поле на рисунке 2 .

По сравнению с традиционной сетью ResNet, сеть FasterNet может значительно сократить количество параметров и объем вычислений модели, когда скорость точности, скорость полноты и средняя точность немного уменьшаются [ 29 ], реализуя небольшой вес модели, что более способствует развертыванию на роботе для сбора груш. В магистральной сети FasterNet есть четыре иерархических этапа, каждому из которых предшествует слой внедрения (размер шага 4, Conv4×4) или слой слияния (размер шага 2, Conv2×2) для пространственной субдискретизации и расширения числа каналов, соответственно [ 30 ]. Для того чтобы полностью и эффективно использовать информацию из всех каналов, каждый направленный остаточный блок состоит из слоя PConv на переднем конце и двух слоев PWConv на заднем конце, в котором пакетная нормализация (BN) помещается посередине двух слоев PWConv. Функция активации выпрямленного линейного блока (ReLU) используется для улучшения входных характеристик изображения фрукта Xinli № 7, тем самым повышая производительность модели и скорость обучения.

3.2. Внедрение усовершенствованного эффективного механизма внимания HiLo

Чтобы решить проблему огромных вычислительных затрат на пропускную способность изображений с высоким разрешением в исходной модели RT-DETR, особенно в этой задаче, был введен новый эффективный механизм внимания HiLo, а масштабированное скалярное произведение внимания ветви внимания было повторно улучшено для адаптации двух высокочастотных и низкочастотных ветвей внимания. Один путь кодирует высокочастотные взаимодействия путем масштабирования скалярного произведения внимания и карт признаков относительно высокого разрешения, в то время как другой кодирует низкочастотные взаимодействия с помощью скалярного произведения внимания и пониженной дискретизации признаков и, наконец, включает улучшенные механизмы внимания в модуль взаимодействия признаков в масштабе. Механизм внимания HiLo использует два вида эффективного внимания для разделения высоких и низких частот в графе признаков [ 31 ], устраняя огромную вычислительную нагрузку различных более низких частот в стандартных признаках слоя Multi-head Self-Attention (MSA).

По сравнению с существующими стандартными механизмами внимания, такими как механизмы собственного внимания, модели CBAM или Transformer, механизмы внимания HiLo улучшают представление и вычислительную эффективность модели за счет более сложной обработки и слияния высокоуровневой и низкоуровневой информации. Как показано на рисунке 3 , механизм внимания HiLo делит слой MSA на два компонента: один используется для кодирования высокочастотной ветви внимания Hi-Fi с локальным механизмом собственного внимания и картой признаков высокого разрешения, а другой используется для глобального кодирования низкочастотной ветви внимания Lo-Fi с помощью признаков подвыборки. Выход каждого механизма внимания HiLo представляет собой серию высокочастотных ветвей внимания и низкочастотных ветвей внимания, как показано в формуле (2). Таким образом, эффективность извлечения информации [ 32 ] эффективно улучшена, что является более эффективным, чем стандартный MSA.

Рисунок 3. Структурная диаграмма высокоэффективного механизма внимания HiLo.

HiLo распределяет Hi-Fi и Lo-Fi по той же структуре, что и стандартный слой Multi-head Self-Attention (MSA). Для более выгодной схемы распределения одинаковое количество магнитных головок в MSA делится на две группы, как показано в формуле (3), а коэффициент деления равен: где (1 −α) N h головки используются для Hi-Fi, других α Nh для Lo-Fi используются N h головок, и каждая архитектура внимания менее сложна, чем стандартная MSA, поэтому общая структура механизма внимания HiLo гарантирует модель низкой сложности с высокой пропускной способностью для изображений с высоким разрешением.

3.3. Реконструкция модуля кросс-масштабного слияния признаков на основе метода «тонкой шеи»

Чтобы и дальше соответствовать требованиям обнаружения в реальном времени робота, собирающего груши, в этом исследовании был введен облегченный сверточный GSConv в модуль слияния признаков Cross-Scale (CCFM), который может одновременно использовать локальную и глобальную информацию и реализовывать слияние этой информации разного масштаба. Это может еще больше снизить сложность модели, сохраняя точность и решая проблему скорости вычисления прогноза в сверточных нейронных сетях. Как показано на рисунке 4 ниже, GSConv сначала вводит обычную сверточную субдискретизацию, затем использует глубокую свертку DWConv для объединения выходных результатов двух CONV и, наконец, выполняет операцию перемешивания распределения данных для объединения соответствующих номеров каналов двух предыдущих сверток. Следовательно, когда пространственная информация входного изображения постепенно передается в канал, свертка GSConv позволяет избежать явления частичной потери семантической информации, вызванной пространственным сжатием и расширением канала каждого изображения признаков [ 33 ].

Рисунок 4. Схема структуры модуля GSConv.

После внедрения облегчённой свертки GSConv мы продолжаем внедрять модули VoV-GSCSP, определяющие узкое место GS и межэтапные частичные сетевые модули, которые предназначены для дальнейшего повышения эффективности использования признаков и производительности сети. Предлагается улучшенная структура преобразования модуля VoV-GSCSP, показанная на рисунке 5. Благодаря своей простой структуре этот модуль состоит только из облегчённой свертки GSConv и узкого места GS, что требует меньшего количества оборудования для обучения при сохранении высокой производительности.

Рисунок 5. Узкое место GS и кросс-ступенчатые сетевые модули VoV-GSCSP.

Таким образом, этот кросс-масштабный модуль Fusion на основе архитектуры Slim-Neck больше соответствует требованиям данной статьи по облегченной модели и низким затратам на вычисления и может обеспечить значительное повышение точности, удовлетворяя при этом условиям развертывания мобильных терминалов.

3.4. Функция потери механизма обнаружения малых целей Shape-NWD

В алгоритме RT-DETR функция потерь регрессии кадра прогнозирования использует GIoU. Когда два кадра прогнозирования имеют одинаковую высоту и ширину и находятся в одной горизонтальной плоскости, GIoU вырождается в функцию потерь IoU, что приводит к проблеме медленной сходимости и неточной регрессии. Для решения вышеуказанных проблем в данном исследовании используется функция потерь shape-IoU вместо функции потерь GIoU, используемой в RT-DETR [ 34 ]. Этот метод позволяет вычислять потери, фокусируясь на форме и масштабе самого ограничивающего прямоугольника, что повышает точность регрессии ограничивающего прямоугольника. На рисунке 6 представлена схематическая диаграмма параметров Shape-IoU.

Рисунок 6. Принципиальная схема параметров Shape-IoU.

Формулу Shape-IoU можно вывести из рисунка 6 и формул (4)–(6).

Где долговая расписка фактическое отношение кроссовера, 𝑤 𝑤 и ℎ ℎ представляют собой весовые коэффициенты в горизонтальном и вертикальном направлениях соответственно, а их значения связаны с формой рамы ГТ. Потери формы IoU определяются формулой (7).

В ходе эксперимента метод обнаружения малых целей NWD [ 35 ] был использован для обнаружения цели на фрукте сорта Синьли № 7. Механизм обнаружения малых целей NWD и функция потерь Shape-IoU были объединены. В данном эксперименте была выбрана стратегия с 50% каждого. Как показано в формуле (8), функция потерь механизма обнаружения малых целей Shape-NWD может не только повысить точность обнаружения цели, но и обеспечить скорость обнаружения модели.

4.1 Сравнительный тест производительности модели RT-DETR

Для выбора оптимального файла модели была проведена сравнительная оценка производительности магистральных сетей ResNet-r18, ResNet-r34 и ResNet-r50, обычно используемых в серии ResNet, при одинаковых условиях. В качестве основных показателей оценки были взяты точность, полнота, mAP 0.5 , параметры, FLOPs, размер модели и FPS. Результаты испытаний представлены в таблице 1 ниже. При условии, что точность, полнота и среднее значение точности не различаются, файл модели RT-DETR-r18 соответствует требованиям быстрого обнаружения груш, а также требованиям к малому размеру. Размер сгенерированной модели веса составляет 38,5 МБ, что более подходит для использования на мобильной стороне сборочного оборудования.

Таблица 1. Сравнение производительности моделей RT-DETR.

4.2 Сравнительный анализ различных алгоритмов

Для сравнения производительности набора данных Xinli № 7 использовались модели YOLOv5m, YOLOv7, YOLOv8m, YOLOv10m, Deformable-DETR и RT-DETR-r18. Результаты испытаний представлены в таблице 2. Согласно результатам, представленным в таблице 2 ниже, видно, что количество параметров и объем вычислений, отображаемых YOLOv5m, невелики, но не соответствуют требованиям быстрого обнаружения груши. Хотя YOLOv7 обеспечивает высокую точность распознавания, объем модели велик, что не соответствует требованиям облегченной модели. Хотя YOLOv8m и YOLOv10m обладают высокой точностью обнаружения, они не соответствуют требованиям облегченных моделей из-за большого объема вычислений. По сравнению с моделью YOLOv8m, RT-DETR-r18 сокращает количество параметров и объём вычислений на 5,97 млн и 21,4 гигабайта, повышает среднюю точность на 0,8% и сокращает объём памяти весов на 11,1 МБ. По сравнению с моделью YOLOv10m, RT-DETR-r18 превосходит YOLOv10m по точности, полноте и средней точности, хотя объём памяти параметров и весов увеличился на 3,42 млн и 6,6 МБ, объём вычислений уменьшился на 6,1 гигабайта, а частота кадров увеличилась на 5,28 кадр/с.

Таблица 2. Анализ результатов сравнения различных алгоритмов.

Deformable-DETR значительно отстаёт от RT-DETR по всем показателям оценки, представленным в данной статье, особенно по количеству параметров, объёму вычислений и объёму памяти: на 20,13 МБ, 138,7 Гб и 47,5 МБ больше, чем у RT-DETR. Тем не менее, RT-DETR обеспечивает хороший баланс между лёгкостью модели и точностью распознавания, а скорость передачи кадров достигает 75,7 кадров в секунду, что соответствует потребностям практического применения и обеспечивает точное обнаружение фрукта сорта «Синьли № 7» в режиме реального времени.

4.3. Исследование абляции

Тест абляции является важным средством оценки эффективности улучшения модели. Для проверки валидности модулей и функций потерь, предложенных в данной статье, был разработан и проведён тест абляции в той же экспериментальной среде, следуя принципу метода контрольных переменных. Как показано в таблице 3 , тест 1 представляет показатели эффективности RT-DETR до улучшения. Благодаря последующим улучшениям теста можно визуально наблюдать сравнение ключевых показателей оценки точек улучшения. Результаты показывают, что идентификационная эффективность модели улучшилась по сравнению с исходной моделью.

Таблица 3. Результаты абляции RT-DETR на основе набора данных Xinli No. 7.

Из эксперимента 2 в Таблице 3 видно , что после внедрения облегченной сети FasterNet (FN) в качестве базовой сети для извлечения признаков количество параметров и объем вычислений модели сократились на 45,6% и 50,26% соответственно, а также значительно сократилась память весов, что обеспечивает легкость модели. Это улучшение объясняется простым и эффективным извлечением пространственных признаков изображения фрукта Xinli № 7 после внедрения свертки PConv, сокращением вычислительной избыточности и доступа к памяти, а также тем, что введение новой свертки может поддерживать высокий уровень FLOPs при снижении FLOPS. Во-вторых, после внедрения HiLo, улучшенного и эффективного механизма внимания для извлечения высоко- и низкочастотной информации, в эксперименте 3 точность распознавания алгоритма значительно улучшилась, при этом скорость отзыва, точность и средняя точность увеличились на 1%, 2,8% и 1% соответственно, в то время как количество параметров, объем вычислений и память весов остались практически неизменными. Это улучшение обусловлено механизмом внимания. HiLo использует два эффективных типа внимания для разделения высоких/низких частот на карте признаков, уточняя высоко/низкочастотные признаки и связывая их путем захвата мелких признаков высоко/низкочастотного изображения фрукта Xinli № 7 с помощью высокочастотного внимания (Hi-Fi) и низкочастотного внимания (Lo-Fi). Более того, в эксперименте 4 метод Slim-Neck (SN) использовался для реконструкции модуля Cross-Scale Feature Fusion Module (CCFM). Хотя точность была немного снижена, весовая память и вычислительные затраты были уменьшены до 19,9 МБ и 25,1 ГБ, соответственно, поскольку GSConv использовался для замены свертки Conv. Поскольку структура модуля VoV-GSCSP улучшена и преобразована, структура модели стала простой и эффективной, а одновременное значение скорости полноты и среднего значения точности немного улучшились.

Наконец, в эксперименте 5 функция потерь была заменена функцией потерь, реализованной в механизме обнаружения малых целей Shape-NWD. Благодаря усовершенствованию вышеуказанного модуля точность распознавания модели непрерывно повышается. В конечном итоге, точность, полнота и средняя точность улучшенной модели увеличились на 4%, 1,8% и 1,4% соответственно по сравнению с исходной моделью в эксперименте 1.

После испытания на абляцию все четыре модуля в этой статье эффективны, а средняя точность улучшенной модели достигает 98%, что на 9,7% и 0,77% выше, чем 88,3% и 97,23% в предыдущей литературе по моделям обнаружения плодов груши [ 11 , 12 ] соответственно, что показывает передовые возможности и применимость улучшенной модели в этой статье.

На рисунке 7 показано влияние исходной и улучшенной моделей на обнаружение цели плода сорта Xinli № 7 при различных условиях сценария. Как модель RT-DETR, так и улучшенная модель могут точно идентифицировать цель плода сорта Xinli № 7 на изображении при близком обзоре с фронтальной подсветкой, но улучшенная модель может обнаруживать пропущенные плоды в различной степени под ветвями и листьями, при близком обзоре с задней подсветкой, при перекрытии плодов, при дальнем обзоре с передней подсветкой и при дальнем обзоре с задней подсветкой, синие квадраты, пропущенные из-за окклюзии плодов на рисунках 7 a, f, и синие корзины, пропущенные из-за окклюзии ветвей и листьев на рисунках 7 c–e. Более того, улучшенная модель имеет более высокую достоверность в различных условиях. Как показано на рисунке 7 b, достоверность плода, обнаруженная улучшенной моделью, на 17% выше, чем у RT-DETR для плода сорта Xinli № 7, то есть при перекрытии плодов. Результаты испытаний показывают, что усовершенствованная модель обеспечивает лучший эффект обнаружения и большую уверенность в сложной среде с ветвями и листьями, перекрытием плодов и отраженным светом вблизи и вдали, а также соответствует требованиям к точности распознавания робота для сбора фруктов Xinli № 7.

Рисунок 7. Результаты обнаружения плодовых целей Xinli No.7 в различных условиях. ( a ) Покрытие ветвей и листьев. ( b ) Крупный план с передним светом. ( c ) Крупный план с задним светом. ( d ) Наложение плодов. ( e ) Удаленный план с передним светом. ( f ) Удаленный план с задним светом.

4.4. Построение модели определения градации

Улучшенная модель в этой статье протестировала плод сорта Xinli № 7 в 6 типичных условиях, и результаты испытаний показаны в Таблице 4 ниже. Как видно из результатов в таблице, существует большая разница в точности распознавания между скоростью полноты и скоростью точности при близком виде с фронтальным светом. Причина этого результата заключается в том, что данные, собранные при близком виде с фронтальным светом, невелики, и модель не может быть полностью обучена и проверена, и ее трудно обеспечить обобщение. Другая причина заключается в том, что характеристики цвета и формы плода сорта Xinli № 7 недостаточно выражены при близком виде с фронтальным светом, что позволяет легко спутать внешний вид ветвей и листьев, что приводит к пропуску некоторых плодов в окружающей среде. Модель показала хорошую способность обнаружения в среде с ближней подсветкой, окклюзией ветвей и листьев и перекрытием плодов. Эффект обнаружения плода груши при дальнем виде с фронтальным светом особенно наилучший, а скорость полноты, скорость полноты и средняя точность достигли хорошего баланса. Полученный результат позволяет утверждать, что улучшенная модель соответствует требованиям к расстоянию распознавания, предъявляемым к роботизированной руке, собирающей груши, описанным в данной статье. Независимо от типичной среды сбора груш, средняя точность улучшенной модели оказалась самой низкой – 98,4%, что обеспечивает точную идентификацию груш сорта «Синьли № 7» в естественной среде.

Таблица 4. Результаты усовершенствованной модели обнаружения плодов груши в различных средах.

Что касается построения набора данных, то хотя в этой статье всесторонне рассмотрены факторы влияния, такие как перекрытие ветвей и листьев, перекрытие плодов, различные расстояния и условия освещенности, в ней не был построен разнообразный набор данных о плодах сорта Xinli № 7 в сложных условиях окружающей среды в разных грушевых садах в разных регионах, а также не было построено наборов данных о других сортах груш. Поэтому при последующем построении набора данных можно всесторонне учесть вышеуказанные требования. Продолжайте повышать устойчивость и обобщение модели для обнаружения плодов груши. Что касается ограничений, модель в этой статье была обучена и применена только на экспериментальном оборудовании и в среде, и на более поздней стадии ее можно адаптировать к другим аппаратным устройствам, таким как ноутбуки, смартфоны или встраиваемые устройства. Также необходимо обеспечить стабильную работу в экстремальных условиях окружающей среды с ограниченными вычислительными ресурсами и снижающимся качеством данных для проверки адаптивной способности и задержки улучшенной модели. В целом модель обнаружения груш с помощью применения технологий глубокого обучения и компьютерного зрения может значительно повысить эффективность сельского хозяйства, безопасность пищевых продуктов и управление цепочками поставок, способствовать развитию точного земледелия и сыграть важную роль в обеспечении устойчивости сельскохозяйственной отрасли.

В будущем практическом применении мы продолжим изучать, как развернуть алгоритм модели на мобильной части оборудования для сбора плодов груши и интегрировать отладку с манипулятором робота, шасси устройства для сбора и конечным эффектором, чтобы достичь долгосрочной цели автоматического и неразрушающего сбора плодов груши [ 3 ].

(1) На основе модели сквозного целевого детектора реального времени RT-DETR архитектуры Transformer в данной статье разработана модель обнаружения груш в естественной среде на основе облегченной архитектуры Transformer, направленная на решение проблем низкой точности обнаружения, низкой скорости и сложности обнаружения мелких целевых груш в реальной среде. Точность, полнота и средняя точность модели достигают 93,7%, 91,9% и 98% соответственно, а количество параметров, объем вычислений и объем памяти для хранения веса достигают 10,24 МБ, 25,1 Гб и 19,9 МБ соответственно. Таким образом, эта модель не только обеспечивает высокую точность распознавания, но и соответствует требованиям для внедрения в автоматизированные роботы для сбора груш, устройства для измерения фруктов и мобильные терминалы автоматических сортировочных систем.

(2) Были разработаны сравнительные тесты производительности моделей YOLOv5m, YOLOv7, YOLOv8m и YOLOv10m, Deformable-DETR и RT-DETR-r18 на наборе данных Xinli № 7. Для оценки самостоятельно созданного набора данных фруктов Xinli № 7 были использованы три комплексных индекса оценки: лёгкость модели, точность распознавания и скорость обнаружения. Результаты показывают, что модель RT-DETR-r18 обеспечивает хороший баланс между лёгкостью модели и точностью распознавания по сравнению с другими моделями. Скорость передачи кадров составляет 75,7 кадр/с, что обеспечивает быстрое и точное обнаружение фруктов Xinli № 7.

(3) Эксперимент по абляции был разделен на пять групп. На основе исходной модели первой группы ResNet-r18 была заменена облегченной магистральной сетью FasterNet соответственно. Во-вторых, модуль AIFI был улучшен с использованием HiLo, улучшенного и эффективного механизма внимания с извлечением высоко- и низкочастотной информации. В модуль CCFM введена простая и эффективная свертка GSConv, а функция потерь GIoU в RT-DETR заменена функцией потерь механизма обнаружения малых целей Shape-NWD. Результаты показывают, что по сравнению с исходной моделью точность, полнота и средняя точность улучшенной модели увеличились на 4%, 1,8% и 1,4% соответственно, а количество параметров, вычислений и весовой памяти сократилось на 48,47%, 56,2% и 48,31% соответственно, чтобы соответствовать требованиям облегченной модели и точной идентификации плодов груши.

1. Yuan, Y.; Bai, S.; Niu, K.; Zhou, L.; Zhao, B.; Wei, L.; Xiong, S.; Liu, L. Research progress on mechanized harvesting technology and equipment for forest fruit. Trans. Chin. Soc. Agric. Eng. 2022, 38, 53–63. [Google Scholar]

2. Wang, B. Research on Key Technologies of Pear Fruit Picking Robot Based on ROS and YOLOv5. Master’s Thesis, Hebei University, Hebei, China, 2024. [Google Scholar]

3. Li, M.; Liu, P. A bionic adaptive end-effector with rope-driven fingers for pear fruit harvesting. Comput. Electron. Agric. 2023, 211, 107952. [Google Scholar] [CrossRef]

4. Hai, T.; Zhang, N.; Lu, X.; Xu, J.; Wang, X.; Hu, J.; Ji, M.; Zhao, Z.; Wang, J.; Dong, M. Implementation and Evaluation of Attention Aggregation Technique for Pear Disease Detection. Agriculture 2024, 14, 1146. [Google Scholar] [CrossRef]

5. Liu, L.; Xu, S.; Chen, J.; Wang, H.; Zheng, X.; Shen, M.; Liu, L. Detection of Feeding Behavior in Lactating Sows Based on Improved You Only Look Once v5s and Image Segmentation. Agriculture 2024, 14, 1402. [Google Scholar] [CrossRef]

6. Dai, G.; Tian, Z.; Fan, J.; Sunil, C.; Dewi, C. DFN-PSAN: Multi-level deep information feature fusion extraction network for interpretable plant disease classification. Comput. Electron. Agric. 2024, 216, 108481. [Google Scholar] [CrossRef]

7. Zhao, Y.; Li, Y.; Xu, X. Object Detection in High-Resolution UAV Aerial Remote Sensing Images of Blueberry Canopy Fruits. Agriculture 2024, 14, 1842. [Google Scholar] [CrossRef]

8. Jiang, L.; Wang, Y.; Wu, C.; Wu, H. Fruit Distribution Density Estimation in YOLO-Detected Strawberry Images: A Kernel Density and Nearest Neighbor Analysis Approach. Agriculture 2024, 14, 1848. [Google Scholar] [CrossRef]

9. Wu, W.; He, Z.; Li, J.; Chen, T.; Luo, Q.; Luo, Y.; Wu, W.; Zhang, Z. Instance Segmentation of Tea Garden Roads Based on an Improved YOLOv8n-seg Model. Agriculture 2024, 14, 1163. [Google Scholar] [CrossRef]

10. Wang, A.; Chen, H.; Liu, L.; Chen, K.; Lin, Z.; Han, J.; Ding, G. YOLOv10: Real-Time End-to-End Object Detection. arXiv 2024, arXiv:2405.14458. [Google Scholar] [CrossRef]

11. Tan, H.; Ma, W.; Tian, Y.; Zhang, Q.; Li, M.; Li, M.; Yang, X. Improved YOLOv8n object detection of fragrant pears. Trans. Chin. Soc. Agric. Eng. 2024, 40, 178–185. [Google Scholar]

12. Zheng, W.; Yang, Y. Mature Pear Target Detection Method Based on Frequency Domain Data Enhancement and Lightweight YOLO v7 Model. J. Agric. Mach. 2024, 55, 244–253. [Google Scholar]

13. Liu, Q.; Lv, J.; Zhang, C. MAE-YOLOv8-based small object detection of green crisp plum in real complex orchard environments. Comput. Electron. Agric. 2024, 226, 109458. [Google Scholar] [CrossRef]

14. Chen, J.; Ji, C.; Zhang, J.; Feng, Q.; Li, Y.; Ma, B. A method for multi-target segmentation of bud-stage apple trees based on improved YOLOv8. Comput. Electron. Agric. 2024, 220, 108876. [Google Scholar] [CrossRef]

15. Chen, F.; Chen, C.; Zhu, X.; Shen, D.; Zhang, X. Detection of Camellia oleifera fruit maturity based on improved YOLOv7. Trans. Chin. Soc. Agric. Eng. 2024, 40, 177–186. [Google Scholar]

16. Carion, N.; Massa, F.; Synnaeve, G.; Usunier, N.; Kirillov, A.; Zagoruyko, S. End-to-End Object Detection with Transformers. arXiv 2020, arXiv:2005.12872. [Google Scholar] [CrossRef]

17. Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, L.; Polosukhin, I. Attention is All you Need. In Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, 4–9 December 2017; pp. 6000–6010. [Google Scholar]

18. Lv, W.; Xu, S.; Zhao, Y.; Wang, G.; Wei, J.; Cui, C.; Du, Y.; Dang, Q.; Liu, Y. DETRs Beat YOLOs on Real-time Object Detection. In Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 16–22 June 2024; pp. 16965–16974. [Google Scholar]

19. Zhu, X.; Su, W.; Lu, L.; Li, B.; Wang, X.; Dai, J. Deformable DETR: Deformable Transformers for End-to-End Object Detection. arXiv 2020, arXiv:2010.04159. [Google Scholar] [CrossRef]

20. Yao, Z.; Ai, J.; Li, B.; Zhang, C. Efficient DETR: Improving End-to-End Object Detector with Dense Prior. arXiv 2021, arXiv:2104.01318. [Google Scholar] [CrossRef]

21. Zhang, H.; Li, F.; Liu, S.; Zhang, L.; Su, H.; Zhu, J.; Ni, L.M.; Shum, H. DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection. arXiv 2022, arXiv:2203.03605. [Google Scholar] [CrossRef]

22. Zhao, B.; Liu, S.; Zhang, W.; Zhu, L.; Han, Z.; Feng, X.; Wang, R. Research on Performance Optimization of Lightweight Transformer Architecture for Cherry Tomato Picking. J. Agric. Mach. 2024, 55, 1–13. [Google Scholar]

23. Hu, J.; Zhang, G.; Shen, M.; Li, W. Detecting surface defects of pine wood using an improved RT-DETR model. Trans. Chin. Soc. Agric. Eng. 2024, 40, 210–218. [Google Scholar] [CrossRef]

24. Li, X.; Cai, M.; Tan, X.; Yin, C.; Chen, W.; Liu, Z.; Wen, J.; Han, Y. An efficient transformer network for detecting multi-scale chicken in complex free-range farming environments via improved RT-DETR. Comput. Electron. Agric. 2024, 224, 109160. [Google Scholar] [CrossRef]

25. Li, H.; Shi, F. A DETR-like detector-based semi-supervised object detection method for Brassica Chinensis growth monitoring. Comput. Electron. Agric. 2024, 219, 108788. [Google Scholar] [CrossRef]

26. Wang, R.; Zhang, B.; Guo, T.; He, T.; Cui, H.; Wang, Z.; Man, S. Physiological response and cold resistance evaluation of 5 pear varieties under low temperature stress. Shandong Agric. Sci. 2023, 55, 57–63. [Google Scholar]

27. Qiao, C.; Han, M.; Gao, W.; Gao, W.; Li, K.; Zhu, X.; Zhang, L. Quantitative Detection of Cucumber Downy Mildew Spores at Multi-scale Based on Faster-NAM-YOLO. J. Agric. Mach. 2023, 54, 288–299. [Google Scholar]

28. Fu, C.; Ren, L.; Wang, F. Recognizing beef cattle behavior under automatic scene distinction using lightweight FABF-YOLOv8s. Trans. Chin. Soc. Agric. Eng. 2024, 40, 152–163. [Google Scholar]

29. Yang, F.; Li, X.; Cheng, H.; Guo, Y.; Chen, L.; Li, J. MSB-FCN: Multi-Scale Bidirectional FCN for Object Skeleton Extraction. IEEE Trans. Image Process. 2020, 30, 2301–2312. [Google Scholar] [CrossRef]

30. Chen, J.; Kao, S.; He, H.; Zhuo, W.; Wen, S.; Lee, C.; Chan, S.G. Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks. In Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada, 17–24 June 2023; pp. 12021–12031. [Google Scholar]

31. Pan, Z.; Cai, J.; Zhuang, B. Fast Vision Transformers with HiLo Attention. arXiv 2020, arXiv:2205.13213. [Google Scholar] [CrossRef]

32. Wang, S.; Jiang, H.; Li, Z.; Yang, J.; Ma, X.; Chen, J.; Tang, X. PHSI-RTDETR: A Lightweight Infrared Small Target Detection Algorithm Based on UAV Aerial Photography. Drones 2024, 8, 240. [Google Scholar] [CrossRef]

33. Li, H.; Li, J.; Wei, H.; Liu, Z.; Zhan, Z.; Ren, Q. Slim-neck by GSConv: A lightweight-design for real-time detector architectures. J. Real-Time Image Process. 2022, 21, 62. [Google Scholar] [CrossRef]

34. Zhang, H.; Zhang, S. Shape-IoU: More Accurate Metric considering Bounding Box Shape and Scale. arXiv 2023, arXiv:2312.17663. [Google Scholar] [CrossRef]

35. Wang, J.; Xu, C.; Yang, W.; Yu, L. A Normalized Gaussian Wasserstein Distance for Tiny Object Detection. arXiv 2021, arXiv:2110.13389. [Google Scholar] [CrossRef]

Huang Z, Zhang X, Wang H, Wei H, Zhang Y, Zhou G. Pear Fruit Detection Model in Natural Environment Based on Lightweight Transformer Architecture. Agriculture. 2025; 15(1):24. https://doi.org/10.3390/agriculture15010024

Перевод статьи «Pear Fruit Detection Model in Natural Environment Based on Lightweight Transformer Architecture» авторов Huang Z, Zhang X, Wang H, Wei H, Zhang Y, Zhou G., оригинал доступен по ссылке. Лицензия: CC BY. Изменения: переведено на русский язык