Усовершенствованная облегченная модель YOLOv8s для обнаружения перекрытых плодов грецкого ореха
Детектирование плодов грецкого ореха в горных и холмистых местностях часто сталкивается со значительными трудностями из-за их заслонения (листвой, ветками и т.д.), что негативно сказывается на производительности моделей. Для решения этой проблемы мы собрали датасет, содержащий 2379 изображений орехов из этих регионов, с детальной разметкой как заслоненных, так и незаслоненных плодов. На основе этого датасета мы предлагаем OW-YOLO — облегченную модель детекции объектов, специально разработанную для обнаружения мелких и заслоненных плодов грецкого ореха.
Аннотация
Базовый каркас модели был перестроен с интеграцией модуля DWR-DRB (Dilated Weighted Residual-Dilated Residual Block, Расширенный взвешенный остаточный расширенный остаточный блок). Для повышения эффективности и многомасштабного слияния признаков мы внедрили HSFPN (High-Level Screening Feature Pyramid Network, Сетевую пирамиду признаков с высокоуровневым скринингом) и переработали голову детектора, заменив исходную голову на более эффективную LADH (Lightweight Asymmetric Detection Head, Облегченную асимметричную голову детектора), одновременно удалив голову, обрабатывающую карты признаков 32 × 32. Эти улучшения эффективно снизили сложность модели и значительно повысили точность детекции заслоненных плодов.
Эксперименты проводились с использованием фреймворка PyTorch на GPU NVIDIA GeForce RTX 4060 Ti. Результаты демонстрируют, что OW-YOLO превосходит другие модели, достигая mAP@0.5 (средней средней точности) в 83,6%, mAP@[0.5:0.95] в 53,7% и F1-меры в 77,9%. Кроме того, количество параметров модели уменьшилось на 49,2%, размер файла весов сократился на 48,1%, а вычислительная нагрузка снизилась на 37,3%, что эффективно смягчило влияние заслонения на точность детекции. Эти результаты обеспечивают надежную основу для будущего развития ореховодства и закладывают прочный фундамент для более широкого внедрения технологий интеллектуального сельского хозяйства.
1. Введение
Грецкие орехи (Juglans regia) обладают высокой питательной ценностью и ценятся за их потенциал в улучшении состояния при заболеваниях, связанных с образом жизни, таких как сердечно-сосудистые проблемы и диабет [1]. Китай является крупнейшим в мире производителем грецких орехов, обеспечивая 43% мирового производства, что составляет около 880 000 тонн [2]. По состоянию на сентябрь 2024 года площадь посадок грецкого ореха в Китае превысила 120 миллионов акров, а производство в 2023 году достигло 6,3559 миллионов тонн. К основным регионам производства относятся Юньнань (880 000 т), Сычуань (300 000 т), Шэньси (200 000 т) и Синьцзян (440 000 т) [3].
Чаннинские орехи из уезда Чаннин провинции Юньнань, продукт с китайским географическим указанием, представлены сортами Сисян и Дапао. Эти орехи отличаются глубоко изрезанной скорлупой, светло-желто-коричневым цветом и полными, бледно-желто-белыми ядрами с нежным, насыщенным вкусом. Благодаря уникальному климату Юньнани они обладают высокой устойчивостью к условиям окружающей среды, стабильной урожайностью и длительным экономическим сроком жизни.
Однако проблемы в производстве и контроле сохраняются. Сложный рельеф Чаннина делает сбор урожая трудоемким, что приводит к низкой эффективности и повреждению плодов. Переменное освещение из-за времени суток, погоды и географии влияет на качество изображений, затрудняя точность обнаружения. Дополнительно, перекрытие плодов и неблагоприятные погодные условия, такие как ветер и дождь, часто приводят к размытым или неполным изображениям, усложняя анализ орехов.
Быстрое развитие цифрового сельского хозяйства стимулировало внедрение современных сенсорных технологий и интеллектуальных инструментов. Распознавание объектов на основе компьютерного зрения, использующее сенсоры и глубокое обучение, все шире применяется в сельском хозяйстве благодаря снижению стоимости оборудования и повышению производительности систем. Например, Лю и др. [4] разработали YOLOv8pico, облегченный алгоритм обнаружения яблок, использующий PDWConv и DWSConv. Нань и др. [5] представили WGB-YOLO с модулями WFE-C4 и GF-SPP, достигнув точности 86,0% для обнаружения многоклассовых плодов питайи. Чэнь и др. [6] предложили YOLOv8-GP, интегрировав блок FasterNet и механизм внимания EMA для обнаружения винограда. Шоревала и др. [7] использовали обучение с частичным привлечением учителя для обнаружения сорняков, достигнув полноты 0,99 и точности 82,13%.
Обнаружение объектов имеет ключевое значение в цифровом сельском хозяйстве для идентификации культур, почвы и вредителей, оптимизации использования ресурсов и снижения трудозатрат. Популярные алгоритмы включают одноэтапные детекторы (например, серия YOLO [8,9,10], SSD [11], EfficientDet [12]), двухэтапные детекторы (например, Faster R-CNN [13], Mask R-CNN [14]) и модели на основе Vision Transformer, такие как DETR [15]. Одноэтапные детекторы быстрее для работы в реальном времени, в то время как двухэтапные обеспечивают более высокую точность, но работают медленнее. DETR упрощает архитектуру, но имеет высокие вычислительные требования, что ограничивает его использование во встраиваемых устройствах. Эти достижения предлагают разнообразные решения для сельскохозяйственных задач.
Серия YOLO известна своей скоростью обнаружения, но сталкивается с проблемами при обработке изображений высокого разрешения и обнаружении мелких объектов. Сложная структура YOLOv3 требует значительных вычислительных ресурсов [16]. YOLOv4 снизил эти требования с помощью CSPDarknet-53, но для развертывания на мобильных устройствах требуется дальнейшая оптимизация [17]. Мелкие объекты представляют трудности из-за ограниченного количества пикселей для извлечения признаков. YOLOv5 улучшил архитектуру основы и сети-"шеи", а YOLOv6 представил передовые сети и стратегии обучения, однако оба требуют дополнительной доработки [18,19]. YOLOv7 повысил устойчивость в сложных условиях с помощью механизмов внимания и лучшего извлечения признаков [20]. Тем не менее, эффективность этих моделей во всех практических сценариях требует большего эмпирического подтверждения.
Таблица 1 наглядно показывает значительные достижения в распознавании грецких орехов, в частности с использованием моделей серии YOLO, таких как YOLOv5, YOLOX, YOLOv8 и YOLOv3. Эти исследования, проверенные на различных наборах данных, показывают различия в выборе данных, производительности модели, количестве параметров и вычислительной сложности. В то время как многие достигают высокой точности, лишь несколько исследований рассматривают производительность при перекрытии орехов. Кроме того, большой размер моделей и вычислительные требования препятствуют развертыванию в реальных условиях.
Таблица 1. Обзор литературы по обнаружению мелких объектов грецкого ореха.
Данное исследование направлено на решение проблемы перекрытия орехов путем предложения облегченной модели обнаружения объектов OW-YOLO, разработанной для повышения точности и эффективности обнаружения в сложных сельскохозяйственных условиях. Основные вклады заключаются в следующем:
1. Для устранения недостатка аннотаций перекрытых орехов в существующих наборах данных мы создали новый набор данных, который включает сценарии перекрытия (листьями, ветками и другими плодами), и строго определили стандарты разметки для перекрытия. Набор данных состоит из 2379 изображений с разрешением 640 × 640, что заполняет пробел в текущих наборах данных по орехам в отношении проблемы перекрытия.
2. На основе YOLOv8s были применены облегченные улучшения к модулям извлечения признаков, слияния признаков и головы детектора. Эти оптимизации повышают точность обнаружения, одновременно значительно снижая вычислительную нагрузку, количество параметров и размер файла, что позволяет развертывать модель в сценариях граничных вычислений.
3. OW-YOLO достигает mAP@0.5 83,6%, mAP@[0,5:0,95] 53,7% и F1-меры 77,9%. По сравнению с YOLOv8s, она сокращает количество параметров на 49,2%, размер файла на 48,1% и вычислительную нагрузку на 37,3%, демонстрируя отличную производительность при обнаружении перекрытых орехов с более низкими требованиями к ресурсам.
Технология точного обнаружения орехов повышает эффективность сельского хозяйства, снижает затраты и поддерживает модернизацию. Модель OW-YOLO решает проблему перекрытия орехов, улучшая сбор урожая за счет обнаружения скрытых или перекрывающихся плодов, уменьшая потери и повышая урожайность. Ее облегченный дизайн позволяет развертывать модель на дронах и интеллектуальных устройствах для мониторинга в реальном времени, что особенно важно в удаленных районах с ограниченными ресурсами.
OW-YOLO способствует интеллектуализации сельского хозяйства, обеспечивая мониторинг культур, обнаружение вредителей и анализ климата в реальном времени, способствуя развитию точного земледелия и устойчивости. Она переводит сельское хозяйство от ручного управления к управлению на основе данных, оптимизируя сроки сбора урожая и увеличивая прибыль. В глобальном масштабе, по мере перехода сельского хозяйства к точным методам, управление ореховыми садами выигрывает от инновационных технологий обнаружения, таких как OW-YOLO, способствуя автоматизации и решению проблем производительности.
2. Материалы и методы
2.1. Район исследования
В данном исследовании рассматриваются орехи, собранные в уезде Чаннин города Баошань провинции Юньнань, Китай (WGS 84: 25,024486° с.ш., 99,773675° в.д.), как показано на Рисунке 1. Уезд характеризуется субтропическим муссонным климатом с четырьмя зонами: низкотеплая, теплоумеренная, прохладноумеренная и альпийско-холодная. При средней высоте 1875 м над уровнем моря, годовой норме осадков от 700 до 2100 мм и температуре от 14,8 до 21,3 °C, регион предлагает идеальные условия для выращивания орехов. Эти факторы способствуют полной, симметричной форме чаннинских орехов, светло-желто-белым ядрам, хрустящей текстуре, сильному аромату и богатому вкусу.
Рисунок 1. Район исследования.
2.2. Набор данных
2.2.1. Сбор данных
Данный набор данных был собран с использованием технологии дронов — беспилотных летательных аппаратов, способных летать по заранее заданным маршрутам с помощью автопилотов и GPS-координат. В последние годы технология дронов широко применяется в сельском хозяйстве, в основном для орошения, мониторинга посевов, анализа почвы и полей, а также отпугивания птиц [29]. Мы использовали дрон DJI Matrice 300 RTK с камерой Zenmuse P1 (оба производства DJI, Китай) для сбора данных с 17 по 20 августа 2022 года, с 9:00 до 19:00. Дрон работал на высоте 100 м, покрывая площадь 900 м², с углом наклона камеры вниз 90°, боковым перекрытием 70% и продольным перекрытием 80%. Камера Zenmuse P1 захватила 180 изображений высокого разрешения (5472 × 3648 пикселей, GSD 1,26 см/пиксель), сохраненных в формате .jpg (Рисунок 2).
Рисунок 2. Процедура эксперимента.
2.2.2. Определение и проверка меток орехов
Мы установили строгие стандарты разметки для орехов, классифицируя их как полностью видимые, частично перекрытые или полностью перекрытые. Частично перекрытые орехи помечаются как «перекрытый» (obstruct), если ключевые признаки, такие как форма или контур, остаются различимыми. Полностью открытые орехи с четкими краями помечаются как «неперекрытый» (unobstruct). Типы перекрытия включают листья, ветки и перекрытие другими орехами. Каждое изображение размечено как минимум двумя независимыми аннотаторами с использованием специализированных инструментов для обеспечения точности и согласованности. Аннотаторы проходят обучение и следуют предопределенным стандартам, чтобы отмечать расположение, размер и степень перекрытия орехов. Случайные выборки проверяются для подтверждения надежности.
Стандарты разметки уточняются на основе характеристик изображений и обратной связи, адаптируясь к сложным перекрытиям или проблемам с освещением, сохраняя при этом строгость. Этот процесс обеспечивает получение высококачественных, согласованных данных для надежного обучения моделей и экспериментов.
2.2.3. Создание набора данных
Данное исследование направлено на обнаружение мелких, перекрытых и неперекрытых орехов. Мы обрезали 180 изображений орехов до размера 640 × 640 пикселей, удалив те, на которых не было орехов или которые были размыты из-за проблем со съемкой. В результате было получено 2378 изображений орехов, как перекрытых, так и неперекрытых, показанных в Таблице 2. Изображения были размечены с помощью Labelimg в формате YOLO с двумя метками: «obstruct» (для орехов, перекрытых листьями или другими орехами) и «unobstruct» (для открытых орехов). Всего было размечено 3115 объектов, из которых 2208 помечены как «obstruct» и 906 как «unobstruct». Набор данных был разделен на 1907 изображений для обучения и 471 для проверки (соотношение 80/20).
Таблица 2. Различные метки и их количество.
Для обеспечения надежности мы захватывали изображения при различных условиях окружающей среды, включая солнечные и слабоосвещенные сценарии. Набор данных отражает реальные сельскохозяйственные условия, в частности в горных регионах с густой листвой, где наблюдается более высокий уровень перекрытия. Это повышает способность модели решать задачи в практических сельскохозяйственных условиях.
2.3. Облегченный метод обнаружения перекрытых орехов: OW-YOLO
Основная цель данного исследования — улучшить точность обнаружения перекрытых орехов и облегчить модель. Основываясь на заметных характеристиках YOLOv8s, мы улучшили его и предложили OW-YOLO — модель, более подходящую для обнаружения перекрытых орехов. Это обеспечивает лучшую технологию обнаружения для будущей сельскохозяйственной работы.
2.3.1. Алгоритм обнаружения объектов YOLOv8s
YOLOv8s, последняя модель в серии YOLO от Ultralytics [30], оптимизирована для задач обнаружения объектов. Она сохраняет основу CSPDarknet53 от YOLOv5, улучшая извлечение признаков и точность обнаружения. YOLOv8s использует несколько якорных рамок для обнаружения объектов различного размера и интегрирует карты признаков на разных уровнях через сети FPN и PAN [31,32]. Ее голова использует раздельный дизайн, отделяя задачи классификации и регрессии для повышения точности. Используя глубокую сверточную сеть, YOLOv8s выполняет сквозное обучение для эффективного предсказания категорий и местоположений объектов.
2.3.2. OW-YOLO
При проектировании модели OW-YOLO (Рисунок 3) мы заменили высокоуровневый модуль C2f в YOLOv8s на DWR-DRB, сделав структуру более легковесной. Модуль HSFPN был введен для более эффективного извлечения признаков каналов, а упрощенная голова детектора LADH была принята для достижения точной локализации мелких и перекрытых орехов. Дополнительно, голова обнаружения 32 × 32 была удалена для снижения сложности, повышения эффективности и точности обнаружения.
Рисунок 3. Структура модели OW-YOLO.
OW-YOLO улучшает обнаружение перекрытых объектов с помощью модуля DWR-DRB, расширяя рецептивное поле с помощью расширенных сверток для захвата контекстной информации. Это решает ограничения CSPDarknet53 и Darknet-53, улучшая производительность при перекрытии, наложении и сложных условиях освещения. Модуль HSFPN превосходит FPN и PAN, используя механизм внимания каналов для усиления видимых признаков и подавления избыточных. Его стратегии пулинга обеспечивают надежное многомасштабное обнаружение, избегая потери информации, характерной для фиксированных методов слияния. LADH-Head использует легковесные разделяемые по глубине и точечные свертки для точного обнаружения границ и снижения сложности. Он превосходит раздельную голову YOLOv8 по эффективности, делая OW-YOLO подходящей для сред с ограниченными ресурсами.
2.3.3. Реконструкция базовой сети
В настоящее время многие основные легковесные сети, такие как MobileNet [33] и ShuffleNet [34], преуспевают в снижении вычислительных затрат, но сталкиваются с проблемами в обнаружении мелких объектов. Разделяемая по глубине свертка MobileNet ограничивает извлечение признаков и понимание контекста, приводя к пропуску объектов в сложных или перекрытых сценариях. Аналогично, групповая свертка и ограниченное рецептивное поле ShuffleNet затрудняют захват детальных признаков, снижая точность в сложных сельскохозяйственных условиях.
Для решения этих проблем мы вводим модуль DWR [35] и предлагаем модуль DWR-DRB, как показано на Рисунке 4. В отличие от существующих методов, наш модуль DWR-DRB объединяет многоканальные расширенные свертки с методами репараметризации. Используя расширенные репараметризуемые свертки, модуль расширяет рецептивное поле без увеличения вычислительной сложности, позволяя сети захватывать более широкий диапазон контекстной информации. Это особенно полезно, когда орехи перекрыты или плотно распределены, так как помогает предотвратить потерю информации из-за частично закрытых целей.
Рисунок 4. Структурная схема модуля DWR-DRB.
Наш модуль использует многоканальную структуру с расширенными свертками (5 × 5, 7 × 7) и стандартными свертками для многомасштабного извлечения признаков, обеспечивая эффективное обнаружение даже если часть ореха перекрыта. Для сохранения высокой скорости вывода мы применяем репараметризуемый дизайн, используя несколько слоев свертки во время обучения и одно большее ядро во время вывода, снижая вычислительные затраты без ущерба для производительности. Пропускные связи объединяют исходные признаки с обработанными картами признаков, сохраняя ключевые детали для обнаружения перекрытых орехов и улучшая распознавание мелких целей.
В модуле DWR-DRB ядра расширенной свертки 5 × 5 и 7 × 7 служат разным целям (Рисунок 5). Ядро 5 × 5 извлекает локальные признаки, такие как края и текстуры, способствуя обнаружению мелких целей. Ядро 7 × 7 расширяет рецептивное поле, улучшая понимание контекста и обнаружение в сложном фоне или сценариях перекрытия, особенно при изменении освещения или наложении целей.
Рисунок 5. Иллюстрация ядер расширенной свертки 5 × 5 и 7 × 7. (а) Ядро расширенной свертки 5 × 5 с коэффициентом расширения 2. (б) Ядро расширенной свертки 7 × 7 с коэффициентом расширения 3.
Мы выбрали расширенную свертку за ее способность расширять рецептивное поле без увеличения вычислительных затрат, помогая модели захватывать больше контекстной информации. В задачах сельскохозяйственного обнаружения остаточные связи имеют ограниченную пользу для поверхностных признаков, в частности мелкомасштабных целей, одновременно добавляя вычислительную сложность. Чтобы сохранить эффективность модели, мы избегали чрезмерного использования остаточных связей. По сравнению с механизмами внимания, которые динамически выделяют ключевую информацию, они часто не справляются с захватом деталей краев у перекрытых или мелких целей, не распознавая границы или ключевые признаки, что снижает их эффективность в улучшении обнаружения краев.
В нашем спроектированном модуле DWR-DRB сначала выполняется базовое извлечение признаков из изображения. 𝐹(𝑥) представляет результат извлечения признаков для входа 𝑥, а Conv(𝑥,𝑊) обозначает операцию свертки, как показано в Уравнении (1). Применяются расширенные свертки, где 𝑊𝑑 представляет веса расширенной свертки, а 𝐹𝑑(𝑥) обозначает признаки, обработанные с использованием расширенных сверток, как показано в Уравнении (2).
Далее, мы выполняем репараметризацию. Reparam представляет репараметризацию признаков через расширенную репараметризацию, как показано в Уравнении (3). Наконец, выходы объединяются, где 𝑌 получается путем аддитивного слияния признаков, комбинируя как признаки расширенной свертки, так и репараметризованные признаки, как показано в Уравнении (4).
2.3.4. Многомасштабное слияние признаков
В YOLOv8s сеть-"шея" (Neck) объединяет Сетевую пирамиду признаков (FPN) и Сеть агрегации путей (PANet) для интеграции признаков изображения и уменьшения потери информации, улучшая поток семантических признаков. Однако эта структура увеличивает количество параметров и вычислительную сложность, делая ее менее адаптируемой к конкретным задачам и наборам данных. Учитывая многомасштабные проблемы обнаружения орехов, в частности различные диаметры, наблюдаемые на изображениях, снятых дронами под разными углами, мы вводим и модифицируем Высокоуровневую выборочную пирамиду слияния признаков (HSFPN) [36] для решения этих проблем (Рисунок 6).
Рисунок 6. Улучшенная сетевая структура HSFPN.
При обнаружении целей-орехов разница в масштабе, в частности на изображениях с дронов с различными диаметрами орехов, создает трудности. Модуль HSFPN решает проблемы многомасштабности и перекрытия, сливая карты признаков разных масштабов, улучшая способность модели распознавать перекрытые цели. Механизм внимания каналов назначает веса каналам, помогая модели сосредотачиваться на значимых признаках, особенно в перекрытых областях.
Комбинируя глобальный усредняющий и максимальный пулинг для выбора каналов, модуль извлекает ключевую информацию, уменьшая избыточность и вычислительную нагрузку. Этот легковесный дизайн особенно важен для приложений реального времени на устройствах с ограниченными ресурсами. Модуль HSFPN обеспечивает правильное выравнивание размеров для многомасштабного слияния признаков, повышая точность обнаружения и производительность модели, в частности в сложных сценариях перекрытия.
2.3.5. Улучшенная голова детектора
YOLOv8 вводит модуль раздельной головы, улучшая производительность обнаружения и скорость вывода. Однако он увеличивает параметры сети и не может полностью использовать высокоуровневые признаки, особенно с перекрытыми мелкими целями-орехами. Для решения этого мы предлагаем Облегченную асимметричную голову детектора (LADH-Head) [37], которая включает две задачи: классификацию и локализацию. Для классификации используются два сверточных слоя 1 × 1, в то время как для локализации используются три разделяемые по глубине свертки (DWConv) и один сверточный слой 1 × 1 (Рисунок 7).
Рисунок 7. Улучшенная голова детектора.
При обнаружении целей-орехов с перекрытием текстуры трудно различить, в то время как признаки краев играют ключевую роль. Мы инновационно комбинируем DWConv с точечной сверткой, снижая вычислительную сложность при сохранении целостности признаков. LADH-Head использует свертки 1 × 1 в задаче классификации для извлечения текстурных признаков и DWConv с точечной сверткой в задаче локализации для захвата признаков краев. DWConv независимо обрабатывает каждый канал, в то время как точечная свертка интегрирует многоканальные признаки, повышая устойчивость к сложному фону и мелким целям.
При перекрытиях DWConv эффективно извлекает детализированные края, а точечная свертка сливает многомасштабную информацию, сохраняя целостность признаков и снижая влияние перекрытий, тем самым повышая точность обнаружения. Дополнительно, LADH-Head разделяет задачи классификации и локализации, избегая конфликтов задач и улучшая производительность распознавания в перекрытых и сложных сценариях.
Мы удалили голову детектора 32 × 32, чтобы сосредоточиться на признаках более высокого разрешения (например, 16 × 16), снизив избыточную обработку крупных целей и вычислительную сложность. Признаки высокого разрешения сохраняют больше деталей, улучшая обнаружение мелких целей при одновременной оптимизации количества параметров модели и скорости вывода. Этот дизайн лучше подходит для сред с ограниченными ресурсами.
3. Эксперимент и анализ
3.1. Экспериментальная среда и настройки параметров
Все эксперименты проводились на GPU NVIDIA GeForce RTX 4060 Ti с использованием PyTorch 2.3.1 и CUDA 12.5. Изображения набора данных были изменены до размера 640 × 640 пикселей, а разделение на обучение/проверку составило 80:20, с 1907 и 471 изображением соответственно.
Разрешение 640 × 640 балансирует между точностью обнаружения и вычислительной эффективностью, обеспечивая надежную производительность для сложного фона и мелких объектов, сохраняя при этом скорость вывода. Разделение 80:20 обеспечивает достаточное количество обучающих данных и достаточно данных проверки для эффективной оценки обобщающей способности.
Мы использовали оптимизатор SGD для обновления параметров и обучали модель с нуля без предварительно обученных весов. Этот подход гарантирует, что результаты объективно отражают улучшения предложенной модели. Начальные параметры обучения, показанные в Таблице 3, были согласованы во всех экспериментах.
Таблица 3. Параметры инициализации.
3.2. Метрики оценки
Во всех экспериментах мы использовали метрики, такие как 𝑃 (точность), 𝑅 (полнота), 𝑚𝐴𝑃 (средняя средняя точность), 𝑃𝑎𝑟𝑎𝑚, взвешенный размер файла и 𝐺𝐹𝐿𝑂𝑃𝑠, чтобы оценить производительность OW-YOLO. Точность используется для измерения точности предсказаний модели для положительных выборок. Формула для ее расчета:
𝑇𝑃 означает вероятность точной классификации положительной выборки как положительной, в то время как FP обозначает вероятность ошибочной классификации отрицательной выборки как положительной.
Полнота измеряет долю истинных положительных выборок, идентифицированных моделью, от общего числа фактических положительных выборок. Формула расчета:
𝐹𝑁 представляет вероятность ошибочного предсказания положительной выборки как отрицательной.
Значение AP (средняя точность) — это площадь под кривой при построении кривой 𝑃 (точность) и 𝑅 (полнота), а 𝑚𝐴𝑃 (средняя средняя точность) — это среднее значение AP для всех категорий. Формула для расчета 𝑚𝐴𝑃:
mAP (средняя средняя точность) измеряет производительность обнаружения по различным категориям, объединяя точность и полноту. mAP@0,5 представляет среднюю точность при пороге IoU 0,5, а mAP@0,5:0,95 вычисляет среднюю точность для диапазона порогов IoU от 0,5 до 0,95 с шагом 0,05.
Для фермеров улучшенная точность обнаружения означает более точную идентификацию орехов, в частности перекрытых. Это снижает ошибки при ручной проверке, повышает эффективность сбора и снижает трудоемкость и затраты.
Параметры (𝑃𝑎𝑟𝑎𝑚) относятся к количеству обучаемых параметров в модели, включая веса и смещения в сети. Формула расчета следующая:
𝐾 представляет размер ядра, 𝐶𝑖𝑛 обозначает количество входных каналов, а 𝐶𝑜𝑢𝑡 представляет количество выходных каналов. Количество параметров служит мерой для оценки сложности модели и потребления ресурсов. Как правило, большее количество параметров указывает на более сложную модель, требующую больших вычислительных ресурсов и памяти для обучения и выполнения.
Вычислительная сложность модели обычно измеряется в 𝐺𝐹𝐿𝑂𝑃𝑠 (гигафлопсах), что означает количество операций с плавающей запятой, требуемых для вывода модели. Формула расчета следующая:
В практических приложениях снижение вычислительных требований позволяет фермерам использовать обычные граничные устройства, такие как интеллектуальные камеры наблюдения или мобильные устройства в полях, для обнаружения объектов в реальном времени, не полагаясь на облачные вычисления. Это значительно снижает затраты и задержки, связанные с передачей данных, одновременно повышая реальное время работы и надежность операций.
𝐹1−𝑠𝑐𝑜𝑟𝑒 (0 ≤ F1 ≤ 1) измеряет баланс между точностью и полнотой, и его формула следующая. Это гармоническое среднее точности и полноты, и более высокий показатель F1 указывает на улучшенную производительность.
Увеличение показателя F1 отражает лучший баланс между полнотой (снижение пропусков) и точностью (минимизация ложных срабатываний). Для фермеров это означает более надежную систему, которая снижает потери от ошибок и повышает эффективность, экономя время и ресурсы.
Показатель F1 выбран за его способность оценивать как точность, так и полноту, что делает его идеальным для сельскохозяйственных задач. Как гармоническое среднее этих метрик, он эффективно оценивает способность модели обнаруживать мелкие и перекрытые цели. Дополнительно, его устойчивость к дисбалансу классов делает его подходящим для сложных сценариев.
Взвешенный размер файла измеряет требования к хранению модели, учитывая параметры и точность (например, 32-битную или 8-битную квантизацию). Оптимизация размера файла повышает эффективность модели на устройствах с ограниченными ресурсами, позволяя развертывать ее на недорогом оборудовании. Это снижает потребность в дорогостоящем оборудовании и уменьшает долгосрочные эксплуатационные затраты.
3.3. Результаты экспериментов
3.3.1. Результаты экспериментов OW-YOLO на наборе данных перекрытых орехов
Мы провели эксперименты с YOLOv8s и OW-YOLO на наборах данных как перекрытых, так и неперекрытых орехов, как показано на Рисунке 8. Для метрики точности обнаружения mAP@0,5 OW-YOLO достигла 0,836, что на 0,024 выше, чем точность mAP@0,5 YOLOv8s, равная 0,811. Это указывает на то, что улучшения, внесенные в сеть извлечения признаков, сеть слияния признаков и голову детектора YOLOv8s, были эффективными.
Рисунок 8. Кривая сравнения mAP@0,5 моделей YOLOv8s и OW-YOLO.
Таблица 4 показывает преимущества OW-YOLO перед YOLOv8s. OW-YOLO превосходит YOLOv8s по нескольким ключевым метрикам, включая точность (78,5% против 73,2%), F1-меру (77,9% против 74,8%), полноту (77,4% против 76,6%), mAP@0,5 (83,6% против 81,0%) и mAP@[0,5:0,95] (53,7% против 51,9%), что указывает на ее более стабильную производительность обнаружения при различных порогах IoU и лучшую адаптируемость к задаче обнаружения перекрытых орехов. С точки зрения эффективности OW-YOLO также показывает значительную оптимизацию со снижением размера файла модели, GFLOPs и количества параметров на 48,1%, 37,3% и 49,2% соответственно. Это делает OW-YOLO особенно подходящей для сред с ограниченными вычислительными ресурсами, таких как встраиваемые устройства и платформы граничных вычислений.
Таблица 4. Сравнение моделей YOLOv8s и OW-YOLO.
Мы установили строгие критерии для категоризации перекрытых орехов, которые включают орехи, перекрытые листьями, орехи, перекрытые ветками, и перекрывающиеся орехи, как показано на Рисунке 9. (Стандарты категоризации перекрытых орехов: (а) орехи, перекрытые листьями, (б) перекрывающиеся орехи, (в) орехи, перекрытые ветками).
Рисунок 9. Критерии категоризации перекрытых орехов следующие: (а) орехи, перекрытые листьями, (б) перекрывающиеся орехи, (в) орехи, перекрытые ветками.
В Рисунке A1 в Приложении A мы в основном демонстрируем визуализированные результаты моделей YOLOv8s и OW-YOLO при различных условиях перекрытия. Желтые ограничивающие рамки обозначают орехи, которые YOLOv8s не смог обнаружить, а красные рамки представляют орехи, успешно идентифицированные OW-YOLO. Рисунок иллюстрирует, что OW-YOLO превосходит YOLOv8s в точном определении местоположения и распознавании орехов, даже в сложных сценариях. В случаях, когда густая листва или перекрывающиеся орехи вызывают ошибочное обнаружение или пропуск YOLOv8s, OW-YOLO остается способной точно идентифицировать и определять местоположение орехов в сложных условиях освещения и сценариях перекрытия.
На Рисунках A1b,e орехи, пропущенные YOLOv8s, успешно обнаружены OW-YOLO на Рисунках A1c,f благодаря улучшенной способности извлечения признаков OW-YOLO. Кроме того, на Рисунке A1h некоторые орехи ошибочно идентифицированы YOLOv8s как неперекрытые орехи, в то время как на Рисунке A1i OW-YOLO точно классифицирует эти орехи как перекрытые. Эти результаты наглядно показывают устойчивость и превосходную производительность OW-YOLO в обработке сложных перекрытий и вариаций освещения.
3.3.2. Сравнение с другими основными моделями
Чтобы дальнейшая оценить производительность модели OW-YOLO, мы провели серию сравнительных экспериментов с несколькими передовыми моделями обнаружения объектов в серии YOLO, включая YOLOv3, YOLOv3-spp, YOLOv5m, YOLOv5s, YOLOv7, YOLOv7-tiny, YOLOv8s, YOLOv8m, YOLOv9m, YOLOv9s, YOLOv10m и YOLOv10s. Результаты этих сравнений обобщены в Таблице 5. OW-YOLO превосходит другие модели по точности обнаружения и имеет явное преимущество с точки зрения размера модели.
Таблица 5. Сравнительные эксперименты между основными алгоритмами обнаружения объектов серии YOLO и OW-YOLO.
Как показано в Таблице 5, OW-YOLO превосходит традиционные модели YOLO по точности, полноте, mAP и вычислительной эффективности. Она достигает mAP@0,5 83,6% и mAP@[0,5:0,95] 53,7%, подчеркивая ее стабильность и точность при обнаружении перекрытых орехов. С показателем GFLOPs 17,8, значительно более низким, чем у YOLOv3 (117,83) и YOLOv7 (71,35), OW-YOLO хорошо подходит для устройств с ограниченными ресурсами. Дополнительно, ее легковесный дизайн, с размером файла 11,14 МБ и 5,65 М параметров, обеспечивает эффективное хранение и обнаружение в реальном времени для сельскохозяйственных граничных вычислений.
Чтобы лучше понять практические преимущества OW-YOLO, мы сравнили ее с другими моделями. YOLOv5s улучшает скорость за счет уменьшения параметров модели и вычислений, но испытывает трудности с обнаружением мелких объектов из-за карт признаков более низкого разрешения, которые теряют детали. MobileNetv4, использующая разделяемые по глубине свертки для эффективности, жертвует извлечением признаков, что делает ее менее эффективной в обнаружении мелких объектов, особенно при перекрытии или сложном фоне. ShuffleNet снижает вычисления с помощью операций перемешивания каналов, но не улучшает значительно обнаружение мелких объектов из-за ограниченной способности захватывать мелкие детали.
Опора YOLOv7 на карты признаков более низкого разрешения приводит к потере пространственной информации, затрудняя обнаружение мелких объектов, в частности в загроможденных средах, таких как сельское хозяйство, где орехи частично перекрыты листьями или ветками. YOLOv7 также использует более крупные головы детектора, что снижает ее точность в локализации мелких объектов, особенно в плотных или перекрытых сценах. Хотя сложность YOLOv7 улучшает точность обнаружения, она также увеличивает время вывода и вычислительную нагрузку, делая ее менее эффективной на граничных устройствах и в сложном фоне по сравнению с OW-YOLO.
3.3.3. Анализ экспериментов с базовой сетью
Чтобы подтвердить эффективность улучшенной легковесной модели DWR-DRB, мы сравнили ее с классическими легковесными базовыми сетями и другими известными модифицированными базовыми сетями. Как показано в таблице результатов экспериментов, MobileNetv4 имеет высокую сложность модели и вычислительную нагрузку при минимальном улучшении точности обнаружения. Хотя EfficientVit и ShuffleNet предлагают хорошую легковесность, их точность обнаружения значительно снижается, делая их менее подходящими для обнаружения мелких объектов-орехов. Как показано в Таблице 6, наша модель DWR-DRB значительно снижает количество параметров и вычислительную нагрузку, одновременно достигая превосходной производительности обнаружения.
Таблица 6. Сравнение модели DWR-DRB с основными легковесными базовыми сетями.
Спроектированный нами модуль DWR-DRB более подходит для извлечения высокоуровневых признаков сети. По мере углубления слоев сети размер карт признаков постепенно уменьшается, но семантическая информация, содержащаяся в каждой карте признаков, становится богаче. Карты признаков высокого уровня могут захватывать более абстрактную контекстную информацию. Модуль DWR-DRB использует расширенные свертки на высоких уровнях сети для захвата контекстной информации в различных масштабах. Использование модуля DWR-DRB на высоких уровнях позволяет избежать ненужных сложных вычислений на низких уровнях, тем самым повышая общую эффективность сети. Мы провели эксперименты с модулем DWR-DRB как на всех уровнях, так и только на высоких уровнях базовой сети, чтобы подтвердить, что этот метод более подходит для извлечения высокоуровневых сетевых структур, как показано в Таблице 7.
Таблица 7. Экспериментальное сравнение DWR-DRB в разных местах базовой сети.
Как видно из таблицы, общая точность обнаружения в наборе данных орехов улучшилась на 1,3%. Для более сложной метки «obstruct» наблюдается улучшение на 0,3%, а для метки «unobstruct» — на 2,3%. Это демонстрирует, что модуль DWR-DRB может лучше захватывать контекстную информацию на высоких уровнях сети, тем самым повышая точность обнаружения орехов.
Возможность извлечения признаков спроектированной нами базовой сети DWR-DRB превосходит таковую у YOLOv5 (CSPDarknet53) и YOLOv3 (Darknet-53), использованных в ссылках, приведенных в Таблице 1. DWR-DRB был оптимизирован как по эффективности, так и по вычислительной мощности, обеспечивая хороший баланс между точностью обнаружения и вычислительной эффективностью в OW-YOLO. Хотя FasterNet (используемый для извлечения признаков) и GhostNet (легковесные модели) также показывают высокую эффективность в определенных сценариях, они работают немного хуже при обнаружении перекрытых мелких целей-орехов. В отличие от них, DWR-DRB с его глубокой оптимизацией лучше подходит для задач обнаружения целей в сложном фоне.
3.3.4. Экспериментальный анализ сетей слияния признаков
Чтобы проверить эффективность нашей улучшенной сети слияния признаков, мы сравнили ее с основными сетями слияния признаков, как показано в Таблице 8. В то время как сеть AFPN предлагает хорошую легковесность, она страдает от значительной потери точности обнаружения орехов. Сеть Slim-Neck не показывает заметного снижения параметров или вычислительной сложности и также испытывает потерю точности. Сеть BIFPN, хотя и легковесная, не улучшает точность обнаружения. Напротив, наша улучшенная сеть HSFPN не только способствует облегчению модели, но и значительно повышает точность обнаружения.
Таблица 8. Сравнение модуля HSFPN с основными сетями слияния признаков.
3.3.5. Поэтапный (абляционный) эксперимент
Чтобы оценить эффективность наших алгоритмических улучшений, мы провели серию поэтапных экспериментов, используя YOLOv8s в качестве базовой модели. Результаты поэтапного эксперимента представлены в Таблице 9. Мы последовательно проводили поэтапные эксперименты с DWR-DRB, HSFPN, LADH и D1 в модели, где D1 представляет операцию удаления головы детектора, обрабатывающей карты признаков размером 32 × 32.
Таблица 9. Поэтапный эксперимент.
Как показано в таблице, добавление модуля DWR-DRB привело к улучшению mAP@0,5 на 1%, хотя не было значительного снижения параметров или вычислительной нагрузки. После улучшения слоя слияния признаков как параметры, так и вычислительная нагрузка были значительно снижены, а mAP@0,5 улучшился на 1,2% по сравнению со второй группой, с заметным уменьшением размера файла. В третьей группе добавление головы детектора LADH улучшило полноту и точность обнаружения, одновременно снизив вычислительную нагрузку на 36,3%. Удаление головы детектора 32 × 32 дальнейшая оптимизировало модель. В итоге OW-YOLO превзошла YOLOv8s со снижением количества параметров и вычислительной нагрузки почти вдвое, одновременно добившись улучшенной производительности, в частности для обнаружения орехов в сложном фоне, удовлетворяя практическим потребностям применения.
Сравнение производительности до и после улучшений модели показано на радиолокационной диаграмме на Рисунке 10. Меньшая площадь на диаграмме указывает на лучшую производительность модели. Рисунок наглядно показывает значительные улучшения, достигнутые в производительности усовершенствованной модели.
Рисунок 10. Радиолокационная диаграмма, сравнивающая производительность до и после улучшения модели.
Как показано на Рисунке 11, когда модуль DWR-DRB не вводится, производительность обнаружения модели для перекрытых орехов слабая, особенно в сложном фоне (таком как густые листья, перекрывающиеся орехи и сложное освещение), где часты ложноотрицательные и ложноположительные срабатывания. После введения модуля DWR-DRB модель лучше способна захватывать контекстную информацию перекрытых целей, усиливая свою способность захватывать детали мелких целей и значительно повышая точность обнаружения. В сценах с сильным перекрытием листьями улучшенная модель может точно определять местоположение частично перекрытых орехов, в то время как модель без этого модуля может пропустить их или ошибочно идентифицировать как фон.
Рисунок 11. Сравнение результатов до и после введения модуля DWR-DRB. Желтые аннотации представляют ложноположительные срабатывания, а красные — ложноотрицательные.
Чтобы проиллюстрировать эффективность модуля DWR-DRB, мы оценили FPS (кадры в секунду) и задержку вывода, как показано в Таблице 10. FPS увеличился с 212,1 до 227,0 (рост на 7,0%), улучшив скорость обработки изображений, в то время как задержка снизилась с 4,71 мс до 4,40 мс (снижение на 6,6%), повысив отзывчивость системы. Эти улучшения проистекают из репараметризации DWR-DRB, которая снижает вычислительные накладные расходы, делая ее идеальной для сельскохозяйственных приложений реального времени, требующих высокой эффективности и точности.
Таблица 10. Сравнение производительности YOLOv8s с модулем DWR-DRB и без него.
Как показано на Рисунке 12, без головы детектора LADH модель борется с фоновыми помехами при обнаружении перекрытых орехов, особенно при сложном освещении или когда орехи сливаются с фоном, что приводит к большему количеству ложноположительных и ложноотрицательных срабатываний. Добавление головы детектора LADH улучшает извлечение признаков краев, повышая точность в определении местоположения перекрытых целей. В сценах с перекрывающимися орехами или ветками улучшенная модель эффективно отличает цели от помех, в отличие от версии без LADH.
Рисунок 12. Сравнение результатов до и после введения головы детектора LADH. Желтые аннотации представляют ложноположительные срабатывания, а красные — ложноотрицательные.
Как показано в Таблице 11, YOLOv8s достигает 212,1 FPS, в то время как OW-YOLO достигает 307,6 FPS, увеличение на 95,5 FPS, значительно повышая эффективность вывода. Это улучшение особенно важно для сельскохозяйственных приложений, позволяя осуществлять более быстрое обнаружение на оборудовании с ограниченными ресурсами.
Таблица 11. Сравнение производительности YOLOv8s и OW-YOLO.
OW-YOLO также снижает задержку с 4,71 мс до 3,43 мс на изображение, улучшая скорость отклика и делая ее лучше подходящей для динамических сельскохозяйственных сценариев, требующих быстрых решений.
4. Анализ результатов обнаружения перекрытых орехов
Одна из основных целей данного исследования — улучшить обнаружение перекрытых орехов. Рисунок 13 показывает линейное сравнение mAP@0,5 для перекрытых и неперекрытых орехов на различных моделях. На YOLOv7-tiny и YOLOv8s точность обнаружения для перекрытых орехов лишь немного выше, чем для неперекрытых, в то время как другие модели показывают более низкую точность для перекрытых орехов. Это подчеркивает сложность обнаружения перекрытых орехов в реальных сельскохозяйственных условиях. Как показано, модель OW-YOLO достигает наивысшей точности обнаружения для неперекрытых орехов и значительно улучшает точность для перекрытых орехов, демонстрируя свою эффективность.
Рисунок 13. Линейная диаграмма сравнения значений mAP@0,5 для перекрытых и неперекрытых орехов на разных моделях.
Рисунок A2 в Приложении A представляет производительность обнаружения различных моделей для распознавания целей-орехов, где исходное изображение содержит 12 орехов, включая 8 перекрытых (красные рамки) и 4 неперекрытых (желтые рамки). Модели, такие как YOLOv3-spp (b), YOLOv5m (d), YOLOv8m (h), YOLOv9m (i) и YOLOv9s (j), стабильно пропускали один перекрытый орех в нижнем левом углу. YOLOv3-spp (b) и YOLOv9s (j) также ошибочно идентифицировали листья как перекрытые орехи.
В YOLOv5s (c), YOLOv7 (e) и YOLOv7-tiny (f) два перекрытых ореха в нижнем левом углу были пропущены, при этом модели YOLOv7 ошибочно классифицировали листья как орехи. В то время как YOLOv8s (g) и YOLOv10 (k) обнаружили все орехи, они ложно обнаружили листья как перекрытые орехи. В отличие от этого, модель OW-YOLO точно обнаружила все восемь перекрытых орехов без ложных срабатываний, демонстрируя значительно более высокую точность в обнаружении как перекрытых, так и неперекрытых орехов по сравнению с другими моделями.
Мы обнаружили, что перекрытия листьями и ветками значительно влияют на модель, поскольку они скрывают ключевые признаки ореха, в частности его края, делая обнаружение более трудным. В тяжелых случаях, таких как перекрытие веткой, модель может не определить положение ореха, что приводит к ложноотрицательным срабатываниям. Напротив, хотя перекрывающиеся орехи могут вызывать некоторую потерю информации, области перекрытия все еще сохраняют определенные признаки, позволяя модели делать выводы. Таким образом, влияние перекрывающихся орехов меньше по сравнению с перекрытием листьями и ветками.
5. Обсуждение
5.1. Преимущества модели
В обнаружении целей-орехов OW-YOLO превосходит другие, особенно в сложных условиях и на устройствах с ограниченными ресурсами. В то время как Хао и др. достигли точности 99,5% с использованием YOLOv5 на наборе данных Южного региона Синьцзяна, большие вычислительные затраты и размер модели ограничили развертывание. В отличие от этого, OW-YOLO сочетает легковесный дизайн и оптимизированную архитектуру, снижая сложность и размер модели, сохраняя при этом высокую точность. По сравнению с другими моделями YOLO, такими как YOLOX-S и YOLOv5s-AMM, OW-YOLO предлагает более высокую эффективность, меньше параметров и хорошо работает при сложном перекрытии и освещении, с mAP@0,5 83,6%, снижая количество параметров на 49,2% и GFLOPs на 37,3%.
Чтобы проверить обобщающую способность OW-YOLO, мы протестировали ее на наборе данных по орехам с 2490 изображениями, исключая метки для перекрытых и неперекрытых орехов. Как показано в Таблице 12, OW-YOLO превосходит YOLOv8s по точности (90,3%), полноте (89,4%) и F1-мере (78,9%), демонстрируя более сильные способности обнаружения, в частности в снижении ложноотрицательных и ложноположительных срабатываний. mAP@0,5 составляет 94,7%, что выше, чем у YOLOv8s — 93,7%, а mAP@[0,5:0,95] улучшается до 62,8%. Размер файла OW-YOLO составляет 3,173 МБ, что намного меньше, чем 21,993 МБ у YOLOv8s, а ее вычислительная стоимость и количество параметров значительно снижены, демонстрируя лучшую эффективность и оптимизацию хранения. Это подтверждает пригодность OW-YOLO для сельскохозяйственных приложений с ограниченными ресурсами.
Таблица 12. Сравнение YOLOv8s и OW-YOLO на наборе данных по орехам в естественных условиях.
5.2. Ограничения модели
Хотя модель OW-YOLO улучшает точность обнаружения орехов, сохраняя легковесную структуру, все еще существуют ограничения: (1) Несмотря на повышение точности обнаружения перекрытых орехов, ложноположительные и ложноотрицательные срабатывания остаются. (2) Количество параметров и вычислительная нагрузка основы, хотя и улучшенные, все еще накладывают значительную нагрузку. (3) Точность обнаружения зависит от различных условий освещения.
Рисунок 14 визуализирует случаи неудач, где желтые метки указывают на ложноположительные срабатывания, а красные — на ложноотрицательные. Сниженная точность в основном связана с условиями освещения (яркий свет, контровой свет и слабое освещение), которые размывают края цели и теряют детали. Дополнительно, потеря контекстной информации из-за перекрытия и несоответствие с якорными рамками дальнейшая усложняют обнаружение. Когда масштаб объекта меняется, модель может не точно предсказать его местоположение, особенно в случаях сильного перекрытия.
Рисунок 14. Визуализация случаев неудач.
5.3. Перспективы модели
Данное исследование показало, что производительность модели OW-YOLO в обнаружении перекрытых орехов снижалась при сложных условиях освещения, особенно при ярком свете, где передержка размывала границы, и в контровом или слабоосвещенном окружении, где контраст с фоном был низким, что приводило к пропускам и ложным срабатываниям. Будущие исследования могут расширить набор данных изображениями с разных времени суток и погодных условий, чтобы улучшить обобщающую способность модели. Комбинирование мультимодальных данных, таких как видимый свет с инфракрасными или мультиспектральными изображениями, может помочь в условиях слабого освещения. Дополнительно, интеграция динамического выбора признаков с механизмами внимания повысит адаптируемость к сложным вариациям освещения.
Обнаружение в реальном времени на видео создает дополнительные проблемы, включая размытие движения и меняющийся фон, требующие более высокой производительности модели. С развитием оборудования развертывание OW-YOLO для обнаружения в реальном времени на встраиваемых системах станет более осуществимым.
Успех OW-YOLO в обнаружении орехов дает представление для других задач обнаружения мелких объектов в сельском хозяйстве, таких как обнаружение вредителей, обнаружение плодов (например, яблок и апельсинов) и обнаружение семян, все из которых могут помочь улучшить прогнозирование урожайности и точное земледелие.
6. Выводы
Точное обнаружение урожайности орехов и роботизированный сбор имеют ключевое значение в сельскохозяйственном производстве, особенно в таких регионах, как Юньнань, с горным рельефом. Сбор данных на основе БПЛА является обычным, но проблемы, такие как перекрытие листьями, перекрытие плодов и сложный фон, создают трудности при обнаружении орехов, в частности с мелкими целями.
Для решения нехватки данных в этой области мы разделили набор данных по орехам на метки перекрытых и неперекрытых, состоящий из 2378 изображений орехов и 3115 целей, включая 2208 перекрытых и 906 неперекрытых меток. Для улучшения эффективности обнаружения мы оптимизировали модель YOLOv8s и предложили OW-YOLO, интегрировав базовую сеть DWR-DRB, легковесную сеть слияния признаков HSFPN и эффективную голову детектора LADH. Результаты экспериментов показывают, что OW-YOLO значительно превосходит YOLOv8s в обнаружении перекрытых орехов.
OW-YOLO обеспечивает значительную практическую ценность в обнаружении целей-орехов, улучшая точность и снижая ложноположительные и ложноотрицательные срабатывания. Она поддерживает точное земледелие, предлагая эффективное решение для распознавания орехов на БПЛА и автоматизированных устройствах.
Однако все еще есть возможности для улучшения в сложных условиях. Будущие исследования могут изучить мультиспектральные и инфракрасные данные для улучшения обнаружения при различных условиях освещения. Дополнительно, развертывание OW-YOLO на встраиваемых системах для обнаружения в реальном времени может предложить решения с низкой задержкой и высокой точностью для сельскохозяйственного мониторинга, дальнейшая повышая ее практическое применение в сельскохозяйственной интеллектуализации.
Ссылки
1. Regueiro, J.; Sánchez-González, C.; Vallverdú-Queralt, A.; Simal-Gándara, J.; Lamuela-Raventós, R.; Izquierdo-Pulido, M. Comprehensive identification of walnut polyphenols by liquid chromatography coupled to linear ion trap–Orbitrap mass spectrometry. Food Chem. 2014, 152, 340–348. [Google Scholar] [CrossRef] [PubMed]
2. Jia, A.; Lin, L.; Li, Y.; Fan, X. Diversity and Pathogenicity of Six Diaporthe Species from Juglans regia in China. J. Fungi 2024, 10, 583. [Google Scholar] [CrossRef] [PubMed]
3. Li, H.; Han, J.; Zhao, Z.; Tian, J.; Fu, X.; Zhao, Y.; Wei, C.; Liu, W. Roasting treatments affect oil extraction rate, fatty acids, oxidative stability, antioxidant activity, and flavor of walnut oil. Front. Nutr. 2023, 9, 1077081. [Google Scholar] [CrossRef] [PubMed]
4. Liu, Z.; Abeyrathna, R.M.R.D.; Sampurno, R.M.; Nakaguchi, V.M.; Ahamed, T. Faster-YOLO-AP: A lightweight apple detection algorithm based on improved YOLOv8 with a new efficient PDWConv in orchard. Comput. Electron. Agric. 2024, 223, 109118. [Google Scholar] [CrossRef]
5. Chen, J.; Ma, A.; Huang, L.; Li, H.; Zhang, H.; Huang, Y.; Zhu, T. Efficient and lightweight grape and picking point synchronous detection model based on key point detection. Comput. Electron. Agric. 2024, 217, 108612. [Google Scholar] [CrossRef]
6. Nan, Y.; Zhang, H.; Zeng, Y.; Zheng, J.; Ge, Y. Intelligent detection of Multi-Class pitaya fruits in target picking row based on WGB-YOLO network. Comput. Electron. Agric. 2023, 208, 107780. [Google Scholar] [CrossRef]
7. Shorewala, S.; Ashfaque, A.; Sidharth, R.; Verma, U. Weed density and distribution estimation for precision agriculture using semi-supervised learning. IEEE Access 2021, 9, 27971–27986. [Google Scholar] [CrossRef]
8. Redmon, J. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 June 2016. [Google Scholar]
9. Wang, C.Y.; Yeh, I.H.; Liao, H.Y.M. Yolov9: Learning what you want to learn using programmable gradient information. arXiv 2024, arXiv:2402.13616. [Google Scholar]
10. Wang, A.; Chen, H.; Liu, L.; Chen, K.; Lin, Z.; Han, J.; Ding, G. Yolov10: Real-time end-to-end object detection. arXiv 2024, arXiv:2405.14458. [Google Scholar]
11. Liu, W.; Anguelov, D.; Erhan, D.; Szegedy, C.; Reed, S.E.; Fu, C.-Y.; Berg, A. Ssd: Single shot multibox detector. In Proceedings of the Computer Vision–ECCV 2016: 14th European Conference, Proceedings, Part I 14, Amsterdam, The Netherlands, 11–14 October 2016; Springer International Publishing: Cham, Switzerland, 2016; pp. 21–37. [Google Scholar]
12. Tan, M.; Pang, R.; Le, Q.V. Efficientdet: Scalable and efficient object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, WA, USA, 13–19 June 2020; pp. 10781–10790. [Google Scholar]
13. Ren, S.; He, K.; Girshick, R.; Sun, J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Trans. Pattern Anal. Mach. Intell. 2016, 39, 1137–1149. [Google Scholar] [CrossRef]
14. He, K.; Gkioxari, G.; Dollár, P.; Girshick, R. Mask r-cnn. In Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 22–29 October 2017; pp. 2961–2969. [Google Scholar]
15. Zhang, H.; Li, F.; Liu, S.; Zhang, L.; Su, H.; Zhu, J.; Ni, L.M.; Shum, H.-Y. Dino: Detr with improved denoising anchor boxes for end-to-end object detection. arXiv 2022, arXiv:2203.03605. [Google Scholar]
16. Redmon, J.; Farhadi, A. Yolov3: An incremental improvement. arXiv 2018, arXiv:1804.02767. [Google Scholar]
17. Bochkovskiy, A.; Wang, C.-Y.; Liao, H.-Y.M. Yolov4: Optimal speed and accuracy of object detection. arXiv 2020, arXiv:2004.10934. [Google Scholar]
18. Ultralytics. Comprehensive Guide to Ultralytics YOLOv5. Available online: https://docs.ultralytics.com/yolov5/ (accessed on 28 May 2024).
19. Li, C.; Li, L.; Jiang, H.; Weng, K.; Geng, Y.; Li, L.; Ke, Z.; Li, Q.; Cheng, M.; Nie, W.; et al. Yolov6: A single-stage object detection framework for industrial applications. arXiv 2022, arXiv:2209.02976. [Google Scholar]
20. Wang, C.-Y.; Bochkovskiy, A.; Liao, H.-Y.M. Yolov7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, BC, Canada, 17–24 June 2023; pp. 7464–7475. [Google Scholar]
21. Sanlin, Z.; Liping, Z.; Weiqiang, Z.; Zhuang, G.; Ziqiang, F. Identification and localization of walnut varieties based on YOLOv5. J. Chin. Agric. Mech. 2022, 43, 167. [Google Scholar]
22. Zhan, Z.; Li, L.; Lin, Y.; Lv, Z.; Zhang, H.; Li, X.; Zhang, F.; Zeng, Y. Rapid and accurate detection of multi-target walnut appearance quality based on the lightweight improved YOLOv5s_AMM model. Front. Plant Sci. 2023, 14, 1247156. [Google Scholar] [CrossRef]
23. Zhengyang, Z.; Lijun, Y.; Xuanxi, Y.; Zaiqing, C. Research on Walnut Recognition Algorithm in Natural Environment Based on Improved YOLOX. J. Henan Agric. Sci. 2024, 53, 152. [Google Scholar]
24. Hao, J.; Bing, Z.; Yang, S.; Lei, S. Detection of green walnut by improved YOLOv3. Trans. Chin. Soc. Agric. Eng. 2022, 38, 183–190. [Google Scholar]
25. Wu, M.; Yun, L.; Xue, C.; Chen, Z.; Xia, Y. Walnut Recognition Method for UAV Remote Sensing Images. Agriculture 2024, 14, 646. [Google Scholar] [CrossRef]
26. Yang, C.; Cai, Z.; Wu, M.; Yun, L.; Chen, Z.; Xia, Y. Research on Detection Algorithm of Green Walnut in Complex Environment. Agriculture 2024, 14, 1441. [Google Scholar] [CrossRef]
27. Fu, K.; Lei, T.; Halubok, M.; Bailey, B.N. Walnut Detection Through Deep Learning Enhanced by Multispectral Synthetic Images. arXiv 2023, arXiv:2401.03331. [Google Scholar]
28. Li, J.; Kong, D.; Wang, J.; Zhang, Q.; Qing, Z. FastQAFPN-YOLOv8s-based method for rapid and lightweight detection of walnut unseparated material. J. Imaging 2023, 10, 309. [Google Scholar] [CrossRef] [PubMed]
29. Ahirwar, S.; Swarnkar, R.; Bhukya, S.; Namwade, G. Application of drone in agriculture. Int. J. Curr. Microbiol. Appl. Sci. 2019, 8, 2500–2505. [Google Scholar] [CrossRef]
30. Jocher, G. Ultralytics YOLOv8. 2023. Available online: https://github.com/ultralytics/ultralytics (accessed on 17 January 2024).
31. Lin, T.Y.; Dollár, P.; Girshick, R.; He, K.; Hariharan, B.; Belongie, S. Feature pyramid networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 21–26 July 2017; pp. 2117–2125. [Google Scholar]
32. Liu, S.; Qi, L.; Qin, H.; Shi, J.; Jia, J. Path aggregation network for instance segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 18–23 June 2018; pp. 8759–8768. [Google Scholar]
33. Sinha, D.; El-Sharkawy, M. Thin mobilenet: An enhanced mobilenet architecture. In Proceedings of the IEEE 10th Annual Ubiquitous Computing, Electronics & Mobile Communication Conference (UEMCON), New York, NY, USA, 10–12 October 2019; IEEE: New York, NY, USA, 2019; pp. 280–285. [Google Scholar]
34. Zhang, X.; Zhou, X.; Lin, M.; Sun, J. Shufflenet: An extremely efficient convolutional neural network for mobile devices. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 18–23 June 2018; pp. 6848–6856. [Google Scholar]
35. Wei, H.; Liu, X.; Xu, S.; Dai, Z.; Dai, Y.; Xu, X. DWRSeg: Rethinking efficient acquisition of multi-scale contextual information for real-time semantic segmentation. arXiv 2022, arXiv:2212.01173. [Google Scholar]
36. Chen, Y.; Zhang, C.; Chen, B.; Huang, Y.; Sun, Y.; Wang, C.; Fu, X.; Dai, Y.; Qin, F.; Peng, Y.; et al. Accurate leukocyte detection based on deformable-DETR and multi-level feature fusion for aiding diagnosis of blood diseases. Comput. Biol. Med. 2024, 170, 107917. [Google Scholar] [CrossRef] [PubMed]
37. Zhang, J.; Chen, Z.; Yan, G.; Wang, Y.; Hu, B. Faster and Lightweight: An Improved YOLOv5 Object Detector for Remote Sensing Images. Remote Sens. 2023, 15, 4974. [Google Scholar] [CrossRef]
Wang H, Yun L, Yang C, Wu M, Wang Y, Chen Z. OW-YOLO: An Improved YOLOv8s Lightweight Detection Method for Obstructed Walnuts. Agriculture. 2025; 15(2):159. https://doi.org/10.3390/agriculture15020159
Перевод статьи «OW-YOLO: An Improved YOLOv8s Lightweight Detection Method for Obstructed Walnuts» авторов Wang H, Yun L, Yang C, Wu M, Wang Y, Chen Z., оригинал доступен по ссылке. Лицензия: CC BY. Изменения: переведено на русский язык



































Комментарии (0)