Умный глаз для робота-сборщика: 3D-видение чайных почек для бережного сбора
В неструктурированной среде чайных плантаций точное распознавание и определение пространственного положения чайных почек имеют решающее значение для автономных роботов-сборщиков. Из-за различий в расстоянии съемки чайные почки демонстрируют разнообразные масштабные и позиционные характеристики в поле зрения камеры, что значительно усложняет процесс распознавания и оценки положения. В данном исследовании предлагается метод использования RGB-D камеры для точного распознавания и оценки 3D-положения чайных почек.
Аннотация
Подход сначала создает представление для чайных почек, а затем использует стратегию оценки с динамическим весом для достижения адаптивной оценки позы. Количественные эксперименты показывают, что модель сегментации экземпляров достигает mAP@50 в 92,0% для детекции ограничивающих рамок и 91,9% для детекции масок, что на 3,2% и 3,4% соответственно выше, чем у модели сегментации экземпляров YOLOv8s-seg. Результаты оценки положения указывают на максимальную угловую ошибку 7,76°, среднюю угловую ошибку 3,41°, медианную угловую ошибку 3,69° и медианное абсолютное отклонение 1,42°. Соответствующие ошибки по расстоянию составляют 8,60 мм, 2,83 мм, 2,57 мм и 0,81 мм, что дополнительно подтверждает точность и надежность предлагаемого метода. Эти результаты свидетельствуют о том, что предлагаемый метод может быть применен в неструктурированных условиях чайных плантаций для бережного и точного сбора урожая автономными роботами-сборщиками чайных почек.
1. Введение
Чай является важной во всем мире экономической культурой, высоко ценимой за свои фармакологические свойства и богатое питательное содержание, что делает его популярным среди потребителей [1]. Среди них высококачественный чай, известный своей высокой питательной и экономической ценностью, пользуется особым спросом. Однако сбор высококачественного чая зависит от ручного труда, имеет короткий период сбора и строгие стандарты, что делает нехватку рабочей силы ключевым узким местом, ограничивающим производственные мощности и препятствующим повышению эффективности производства. Особенно в Китае с ускорением старения населения и урбанизацией сокращение рабочей силы дополнительно привело к росту производственных затрат, что вызвало снижение урожайности высококачественного чая [2,3]. Поэтому разработка автономного робота для сбора чайных почек является не только необходимым средством для решения текущих проблем, но и неизбежной тенденцией для стимулирования интеллектуальной трансформации индустрии высококачественного чая и повышения эффективности производства. В неструктурированной среде чайного сада форма, масштаб и плотность чайных почек значительно различаются, что представляет большие трудности для задачи сбора [4,5]. Хотя информация о положении чайных почек предоставляет некоторые пространственные данные, этого недостаточно для достижения точного и бережного сбора. Автономные роботы для сбора могут столкнуться с неудачами при сборе и повреждением цели, полагаясь исключительно на данные о положении. Следовательно, оценка трехмерного (3D) положения цели сбора имеет ключевое значение. Автономный робот для сбора может корректировать свою позу сбора на основе информации о 3D-положении чайных почек, обеспечивая точный и бережный сбор.
Технология распознавания цели для роботов по сбору чайных почек ключевая для автономного сбора. Она в основном включает два основных подхода: традиционные методы цифровой обработки изображений и методы глубокого обучения [6]. Традиционные методы цифровой обработки изображений требуют ручного извлечения признаков [7], что может обеспечивать результаты сегментации чайных почек, но часто страдает от более низкой точности и более высоких требований к качеству изображения [8,9]. Karunasena и др. [10] объединили методы цифровой обработки изображений с машинным обучением для идентификации чайных почек, но их метод достиг точности всего 55%. Этот подход имеет ограниченную эффективность и не позволяет адекватно решить проблему распознавания чайных почек в сложных условиях. Zhang и др. [11] применили улучшенный алгоритм водораздела для сегментации чайных почек при различных условиях освещения. Однако их исследование проверило метод только на чайных почках, которые не были закрыты, и производительность этого подхода в неструктурированных условиях чайного сада не была полностью подтверждена, особенно в отношении его способности справляться с нерегулярным ростом и перекрывающимися листьями. Следовательно, традиционные методы цифровой обработки изображений все еще проявляют значительные недостатки в сложных условиях. В отличие от этого, методы глубокого обучения извлекают многоуровневые признаки через обучение, предлагая значительные преимущества при столкновении с такими проблемами, как различные условия освещения и сложный фон в неструктурированных чайных садах [12,13]. Li и др. [14] оптимизировали Backbone, Neck и функцию потерь модели YOLOv4, достигнув обнаружения цели чайных почек в неструктурированных условиях чайного сада. Chen и др. [15] использовали улучшенную модель YOLOv7 для многоуровневого и многоцелевого обнаружения чайных почек в таких условиях, достигнув отличной средней точности 94,43%. Другие исследователи также сообщали о связанной работе по обнаружению цели чайных почек [16,17,18,19]. Однако обнаружение цели чайных почек предоставляет только ограничивающую рамку цели, и фоновая информация внутри рамки может мешать роботу для сбора, влияя на его производительность.
Семантическая сегментация и сегментация экземпляров являются эффективными методами для точного определения местоположений чайных почек. Lu и др. [20] использовали четыре метода — Deeplabv3+, U-Net, HRNet_W18 и Fast-SCNN — для сегментации чайных почек, достигнув средних показателей пересечения по объединению (mIoU) 78,59%, 79,64%, 81,00% и 74,80% соответственно. Эти результаты обеспечивают прочную основу для определения точек сбора чайных почек. Zhang и др. [21] применили улучшенную версию DeepLabv3+ для генерации масок чайных почек и использовали YOLOv7 для извлечения местоположений точек сбора из этих масок. Однако частота ошибок значительно возросла, когда система сталкивалась с различными формами листьев и ситуациями окклюзии. В неструктурированных условиях чайного сада камера часто захватывает цели, которые различаются по масштабу и форме, что усложняет обнаружение. Чтобы решить эту задачу, Chen и др. [22] включили механизм внимания и модель агрегации с несколькими путями в структуру семантической сегментации для чайных почек. Этот подход существенно улучшил производительность сегментации, особенно в случаях, связанных с листьями различной формы. Хотя эти методы успешно идентифицируют детализированные положения чайных почек из RGB-изображений, они не учитывают 3D-информацию целей, что ограничивает способность робота выполнять точные операции в сложных условиях.
3D-положение цели сбора предоставляет роботу-сборщику более точную пространственную информацию, позволяя ему перемещаться в указанное место и соответствующим образом корректировать свою позу сбора [23]. Это ключевое значение для достижения бережного и точного сбора [24,25,26], как показано на Рисунке 1. В последние годы много исследователей сосредоточились на оценке позы для целей сбора. Lin и др. [27] предложили метод оценки позы гуавы с использованием RGB-D камеры, который включал распознавание как фрукта, так и ветвей. Используя пространственное соотношение между ними, они успешно оценили позу фрукта, достигнув угловой ошибки 23,43° ± 14,18°. Luo и др. [28] использовали Mask R-CNN для обнаружения винограда и цветоножки, а затем применили алгоритм локально взвешенного сглаживания рассеяния (LOWESS) и геометрический анализ для оценки позы стебля. Средняя угловая ошибка в оценке позы стебля составила 22,2°. Zhu и др. [29] представили новый метод для оценки позы питайи, используя позиционное соотношение между фруктом и ветвями для оценки позы фрукта, достигнув средней угловой ошибки 8,8°. Хотя эти исследования в основном нацелены на фрукты правильной формы, применение подобных методов к чайным почкам, которые имеют высоко изменчивую морфологию, представляет значительные трудности.
Рисунок 1. Робот корректирует позу сбора на основе оцененной позы чайных почек. На рисунке A — вершина листа, B — вершина чайной почки, C — самая нижняя точка стебля. D — центроид плоскости роста, образованной A, B и C. Линия, соединяющая D и C, определяет позу чайных почек.
В данном исследовании решается сложная задача оценки позы чайных почек в неструктурированных условиях чайного сада путем предложения метода оценки позы на основе RGB-D камеры. Во-первых, используется улучшенная модель сегментации экземпляров YOLOv8s-seg для получения точной локализации чайных почек. Затем вводится метод адаптивной оценки на основе динамических весов для оценки позы чайных почек, позволяющий точно оценивать позу в неструктурированных условиях чайного сада и предоставляя основу для принятия решений автономному роботу для сбора чайных почек.
2. Материалы и методы
2.1. Сбор и обработка данных
Данное исследование сосредоточено на сорте Yinghong No. 9, данные изображений были собраны в естественной среде в Южно-Китайском сельскохозяйственном университете в Гуанчжоу, провинция Гуандун, Китай. Из-за сложного фона в чайных садах внешний вид изображений чайных почек различается при разных углах обзора. Чтобы повысить надежность и обобщаемость визуальной модели, предложенной в этом исследовании, был проведен эксперимент по сбору данных изображений с нескольких углов с использованием камеры глубины Intel RealSense D405. Были захвачены несколько RGB и глубинных изображений с различных углов. RGB-изображения использовались для распознавания визуальной моделью, в то время как глубинные изображения предоставляли 3D-информацию для оценки позы чайных почек. Набор данных состоит из 1434 исходных RGB-изображений, которые были размечены с помощью программного обеспечения LabelMe (https://github.com/labelmeai/labelme, доступ осуществлен 17 августа 2023 г.). Информация о метках хранится в формате "json". В процессе маркировки применялся подход "одна почка - один лист", с метками "tea_Y", "tea_I" и "tea_V", назначенными для представления трех различных форм чайных почек в поле зрения камеры. В частности, "tea_Y" указывает, что чайная почка, чайный лист и стебель хорошо видны; "tea_I" указывает, что чайная почка и чайный лист перекрываются под заданным углом, а стебель хорошо виден; "tea_V" указывает, что чайная почка и чайный лист хорошо видны, а стебель закрыт. Среда чайного сада для сбора данных и размеченные RGB-изображения показаны на Рисунке 2.
Рисунок 2. Схема сбора данных.
В неструктурированных условиях чайного сада различия в условиях освещения и разнообразная морфология чайных почек представляют значительные трудности для точного распознавания чайных почек визуальной системой. Чтобы решить эти задачи и повысить надежность модели визуального распознавания, к исходному набору данных были применены методы аугментации данных, такие как отражение, корректировка контраста и изменение насыщенности. Это привело к общему количеству 2868 RGB-изображений. Статистика набора данных показана в Таблице 1. Набор данных включает 6912 образцов, помеченных как "tea_Y", 3762 образца, помеченных как "tea_I", и 3716 образцов, помеченных как "tea_I". Набор данных был разделен на обучающую, проверочную и тестовую выборки в соотношении 8:1:1.
Таблица 1. Статистика набора данных.
2.2. Модель сегментации экземпляров для чайных почек
2.2.1. Модель сегментации YOLOv8
Модель YOLOv8 — это современная (SOTA) модель, которая показала значительные преимущества в таких задачах, как классификация изображений, обнаружение объектов, оценка позы и сегментация экземпляров. В этом исследовании модель YOLOv8s-seg используется в качестве базовой для получения много-морфологических масок чайных почек из RGB-изображений. YOLOv8s-seg состоит из трех основных компонентов: Backbone (основа), Neck (шейка) и Head (голова). Backbone отвечает за извлечение признаков из входного изображения, создавая карты признаков на различных масштабах. Neck объединяет эти многоуровневые карты признаков из Backbone для улучшения способности представления признаков модели. Затем Head делает точные предсказания на основе этих признаков. Чтобы решить задачи, вызванные различными морфологическими характеристиками чайных почек и различными масштабами целей в сложной, неструктурированной среде чайного сада, это исследование предлагает новую модель много-морфологической сегментации для чайных почек.
(i) Модуль E-GELAN создан и интегрирован в Backbone для извлечения признаков, превосходно захватывая детализированные морфологические признаки и контекстную информацию чайных почек.
(ii) DCNv2 и Dynamic Head используются для улучшения Neck и YOLO Head, повышая дифференциальное представление глобальных и локальных признаков.
(iii) Функция потерь Wise-IoUv3 используется для обучения модели, динамически корректируя веса на основе различных форм и масштабов целей, тем самым повышая адаптируемость модели к неструктурированной среде чайного сада.
Архитектура модели сегментации экземпляров показана на Рисунке 3.
Рисунок 3. Модель сегментации экземпляров чайных почек.
2.2.2. Модуль E-GELAN
В этом разделе мы представляем новый модуль E-GELAN. Модули ELAN и Extended-ELAN (E-ELAN), предложенные в YOLOv7 [30], извлекают более разнообразные признаки вдоль различных градиентных путей, тем самым повышая способность модели к извлечению признаков. YOLOv9 [31] балансирует скорость вывода и точность, комбинируя модуль CSPNet с модулем ELAN для разработки обобщенного ELAN (GELAN). Вдохновленные этим подходом, мы предлагаем новый модуль Extended-GELAN (E-GELAN), адаптированный для много-морфологических характеристик чайных почек в поле зрения. Модуль E-GELAN использует стратегию агрегации с несколькими путями для повышения способности извлекать разнообразные признаки, позволяя всесторонне захватывать морфологические детали и контекстную информацию чайных почек. Структура модуля E-GELAN показана на Рисунке 4.
Рисунок 4. Модули GELAN и E-GELAN. (a) Модуль GELAN; (b) Модуль E-GELAN.
2.2.3. DCNv2 и Dynamic Head
В неструктурированных условиях чайного сада чайные почки проявляют разнообразные геометрические характеристики, что затрудняет для традиционных операций свертки захват детализированных морфологических признаков. Чтобы улучшить способность модели выражать как глобальные, так и локальные признаки отчетливо, сверточный модуль в Neck модели YOLOv8s-seg заменен на Deformable ConvNets v2 (DCNv2) [32]. Эта модификация направлена на то, чтобы направить модель на адаптацию к вариациям размера рецептивного поля в различных морфологических формах чайных почек. Структура модифицированной модели показана на Рисунке 5.
Рисунок 5. DCNv2.
DCNv2 использует обучаемые смещения и масштабирующие коэффициенты модуляции для создания деформируемого ядра свертки, которое адаптивно корректирует свою форму, позволяя захватывать различные морфологические признаки целей во входной карте признаков. Сначала указывается размер деформируемого ядра свертки и предопределенные смещения. Например, при деформируемом ядре свертки 3 × 3 количество позиций выборки K = 9, а предопределенное смещение 𝑝𝑘∈{(−1,−1),(−1,0),⋯(1,1)}. Затем входная карта признаков 𝑥 обрабатывается через DCNv2, и выходная карта признаков 𝑦 вычисляется, как показано в Уравнении (1).
где 𝑝 представляет позицию в карте признаков, 𝜇𝑘 представляет вес в позиции выборки, а Δ𝑝𝑘 и Δ𝑚𝑘 представляют обучаемое смещение и масштабирующий коэффициент модуляции в позиции выборки соответственно. Δ𝑝𝑘 — неограниченное действительное число, в то время как Δ𝑚𝑘∈[0,1].
Для модели сегментации экземпляров чайных почек эффективная и точная Head особенно ключевая. Хотя YOLOv8s-seg Head достигла заметного успеха в обнаружении объектов, она все еще сталкивается с ограничениями в предсказании чайных почек в неструктурированных условиях чайного сада, в основном из-за ее зависимости от одного признака для предсказания. Чтобы решить эту проблему, в данном исследовании используется Dynamic Head [33] для предсказания, который включает возможности осознания масштаба, пространства и задачи. Этот подход эффективно повышает точность распознавания модели для много-морфологических чайных почек в неструктурированных условиях чайного сада. Структура Dynamic Head показана на Рисунке 6.
Рисунок 6. Dynamic Head.
Dynamic Head получает выходы от различных уровней Neck и выполняет увеличение или уменьшение масштаба для унификации масштаба, создавая 4-мерный тензор 𝐹∈𝑅𝐿×𝐻×𝑊×𝐶. Если выразить как 𝑆=𝐻×𝑊, выход представляет собой 3-мерный тензор 𝐹∈𝑅𝐿×𝑆×𝐶. Dynamic Head применяет механизмы внимания к различным измерениям, с конкретными расчетами, показанными в Уравнении (2).
где 𝜋𝐿, 𝜋𝑆 и 𝜋𝐶 представляют модули внимания для трех различных измерений: L, S и C соответственно. Модуль внимания к масштабу 𝜋𝐿 используется для слияния признаков в различных масштабах на карте признаков, модуль пространственного внимания 𝜋𝑆 повышает способность модели различать пространственное положение, а модуль внимания к задаче 𝜋𝐶 динамически активируется в соответствии с конкретной задачей. Их выражения даны следующим уравнением:
где 𝑓 представляет функцию линейного преобразования свертки 1 × 1, с 𝜎(𝑥)=max(0,min(1,𝑥+12)). Во время вычисления 𝜋𝑆 переменные параметры соответствуют таковым в DCNv2. При вычислении 𝜋𝐶, [𝛼1,𝛽1,𝛼2,𝛽2]𝑇 — это гиперфункция, которая контролирует порог активации, а 𝐹𝑐 относится к срезам признаков каналов.
2.2.4. Функция потерь Wise-IoUv3
В задачах сегментации изображений функция потерь используется для оценки расхождения между предсказанными значениями и истинными значениями. Для сегментации экземпляров чайных почек цели относительно малы и часто становятся скрытыми сложным фоном, что делает традиционные функции потерь IoU недостаточными для удовлетворения требований распознавания. Чтобы решить эту задачу, в данном исследовании используется Wise-IoUv3 [34] в качестве функции потерь. Wise-IoUv3 адаптивно корректирует веса на основе размера и категории целей, тем самым улучшая производительность обнаружения для труднообнаруживаемых целей. Расчет Wise-IoUv3 показан в Уравнении (6).
где 𝐿𝐼𝑜𝑈 представляет традиционную функцию потерь IoU, и меньшее значение указывает на лучшую производительность предсказания модели. 𝑅𝑊𝐼𝑜𝑈 обозначает функцию метрики расстояния между предсказанными и истинными ограничивающими рамками. 𝑥, 𝑦, 𝑥𝑔𝑡, и 𝑦𝑔𝑡 представляют координаты предсказанной и истинной рамок, в то время как 𝑊𝑔 и 𝐻𝑔 обозначают ширину и высоту минимального ограничивающего прямоугольника для предсказанной и истинной рамок соответственно. (𝑊2𝑔+𝐻2𝑔)∗ представляет коэффициент нормализации, обеспечивая, чтобы результаты не зависели от размера ограничивающего прямоугольника. 𝑟 относится к усилению градиента, а 𝛽 обозначает степень выброса. 𝛼 и 𝛿 являются гиперпараметрами.
2.3. Метод адаптивной оценки позы чайных почек на основе динамических весов
2.3.1. Получение локального облака точек чайных почек на основе ORBSLAM3
В процессе построения полной формы чайных почек с использованием RGB-D камеры возникают значительные трудности из-за расхождений между RGB-изображениями и глубинными изображениями, полученными при однопозиционной съемке. В результате необходимо комбинировать облака точек из многопозиционной съемки для создания всестороннего 3D-представления цели [35]. Визуальная одновременная локализация и картографирование (VSLAM) — это технология, которая позволяет в реальном времени оценивать как 3D-структуру среды, так и положение камеры. ORBSLAM3 [36], продвинутый алгоритм VSLAM, работает исключительно хорошо в сложных условиях, обнаруживая и сопоставляя ORB-особые точки для извлечения ключевых точек из поля зрения и используя методы оптимизации графа для построения плотных облаков точек. В этом исследовании ORBSLAM3 используется для оценки положения камеры в реальном времени, получения матрицы вращения R и матрицы трансляции T, как показано на Рисунке 7. Затем глубинное изображение преобразуется в 3D облако точек с использованием внутренних параметров камеры. Используя матрицу вращения R и матрицу трансляции T из многопозиционной съемки, 3D облака точек из этих различных позиций точно выравниваются для генерации глобального, плотного облака точек цели. Наконец, выходная маска модели сегментации экземпляров используется для определения целевой области, извлекая локальное облако точек, представляющее полную форму чайных почек.
Рисунок 7. Обзор алгоритма ORBSLAM3.
Сравнение между облаками точек, полученными из одной позиции съемки, и теми, которые объединены из нескольких позиций съемки, как показано на Рисунке 8, отчетливо демонстрирует преимущества использования ORBSLAM3 для оценки позы камеры из нескольких позиций съемки при построении полной формы облака точек чайных почек.
Рисунок 8. Сравнение локального облака точек, полученного при однопозиционной съемке и многопозиционной съемке для чайных почек.
2.3.2. Предварительная обработка облака точек
Плотные облака точек предоставляют более точное представление морфологических признаков чайных почек. Однако из-за таких факторов окружающей среды, как ограничения камеры, локальные облака точек чайных почек могут содержать шум и выбросы, что может влиять на точность и скорость оценки позы. Следовательно, фильтрация и понижающая дискретизация полученных облаков точек чайных почек являются ключевыми этапами в процессе оценки позы. Статистическая фильтрация выбросов (SOR) — это эффективный метод удаления выбросов. Этот подход вычисляет среднее расстояние между каждой точкой и ее соседними точками, а также глобальное стандартное отклонение расстояний, чтобы определить, является ли точка выбросом. Конкретно, для набора облаков точек чайных почек {T1,T2,…,Tn}, среднее расстояние целевого облака точек до его соседних точек и глобальное стандартное отклонение расстояний вычисляются следующим образом:
где 𝑑𝑖 представляет среднее расстояние между облаком точек 𝑇𝑖(𝑥𝑖, 𝑦𝑖, 𝑧𝑖) и k ближайшими точками внутри окрестности, 𝜀 обозначает глобальное среднее расстояние набора облаков точек чайных почек, состоящего из 𝑛 точек, а 𝜎 — стандартное отклонение глобального среднего расстояния. Для пространственного облака точек 𝑇𝑖(𝑥𝑖, 𝑦𝑖, 𝑧𝑖) с расстоянием 𝑑𝑖, попадающим в стандартный диапазон [𝜀−𝜆𝜎, 𝜀+𝜆𝜎], точка сохраняется; в противном случае она считается выбросом и удаляется. В процессе фильтрации SOR для 3D облаков точек большее значение k помогает повысить гладкость фильтрации и эффективно снизить влияние шума на результаты. Однако это также значительно увеличивает вычислительные затраты, что приводит к более длительному времени обработки. С другой стороны, меньшее значение 𝜆 приводит к тому, что больше точек классифицируются как выбросы и впоследствии отфильтровываются, что способствует удалению аномалий и шума. Однако, если 𝜆 слишком мал, он может ошибочно отбросить нормальные точки, таким образом влияя на качество облака точек. На основе нескольких тестов в этом исследовании было обнаружено, что 𝑘=30 и 𝜆=2 эффективно балансируют подавление шума и вычислительную эффективность. Эта комбинация не только удаляет большое количество шума, но также сохраняет основные морфологические признаки чайных почек в облаке точек.
Из-за значительно большей площади поверхности чайных листьев по сравнению с чайной почкой и стеблем, плотность облака точек на листьях значительно выше. Этот дисбаланс может привести к тому, что облако точек чайных почек застрянет в локальных оптимумах во время оценки позы. Чтобы смягчить эту проблему, необходимо выполнить понижающую дискретизацию облака точек чайных почек. Воксельная сетка понижающей дискретизации (https://github.com/PointCloudLibrary/pcl, доступ осуществлен 20 августа 2023 г.) — широко используемый метод для этой цели, который делит 3D-пространство на вокселы и заменяет все точки внутри каждого непустого воксела центроидом воксела.
2.3.3. Адаптивная оценка позы чайных почек на основе динамических весов
Использование оси симметрии фруктов в качестве косвенного представления их позы сообщалось во многих исследованиях. Однако высококачественный чай с одной почкой и одним листом не проявляет симметрии. Как показано на Рисунке 1, поскольку рост чайных почек следует направлению стебля, это исследование принимает три вершины, A, B и C, чайных почек для определения основной плоскости роста. Центральная точка этой плоскости роста обозначена как D. Поза чайных почек определяется линией, соединяющей D и C.
Чтобы представить основные морфологические признаки чайных почек, плотность облака точек на листьях обычно выше, чем у почки и стебля. Чтобы точно оценить позу чайных почек, облако точек можно сегментировать на продольные слои, и центроид облака точек каждого слоя используется для представления всего набора облаков точек чайных почек. Метод взвешенных наименьших квадратов преимуществен для линейной аппроксимации данных с низким уровнем шума, так как он назначает различные веса различным данным облаков точек, полностью учитывая различия между точками данных и их влияние на результаты аппроксимации. Пусть P представляет набор облаков точек центроидов для каждого слоя, где (𝑥𝑖, 𝑦𝑖, 𝑧𝑖)∈𝑃, 𝑖=1,2,⋯,𝑛. Целевая функция для метода взвешенных наименьших квадратов выражается следующим образом:
где 𝐷𝑥 и 𝐷𝑦 представляют целевые функции для аппроксимации набора облаков точек вдоль осей X и Y соответственно. 𝑀𝑥=[𝑎𝑥,𝑏𝑥]𝑇 и 𝑀𝑦=[𝑎𝑦,𝑏𝑦]𝑇 — параметры линий, аппроксимированных вдоль осей X и Y. ∂𝐷𝑥∂𝑀𝑥 и ∂𝐷𝑦∂𝑀𝑦 обозначают частные производные, и оптимальные значения 𝑀𝑥 и 𝑀𝑦 могут быть получены путем решения этого уравнения, когда частные производные установлены в ноль. 𝑋=[𝑥1,𝑥2,⋯𝑥𝑛]𝑇 и 𝑌=[𝑦1,𝑦2,⋯𝑦𝑛]𝑇 представляют векторы осей X и Y набора облаков точек P. 𝑊 — весовая матрица, а 𝐴 — матрица плана. Их выражения даны следующим уравнением:
𝑊 — диагональная матрица, где различные веса назначены каждой точке данных. Конкретно, 𝜔𝑖=𝑒𝛼𝑧𝑖, где 𝛼 — весовой коэффициент. Этот весовой коэффициент определяет вклад каждого облака точек признаков в процессе оценки позы. Однако из-за разнообразных морфологических характеристик чайных листьев в естественных условиях чайного сада статический дизайн весов не позволяет точно захватить и оценить морфологические признаки чайных почек на различных масштабах. Чтобы повысить надежность алгоритма оценки позы, это исследование использует Оптимизацию Роем Частиц (PSO) [37] для динамической оптимизации весового коэффициента 𝛼, эффективно захватывая и количественно оценивая морфологические признаки чайных почек. PSO — это эвристический алгоритм на основе популяции, в котором частицы обмениваются информацией для оценки приспособленности позиций. Функция приспособленности, построенная в этом исследовании, следующая:
где 𝑏𝑜𝑢𝑛𝑑𝑎𝑡𝑦(𝑝𝑐𝑑) представляет граничный набор точек предварительно обработанного облака точек чайных почек, в то время как 𝑃 обозначает облако точек признаков на этом наборе. 𝐿 и 𝑑→ относятся к любой точке и вектору направления вдоль главной оси облака точек чайных почек соответственно.
В процессе оптимизационной итерации PSO каждая частица непрерывно обновляет свою скорость и позицию на основе информации о приспособленности, тем самым направляя рой к глобальному оптимальному решению. Обновления скорости и позиции частицы в пространстве поиска даны следующими уравнениями:
где 𝑣𝑡𝑖 и 𝑠𝑡𝑖 представляют скорость и позицию частицы на временном шаге t соответственно. 𝑝𝑏𝑒𝑠𝑡𝑡𝑖 обозначает личную лучшую позицию 𝑖 частицы, в то время как 𝑔𝑏𝑒𝑠𝑡𝑡 представляет глобальную лучшую позицию на временном шаге t. 𝛽 — инерционный вес, 𝑐1 и 𝑐2 — когнитивный и социальный обучающие факторы, а 𝑟1 и 𝑟2 — случайные векторы.
2.4. Метрики оценки
2.4.1. Метрики оценки сегментации экземпляров
Производительность модели много-морфологической сегментации чайных почек ключевая для последующей оценки позы. В этом исследовании Средняя Точность (AP) и Средняя Средняя Точность (mAP) используются для оценки производительности модели много-морфологической сегментации чайных почек. AP — это обычно используемая метрика в сегментации экземпляров, состоящая из точности и полноты, которая отражает общую производительность распознавания для конкретного класса. mAP — это среднее значений AP в различных классах, предоставляя всестороннюю меру производительности распознавания модели для всех целей. Их конкретные формы даны следующими уравнениями:
где TP, FP и FN представляют истинно положительные, ложноположительные и ложноотрицательные соответственно.
2.4.2. Метрики оценки оценки позы
В этом исследовании угловая ошибка 𝜃 и ошибка расстояния 𝑑 между оцененной позой и истинной позой чайных почек используются для оценки производительности метода адаптивной оценки позы на основе динамических весов. Конкретные формулировки приведены ниже:
где 𝑢→1 и 𝑢→2 представляют векторы направления оцененной и истинной поз соответственно, в то время как 𝑀𝑁 представляет вектор, соединяющий любые две соответствующие точки между двумя позами.
Чтобы дополнительно всесторонне оценить производительность метода адаптивной оценки позы на основе динамических весов, несколько метрик используются для анализа ошибок оценки позы: максимальная ошибка, средняя ошибка, медианная ошибка и медианное абсолютное отклонение. Они рассчитываются следующим образом:
где 𝜃𝑚, 𝑑𝑚, 𝜃̲, 𝑑̲, 𝜃𝑀𝐸𝐷𝐸, 𝑑𝑀𝐸𝐷𝐸, 𝜃𝑀𝐴𝐸 и 𝑑𝑀𝐴𝐸 представляют максимальную ошибку, среднюю ошибку, медианную ошибку и медианное абсолютное отклонение угловых и дистанционных ошибок соответственно.
3. Результаты и обсуждение
3.1. Оценка производительности модели сегментации экземпляров чайных почек
3.1.1. Абляционные эксперименты
Таблица 2 показывает влияние различных улучшений на производительность модели сегментации экземпляров. Результаты указывают, что использование модуля E-GELAN для построения основной сети улучшает производительность распознавания для всех трех типов чайных почек, демонстрируя сильную способность модели в извлечении признаков и интеграции контекстной информации. С улучшениями Neck с использованием DCNv2 и принятием Dynamic Head, mAP@50 дополнительно улучшен, подчеркивая его способность выражать разнообразные признаки и смягчать потерю информации в процессе понижающей дискретизации. Наконец, обучая модель с Wise-IoUv3, mAP@50 для уровней box и mask достиг 92,0% и 91,9% соответственно, представляя улучшения на 3,2% и 3,4% по сравнению с исходной моделью.
Таблица 2. Экспериментальные результаты сравнения различных комбинаций.
3.1.2. Эксперимент сравнения функций потерь
Таблица 3 представляет результаты обучения модели с различными функциями потерь. Модель A относится к модели, полученной путем улучшения модели YOLOv8s-seg с E-GELAN, DCNv2 и Dynamic Head. Традиционная функция потерь IoU не имеет информации о расстоянии, когда нет перекрытия между предсказанной и истинной рамками, что приводит к проблемам оптимизации в процессе обучения. Чтобы решить это, функция потерь GIoU вводит концепцию минимальной ограничивающей рамки и измеряет расстояние путем расчета минимального ограничивающего прямоугольника между предсказанной и истинной рамками, что лучше направляет обучение модели [38]. Однако, когда минимальные ограничивающие прямоугольники идентичны, функция потерь GIoU не может различить относительное позиционирование между предсказанной и истинной рамками. В ответ, функция потерь DIoU включает расстояние между центральными точками предсказанной и истинной рамок, что ускоряет сходимость модели [39]. Однако функция потерь DIoU не учитывает соотношение сторон рамок. Функция потерь EIoU вычисляет длину и ширину как предсказанной, так и истинной рамок, предоставляя меру направленной потери [40]. Однако эти функции потерь подвержены дисбалансу выборок. Функция потерь Wise-IoUv3 решает эту проблему с динамическим немонотонным механизмом фокусировки, предлагая более надежное руководство во время обучения модели. Экспериментальные результаты демонстрируют, что функция потерь Wise-IoUv3 более подходит для задачи сегментации экземпляров чайных почек в неструктурированных условиях чайного сада.
Таблица 3. Экспериментальные результаты сравнения различных функций потерь.
3.1.3. Визуализация результатов сегментации экземпляров
Рисунок 9 показывает результаты сегментации модели YOLOv8-seg и модели сегментации экземпляров, предложенной в этом исследовании. Увеличенные области справа отображают ошибки сегментации. Основываясь на результатах, можно наблюдать, что обе модели работают хорошо, когда цель на изображении относительно велика. Однако, когда цель мала, модель YOLOv8-seg работает хуже, как показано на Изображении 1, Изображении 2 и Изображении 4 на Рисунке 9. Дополнительно, различные формы чайных почек представляют значительную задачу для модели. Например, как показано на Изображении 3, когда стебель короткий, модель YOLOv8-seg ошибочно обнаруживает чайную почку и второй лист как один объект. Эти результаты демонстрируют передовую производительность предложенной модели сегментации экземпляров в обработке чайных почек с различными масштабами и морфологическими характеристиками.
Рисунок 9. Результаты сегментации экземпляров чайных почек. (A) Исходное изображение, (B) предложенная модель сегментации экземпляров, (C) модель YOLOv8s-seg.
3.1.4. Сравнение с передовыми моделями сегментации
Чтобы более всесторонне оценить производительность много-морфологической модели сети сегментации чайных почек, было проведено сравнение между предложенной моделью сегментации экземпляров и другими передовыми моделями сегментации, включая Mask R-CNN [41], Cascade Mask R-CNN [42], YOLACT [43] и YOLACT++ [44]. Экспериментальные результаты представлены в Таблице 4.
Таблица 4. Экспериментальные результаты сравнения различных моделей.
Mask R-CNN разработан на основе Faster R-CNN, используя ResNet в качестве основной сети для извлечения признаков и FPN для слияния признаков на различных уровнях. Затем он классифицирует каждый пиксель, используя FCN поверх исходных задач классификации и регрессии для завершения сегментации. Cascade Mask R-CNN, как и Mask R-CNN, является двухэтапной моделью. Однако Cascade Mask R-CNN вводит каскадную структуру, которая непрерывно оптимизирует предсказанные цели. Эта структура использует различные пороги IoU для обучения модели, эффективно решая проблему недостатка положительных выборок на высоких порогах, избегая при этом проблемы плохой корректирующей производительности в областях с высоким IoU на низких порогах. Экспериментальные результаты указывают, что в неструктурированных условиях чайного сада Cascade Mask R-CNN превосходит Mask R-CNN в распознавании чайных почек, хотя все еще есть потенциал для дальнейшего улучшения.
YOLACT и YOLACT++ — одноэтапные модели, которые используют сети пирамиды признаков, что эффективно повышает корреляцию контекстной информации. С точки зрения производительности, они сопоставимы с двухэтапными моделями. YOLACT и YOLACT++ создают прототипные маски всего изображения, чтобы различать передний план и фон, используя карты признаков высокого разрешения, и завершают задачу сегментации экземпляров путем применения коэффициентов масок. Этот дизайн предоставляет большую гибкость при обработке объектов с изменчивой морфологией. Дополнительно, YOLACT++ вводит такие операции, как изменяемые свертки, чтобы дополнительно улучшить способность распознавания модели. Эксперименты показывают, что YOLACT и YOLACT++ превосходят Mask R-CNN и Cascade Mask R-CNN в задачах сегментации экземпляров чайных почек, включающих разнообразные морфологические признаки.
В неструктурированной среде чайного сада предложенная много-морфологическая модель сегментации чайных почек демонстрирует значительные преимущества перед этими основными высокопроизводительными моделями. mAP@50 для уровней box и mask составляет 92% и 91,9% соответственно, в то время как mAP@50-95 составляет 86% и 72,4%. Эти улучшения можно объяснить рядом оптимизаций, специально разработанных для решения морфологического разнообразия и других характеристик чайных почек в этой задаче.
3.2. Оценка производительности оценки позы чайных почек
3.2.1. Оценка угловой ошибки
В этом разделе мы провели эксперименты, используя предложенный метод адаптивной оценки на основе динамических весов и метод наименьших квадратов для оценки позы чайных почек. Рисунок 10 и Таблица 5 отображают сравнение угловых ошибок между двумя методами. Метод адаптивной оценки на основе динамических весов, предложенный в этом исследовании, привел к максимальной ошибке 7,76° и средней ошибке 3,41°, тогда как метод наименьших квадратов дал максимальную ошибку 20,97° и среднюю ошибку 10,58°. Максимальная ошибка была снижена на 67,77%, а средняя ошибка уменьшилась на 81,53%. Эти сокращения как максимальной, так и средней ошибок эффективно демонстрируют значительное преимущество метода адаптивной оценки с динамическими весами в общей точности оценки. Более того, этот метод показывает лучшую стабильность и надежность в сложной, неструктурированной среде чайного сада. Чтобы минимизировать влияние данных-выбросов, также использовались медианная ошибка и медианное абсолютное отклонение для оценки. Метод адаптивной оценки на основе динамических весов дал медианную ошибку 3,69° и медианное абсолютное отклонение 1,42°, тогда как метод наименьших квадратов привел к медианной ошибке 10,06° и медианному абсолютному отклонению 2,90°. Эти результаты дополнительно подчеркивают высокую эффективность предложенного метода в задачах оценки позы чайных почек.
Рисунок 10. Угловые ошибки в оценке позы чайных почек.
Таблица 5. Метрики оценки для угловых ошибок в оценке позы чайных почек.
3.2.2. Оценка ошибки расстояния
Поза чайных почек представлена линией в 3D-пространстве. Одиночная угловая ошибка не полностью отражает отклонение между оцененной и истинной позами; необходимо также учитывать их пространственное расстояние. Рисунок 11 и Таблица 6 отображают результаты для метода адаптивной оценки на основе динамических весов и метода наименьших квадратов. Метод адаптивной оценки на основе динамических весов привел к максимальной ошибке 8,60 мм и средней ошибке 2,83 мм, тогда как метод наименьших квадратов дал максимальную ошибку 19,75 мм и среднюю ошибку 7,15 мм. Максимальная ошибка и средняя ошибка были снижены на 56,43% и 60,37% соответственно. Дополнительно, метод адаптивной оценки на основе динамических весов дал медианную ошибку 2,57 мм и медианное абсолютное отклонение 0,81 мм, по сравнению с 6,69 мм и 1,99 мм для метода наименьших квадратов. Эти метрики ошибки расстояния дополнительно подчеркивают превосходство метода адаптивной оценки на основе динамических весов для задач оценки позы чайных почек, включающих несколько морфологических признаков.
Рисунок 11. Ошибки расстояния в оценке позы чайных почек.
Таблица 6. Метрики оценки для ошибок расстояния в оценке позы чайных почек.
3.2.3. Сравнение с другими методами оценки позы
Существующие методы оценки позы в основном сосредоточены на относительно правильных по форме фруктовых объектах, таких как гуава, виноград, питайя и сладкий перец. Li и др. [23] оценили позу сладких перцев, используя ось симметрии, используя нормали облаков точек фруктов и стратегию подсчета очков. Производительность этого метода зависит от качества облака точек; он работает хорошо, когда цель не заблокирована и качество облака точек высокое. Однако его эффективность в обработке окклюзий не была полностью подтверждена. Lin и др. [27] достигли оценки позы гуавы, устанавливая позиционные ограничения между фруктом и ветвями. Однако ветви меньше и имеют больше сходства со средой, чем фрукт, что делает оценку позы более сложной. В результате этот метод вносит значительные ошибки в практических приложениях. Luo и др. [28] применили алгоритм LOWESS для аппроксимации облака точек цветоножек винограда, затем геометрический анализ для оценки позы. Хотя этот метод показывает некоторую эффективность в работе с закрытыми фруктами, он требует данных облака точек высокого качества, конкретно информации о глубине цветоножек, захваченной во время процесса получения изображения. Zhu и др. [29] объединили 3D ограничивающую рамку фрукта с геометрическими признаками между фруктом и ветвями для оценки позы фрукта питайи. Однако в неструктурированных условиях сада определение связи между фруктом и ветвями остается сложной задачей из-за характеристик роста питайи, что влияет на точность оценки позы. Эти исследования предоставляют различные подходы для оценки позы фруктов.
В отличие от вышеупомянутых исследований, форма чайных почек более сложна и значительно зависит от факторов окружающей среды, что делает существующие методы трудноприменимыми эффективно для оценки позы. Таблица 7 представляет результаты этих исследований. Примечательно, что эти исследования анализируют только угловую ошибку в оценке позы. По сравнению с ними, метод, предложенный в этом исследовании, предлагает значительные преимущества, в основном благодаря своей стратегии оценки динамических весов. Эта стратегия позволяет точно захватывать и количественно представлять различные морфологические признаки, проявляемые чайными почками, тем самым повышая надежность и обобщающую способность алгоритма.
Таблица 7. Сравнение результатов оценки позы из различных работ.
Наборы данных чайных почек были собраны в неструктурированной среде чайного сада. Однако из-за вариаций в наружном освещении, взаимной окклюзии чайных почек и различий в масштабе изображения, глубинные изображения часто подвержены шуму и содержат отсутствующую информацию о глубине. Эти факторы приводят к разреженности и неполноте облака точек чайных почек, что, в свою очередь, влияет на точность оценки позы. Качество облака точек чайных почек является ключевым фактором, влияющим на точность оценки позы, с чрезмерным шумом и потерей облака точек, являющимися основными источниками ошибок оценки.
Результаты оценки позы для чайных почек с облаками точек различного качества показаны на Рисунке 12, где красная линия представляет истинную позу чайных почек, а синяя линия указывает позу, оцененную с использованием метода оценки на основе динамических весов. Когда часть облака точек чайной почки или листа отсутствует, хотя некоторая детальная информация теряется в отсутствующих областях, оставшееся облако точек все еще сохраняет основные морфологические признаки чайных почек, что приводит к относительно небольшим ошибкам оценки. Это явление проиллюстрировано на Рисунке 12a,b, указывая, что когда форма чайных почек относительно полна, влияние потери облака точек на оценку позы минимально. Однако стебель, как опорная структура чайных почек, играет ключевую роль в поддержании общей формы. Отсутствующие облака точек стебля или потеря облака точек на пересечении стебля и чайной почки значительно влияют на морфологические признаки цели, что приводит к большему влиянию на оценку позы, как показано на Рисунке 12c,d.
Рисунок 12. Результаты оценки позы для облаков точек чайных почек различного качества. (a) Частичная потеря облака точек чайной почки; (b) частичная потеря облака точек как чайной почки, так и листа; (c) частичная потеря облака точек стебля; (d) потеря облака точек на пересечении стебля и чайной почки.
Хотя качество данных облака точек влияет на точность оценки позы, предложенный метод адаптивной оценки на основе динамических весов корректирует веса действительных облаков точек, захватывая морфологические признаки чайных почек. Это снижает вмешательство недействительных данных в оценку позы и сохраняет ошибку в разумных пределах.
3.2.4. Визуализация результатов оценки позы
Оценка позы чайных почек визуализирована на Рисунке 13, где красная линия представляет истинную позу чайных почек, а синяя линия указывает позу, оцененную с использованием метода оценки на основе динамических весов. Качество оценки позы во многом зависит от данных облака точек цели. Когда цель больше в поле зрения камеры, RGB-D камера захватывает более полную информацию о глубине, уменьшая ошибку оценки, как показано на Изображении 1 и Изображении 3 Рисунка 13. Для автономного робота для сбора чайных почек информация о позе, в определенных пределах ошибок, все еще может способствовать бережному и точному сбору. Метод оценки позы, предложенный в этом исследовании, стабильно дает результаты, близкие к истинной позе для чайных почек с различными морфологиями, удовлетворяя требованиям автономного робота для сбора.
Рисунок 13. Результаты оценки позы чайных почек.
Хотя метод оценки на основе динамических весов для чайных почек демонстрирует исключительную производительность в неструктурированных условиях чайного сада, некоторые ограничения сохраняются. Изображения 2 и 4 на Рисунке 13 иллюстрируют случаи, когда оценка позы не удается, несмотря на обзор камеры. Два основных фактора способствуют этим неудачам: (i) в неструктурированных и сложных условиях чайного сада такие факторы, как условия освещения, могут влиять на получение данных глубины чайных почек, особенно для меньших почек, и (ii) когда чайные почки малы в поле зрения камеры, RGB-D камера не может захватить полную информацию о глубине, и визуальная модель может не обнаружить цель, что приводит к неудачной оценке позы. Чтобы решить эти задачи, будущие исследования могут сосредоточиться на следующих аспектах: (i) разработка эффективных алгоритмов обработки облака точек, которые используют априорные знания морфологии чайных почек для более эффективной обработки целей со значительным шумом и отсутствующими данными облака точек, тем самым повышая успешность получения полных облаков точек чайных почек, и (ii) исследование алгоритмов адаптивного координационного управления, где автономный робот для сбора чайных почек может динамически корректировать свой угол съемки на основе масштаба и морфологических характеристик цели, таким образом повышая успешность оценки позы.
3.3. Ограничения и будущая работа
Это исследование успешно достигло оценки позы чайных почек в неструктурированных условиях. Однако определенные ограничения остаются, которые требуют дальнейшего исследования и усовершенствования в будущих работах.
(i) Это исследование было проверено с использованием сорта чая Yinghong No. 9 и не имеет всесторонней оценки его применимости к другим сортам чая. Чайные почки и стебли Yinghong No. 9 относительно крепки, и его листья шире, с отчетливыми геометрическими признаками, предоставляя относительно четкие цели для визуального распознавания и оценки позы. Однако морфологические характеристики различных сортов чая значительно различаются, например, более узкие листья и более нежные чайные почки и стебли. Эти различия могут влиять на производительность модели визуального распознавания и точность оценки позы. Поэтому будущие исследования должны расшириться, включив распознавание и оценку позы нескольких сортов чая, особенно в решении морфологических вариаций, вызванных различными сортами чая, и сосредоточиться на улучшении адаптируемости алгоритма к этим изменениям.
(ii) Это исследование подчеркивает тот факт, что факторы окружающей среды, такие как вариации освещения и окклюзии, являются основными источниками ошибок оценки позы из-за их влияния на качество собранных данных. Хотя метод адаптивной оценки на основе динамических весов, предложенный в этом исследовании, может смягчить влияние шума и потери облака точек в некоторой степени, он не полностью решил проблему ошибок оценки позы, вызванных снижением качества облака точек из-за изменений освещения или окклюзий. Будущие исследования должны сосредоточиться на анализе производительности при различных условиях освещения и сценариях окклюзии, чтобы повысить адаптируемость алгоритма к сложным факторам окружающей среды. В частности, когда качество облака точек чайных почек скомпрометировано, ключевое значение имеет исследование того, как априорные знания морфологии чайных почек могут быть использованы для восстановления отсутствующих деталей, тем самым повышая стабильность и точность оценки позы. Дополнительно, будущая работа будет направлена на оптимизацию вычислительной эффективности алгоритма, исследование его применения в автономных роботах для сбора чайных почек и оценку его вклада в эффективность процесса сбора.
4. Выводы
Распознавание и оценка позы чайных почек ключевые для автономного робота для сбора, так как они позволяют роботу выполнять точный и безвредный сбор. В этом исследовании мы предлагаем метод для сегментации экземпляров и оценки позы чайных почек, используя RGB-D камеру. Экспериментальные результаты демонстрируют отличную производительность предложенного метода. Основные выводы следующие:
(i) Модель сегментации экземпляров чайных почек основана на модели YOLOv8s-seg. Путем оптимизации Backbone, Neck, Head и функций потерь, mAP@50 для box и mask были улучшены до 92,0% и 91,9% соответственно, показывая улучшения на 3,2% и 3,4% по сравнению с исходной моделью. Этот результат демонстрирует надежность предложенной модели сегментации экземпляров для сегментации чайных почек в неструктурированных условиях.
(ii) Это исследование предлагает метод адаптивной оценки позы чайных почек на основе динамических весов, который динамически корректирует весовые коэффициенты на основе морфологии чайных почек, используя алгоритм PSO. Этот подход эффективно решает задачу, вызванную разнообразием морфологии чайных почек. Экспериментальные результаты показывают, что максимальная угловая ошибка, средняя ошибка, медианная ошибка и медианное абсолютное отклонение составляют 7,76°, 3,41°, 3,69° и 1,42° соответственно. Соответствующие ошибки расстояния составляют 8,60 мм, 2,83 мм, 2,57 мм и 0,81 мм.
Ссылки
1. Yu, X.L.; He, Y. Optimization of tea-leaf saponins water extraction and relationships between their contents and tea (Camellia sinensis) tree varieties. Food Sci. Nutr. 2018, 6, 1734–1740. [Google Scholar] [CrossRef] [PubMed]
2. Dong, Q.; Murakami, T.; Nakashima, Y. Recalculating the agricultural labor force in China. China Econ. J. 2018, 11, 151–169. [Google Scholar] [CrossRef]
3. Zhu, Y.; Wu, C.; Tong, J.; Chen, J.; He, L.; Wang, R.; Jia, J. Deviation tolerance performance evaluation and experiment of picking end effector for famous tea. Agriculture 2021, 11, 128. [Google Scholar] [CrossRef]
4. Zhang, S.; Yang, H.; Yang, C.; Yuan, W.; Li, X.; Wang, X.; Zhang, Y.; Cai, X.; Sheng, Y.; Deng, X.; et al. Edge device detection of tea leaves with one bud and two leaves based on shuffleNetv2-YOLOv5-lite-E. Agronomy 2023, 13, 577. [Google Scholar] [CrossRef]
5. Lin, Y.K.; Chen, S.F.; Kuo, Y.F.; Liu, T.L.; Lee, X.Y. Developing a guiding and growth status monitoring system for riding-type tea plucking machine using fully convolutional networks. Comput. Electron. Agric. 2021, 191, 106540. [Google Scholar] [CrossRef]
6. Zhao, C.-T.; Wang, R.-F.; Tu, Y.-H.; Pang, X.-X.; Su, W.-H. Automatic Lettuce Weed Detection and Classification Based on Optimized Convolutional Neural Networks for Robotic Weed Control. Agronomy 2024, 14, 2838. [Google Scholar] [CrossRef]
7. Hua, X.; Li, H.; Zeng, J.; Han, C.; Chen, T.; Tang, L.; Luo, Y. A review of target recognition technology for fruit picking robots: From digital image processing to deep learning. Appl. Sci. 2023, 13, 4160. [Google Scholar] [CrossRef]
8. Wu, X.; Tang, X.; Zhang, F.; Gu, J. Tea buds image identification based on lab color model and K-means clustering. J. Chin. Agric. Mech. 2015, 36, 161–164+179. [Google Scholar] [CrossRef]
9. Zhang, L.; Zhang, H.; Chen, Y.; Dai, S.; Li, X.; Kenji, L.; Liu, Z.; LI, M. Real-time monitoring of optimum timing for harvesting fresh tea leaves based on machine vision. Int. J. Agric. Biol. Eng. 2019, 12, 6–9. [Google Scholar] [CrossRef]
10. Karunasena, G.; Priyankara, H. Tea bud leaf identification by using machine learning and image processing techniques. Int. J. Sci. Eng. Res. 2020, 11, 624–628. [Google Scholar] [CrossRef]
11. Zhang, L.; Zou, L.; Wu, C.; Jia, J.; Chen, J. Method of famous tea sprout identification and segmentation based on improved watershed algorithm. Comput. Electron. Agric. 2021, 184, 106108. [Google Scholar] [CrossRef]
12. Wang, Z.; Wang, R.; Wang, M.; Lai, T.; Zhang, M. Self-supervised transformer-based pre-training method with General Plant Infection dataset. In Proceedings of the Chinese Conference on Pattern Recognition and Computer Vision (PRCV), Urumqi, China, 18–20 October 2024; pp. 189–202. [Google Scholar]
13. Wang, R.-F.; Su, W.-H. The Application of Deep Learning in the Whole Potato Production Chain: A Comprehensive Review. Agriculture 2024, 14, 1225. [Google Scholar] [CrossRef]
14. Li, J.; Li, J.; Zhao, X.; Su, X.; Wu, W. Lightweight detection networks for tea bud on complex agricultural environment via improved YOLO v4. Comput. Electron. Agric. 2023, 211, 107955. [Google Scholar] [CrossRef]
15. Chen, T.; Li, H.; Chen, J.; Zeng, Z.; Han, C.; Wu, W. Detection network for multi-size and multi-target tea bud leaves in the field of view via improved YOLOv7. Comput. Electron. Agric. 2024, 218, 108700. [Google Scholar] [CrossRef]
16. Xie, S.; Sun, H. Tea-YOLOv8s: A tea bud detection model based on deep learning and computer vision. Sensors 2023, 23, 6576. [Google Scholar] [CrossRef]
17. Xu, W.; Zhao, L.; Li, J.; Shang, S.; Ding, X.; Wang, T. Detection and classification of tea buds based on deep learning. Comput. Electron. Agric. 2022, 192, 106547. [Google Scholar] [CrossRef]
18. Chen, Y.-T.; Chen, S.-F. Localizing plucking points of tea leaves using deep convolutional neural networks. Comput. Electron. Agric. 2020, 171, 105298. [Google Scholar] [CrossRef]
19. Li, Y.; He, L.; Jia, J.; Chen, J.; Lyu, J.; Wu, C. High-efficiency tea shoot detection method via a compressed deep learning model. Int. J. Agric. Biol. Eng. 2022, 15, 159–166. [Google Scholar] [CrossRef]
20. Lu, J.; Yang, Z.; Sun, Q.; Gao, Z.; Ma, W. A machine vision-based method for tea buds segmentation and picking point location used on a cloud platform. Agronomy 2023, 13, 1537. [Google Scholar] [CrossRef]
21. Zhang, F.; Sun, H.; Xie, S.; Dong, C.; Li, Y.; Xu, Y.; Zhang, Z.; Chen, F. A tea bud segmentation, detection and picking point localization based on the MDY7-3PTB model. Front. Plant Sci. 2023, 14, 1199473. [Google Scholar] [CrossRef] [PubMed]
22. Chen, T.; Li, H.; Lv, J.; Chen, J.; Wu, W. Segmentation Network for Multi-Shape Tea Bud Leaves Based on Attention and Path Feature Aggregation. Agriculture 2024, 14, 1388. [Google Scholar] [CrossRef]
23. Li, H.; Zhu, Q.; Huang, M.; Guo, Y.; Qin, J. Pose estimation of sweet pepper through symmetry axis detection. Sensors 2018, 18, 3083. [Google Scholar] [CrossRef] [PubMed]
24. Lehnert, C.; Sa, I.; McCool, C.; Upcroft, B.; Tristan, P. Sweet pepper pose detection and grasping for automated crop harvesting. In Proceedings of the 2016 IEEE International Conference on Robotics and Automation (ICRA), Stockholm, Sweden, 16–21 May 2016; IEEE: Piscataway, NJ, USA, 2016; pp. 2428–2434. [Google Scholar] [CrossRef]
25. Tao, Y.; Zhou, J. Automatic apple recognition based on the fusion of color and 3D feature for robotic fruit picking. Comput. Electron. Agric. 2017, 142, 388–396. [Google Scholar] [CrossRef]
26. Li, T.; Feng, Q.; Qiu, Q.; Xie, F.; Zhao, C. Occluded apple fruit detection and localization with a frustum-based point-cloud-processing approach for robotic harvesting. Remote Sens. 2022, 14, 482. [Google Scholar] [CrossRef]
27. Lin, G.; Tang, Y.; Zou, X.; Xiong, J.; Li, J. Guava detection and pose estimation using a low-cost RGB-D sensor in the field. Sensors 2019, 19, 428. [Google Scholar] [CrossRef]
28. Luo, L.; Yin, W.; Ning, Z.; Wang, J.; Wei, H.; Chen, W.; Lu, Q. In-field pose estimation of grape clusters with combined point cloud segmentation and geometric analysis. Comput. Electron. Agric. 2022, 200, 107197. [Google Scholar] [CrossRef]
29. Zhu, L.; Lai, Y.; Zhang, S.; Wu, R.; Deng, W.; Guo, X. Improved U-Net Pitaya Image Segmentation and Pose Estimation Method for Picking Robot. In Transactions of the Chinese Society for Agricultural Machinery; Nong Ye Ji Xie Xue Bao Bian Ji Bu: Beijing, China,, 2023; pp. 1–16. Available online: http://kns.cnki.net/kcms/detail/11.1964.S.20230920.1558.002.html (accessed on 7 December 2024).
30. Wang, C.Y.; Bochkovskiy, A.; Liao, H.Y.M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, BC, Canada, 17–24 June 2023; pp. 7464–7475. [Google Scholar] [CrossRef]
31. Wang, C.Y.; Yeh, I.H.; Mark; Liao, H.Y. Yolov9: Learning what you want to learn using programmable gradient information. In European Conference on Computer Vision; Springer: Cham, Switzerland, 2025; pp. 1–21. [Google Scholar]
32. Zhu, X.; Hu, H.; Lin, S.; Dai, J. Deformable convnets v2: More deformable, better results. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, 15–20 June 2019; pp. 9308–9316. [Google Scholar]
33. Dai, X.; Chen, Y.; Xiao, B.; Chen, D.; Liu, M.; Lu, Y.; Zhang, L. Dynamic head: Unifying object detection heads with attentions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, TN, USA, 20–25 June 2021; pp. 7373–7382. [Google Scholar]
34. Tong, Z.; Chen, Y.; Xu, Z.; Yu, R. Wise-IoU: Bounding box regression loss with dynamic focusing mechanism. arXiv 2023, arXiv:2301.10051. [Google Scholar]
35. Yao, M.; Huo, Y.; Ran, Y.; Tian, Q.; Wang, R.; Wang, H. Neural Radiance Field-based Visual Rendering: A Comprehensive Review. arXiv 2024, arXiv:2404.00714. [Google Scholar] [CrossRef]
36. Campos, C.; Elvira, R.; Rodríguez, J.J.; Jose, M.M.M.; Juan, D.T. ORB-SLAM3: An accurate open-source library for visual, visual–inertial, and multimap slam. IEEE Trans. Robot. 2021, 37, 1874–1890. [Google Scholar] [CrossRef]
37. Kennedy, J.; Eberhart, R. Particle swarm optimization. In Proceedings of the ICNN'95-International Conference on Neural Networks, Perth, WA, Australia, 27 November–1 December 1995; Volume 4, pp. 1942–1948. [Google Scholar]
38. Rezatofighi, H.; Tsoi, N.; Gwak, J.; Sadeghian, A.; Reid, I.; Savarese, S. Generalized intersection over union: A metric and a loss for bounding box regression. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, 15–20 June 2019; pp. 658–666. [Google Scholar]
39. Zheng, Z.; Wang, P.; Liu, W.; Li, J.; Ye, R.; Ren, D. Distance-IoU loss: Faster and better learning for bounding box regression. In Proceedings of the AAAI Conference on Artificial Intelligence, New York, NY, USA, 7–12 February 2020; Volume 34, pp. 12993–13000. [Google Scholar]
40. Zhang, Y.; Ren, W.; Zhang, Z.; Jia, Z.; Wang, L.; Tan, T. Focal and efficient IOU loss for accurate bounding box regression. Neurocomputing 2022, 506, 146–157. [Google Scholar] [CrossRef]
41. He, K.; Gkioxari, G.; Dollár, P.; Girshick, R. Mask r-cnn. In Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 22–29 October 2017; pp. 2961–2969. [Google Scholar]
42. Cai, Z.; Vasconcelos, N. Cascade r-cnn: Delving into high quality object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 18–23 June 2018; pp. 6154–6162. [Google Scholar]
43. Bolya, D.; Zhou, C.; Xiao, F.; Lee, Y.J. Yolact: Real-time instance segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, Seoul, Republic of Korea, 27 October–2 November 2019; pp. 9157–9166. [Google Scholar]
44. Bolya, D.; Zhou, C.; Xiao, F.; Lee, Y.J. YOLACT++: Better Real-time Instance Segmentation. IEEE Trans Pattern Anal. Mach. Intell. 2019, 1912, 06218. [Google Scholar] [CrossRef]
Li H, Chen T, Chen Y, Han C, Lv J, Zhou Z, Wu W. Instance Segmentation and 3D Pose Estimation of Tea Bud Leaves for Autonomous Harvesting Robots. Agriculture. 2025; 15(2):198. https://doi.org/10.3390/agriculture15020198
Перевод статьи «Instance Segmentation and 3D Pose Estimation of Tea Bud Leaves for Autonomous Harvesting Robots» авторов Li H, Chen T, Chen Y, Han C, Lv J, Zhou Z, Wu W., оригинал доступен по ссылке. Лицензия: CC BY. Изменения: переведено на русский язык




































Комментарии (0)