Опубликовано 06.11 19:33

Оценка трансферного обучения и переносимость LNC и LMA на различных наборах данных

Масса листьев на единицу площади (LMA) и концентрация азота в листьях (LNC) являются важнейшими параметрами в экологии растений, которые могут отражать состояние роста растений. 

Аннотация

Особенности LMA и LNC можно определить с помощью спектральной отражательной способности дистанционным методом. Хотя взаимосвязь между спектрами и дисперсией признаков листьев у разных видов с оценочной эффективностью неясна, разработка оценочных и переносимых моделей для прогнозирования LMA и LNC затрудненаТаким образом, мы проанализировали дисперсию исходных спектров и разницу спектральных данных с помощью четырех методов предобработки (SG — фильтр Савицкого–Голея, SNV — стандартная нормализованная переменная, MSC — мультипликативная коррекция рассеяния и нормализация), LMA и LNC по шести наборам данных дистанционного зондирования с использованием подхода Transfer Component Analysis (TCA). Спектры, объединенные с алгоритмом Successive Projections Algorithm (SPA), также были представлены для извлечения длин волн с более высокими важными коэффициентами, чтобы минимизировать избыточность наборов данных. Вариация нормализованных спектров между разными наборами данных показала незначительную степень вариации, а вариация спектров LNC уменьшилась с помощью SPA. Результаты также показали, что меньшая вариация LMA и LNC наблюдается в разных наборах данных, когда значения признаков с более высокими вероятностями распределения близки друг к другу. Для оценки производительности прогнозирования LNC и LMA в трансферных моделях, построенных с помощью алгоритмов Support Vector Regression (SVR), Extreme Gradient Boosting (XGB) и Random Forest Regression (RFR) на разных наборах данных, использовались модели, при этом трансферные модели RFR показали хорошие результаты прогнозирования. Были оценены взаимосвязи между спектрами и вариацией признаков листа, а также производительность оценки в трансферных моделях RFR на разных наборах данных. Расстояние LMA оказывает значительное влияние на производительность оценки в трансферной модели, а вариация спектров со всеми методами предобработки показала очень значительный эффект на производительность оценки LNC. Кроме того, мы предложили трансферную модель с весовым коэффициентом обновления спектральных данных в сочетании с подходом TCA и RFR (WDT-RFR) для улучшения переносимости между наборами данных и повышения производительности оценки в трансферной модели. По сравнению с трансферной моделью RFR, использующей спектры без обновления, среднеквадратическая ошибка (RMSE) трансферной модели WDT-RFR с переносом 5% образцов для оценки LMA и LNC увеличилась в среднем на 7,9% и 4,8% соответственно. Результаты оценки показали, что наша трансферная модель демонстрирует превосходную производительность прогнозирования.

1. Введение

Характеристики листьев могут отражать состояние роста растений. LMA и LNC являются критическими параметрами в экологии растений. Доказано, что LMA тесно связана с общими функциями растений, включая структуру листьев, их прочность и фотосинтетические пигменты [ 1 , 2 ]. Азот участвует в формировании белков и хлорофилла, хранящихся в клетках листьев. Он существенно влияет на фотосистемный процесс, являясь критическим компонентом кофермента никотинамидадениндинуклеотидфосфата (НАДФН), который может влиять на состояние роста растений [ 3 , 4 , 5 , 6 ].

Спектроскопия листьев в сочетании с многомерными калибровочными моделями была показана как эффективный и быстрый подход к фиксации биохимических и биофизических признаков листьев в предыдущих исследованиях [ 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 ]. Оценка признаков листьев может быть представлена ​​с использованием дистанционно измеренных спектров по отдельным листьям, пологам деревьев и ландшафтам [ 4 , 12 , 13 , 14 ]. Спектральная отражательная способность в видимом (VIS), ближнем инфракрасном (NIR) и коротковолновом инфракрасном (SWIR) диапазонах длин волн используется для оценки LNC, LMA и других признаков листьев [ 15 , 16 , 17 , 18 , 19 , 20 ].

Метод регрессии с использованием частичных наименьших квадратов (PLS) широко используется при оценке признаков листьев. Статистическая связь между спектрами и признаками листьев устанавливается с помощью PLS, в котором на производительность образца влияют индивидуальные данные спектрального отражения. Спектральные вегетационные индексы (SVI), такие как нормализованный разностный вегетационный индекс (NDVI) и относительный вегетационный индекс (RVI), также используются в качестве традиционного подхода к оценке LMA и LNC. Индексы, как правило, не могут показывать хорошую общность между растениями и экспериментами [ 21 ]. Некоторые полумеханистические методы, такие как PROSPECT-5, PROSPECT-PRO и PROSAIL, также представлены для оценки LNC в нескольких исследованиях [ 22 , 23 , 24 ]. Эти подходы PROSPECT могут быть ограничены количеством поддерживаемых признаков или видов растений в некоторых конкретных условиях [ 25 , 26 ]. В последние годы алгоритмы машинного обучения широко внедрялись для оценки признаков листьев [ 27 , 28 ], используя сложные нелинейные и непараметрические подходы для установления связи между спектрами и параметрами признаков. Например, SVR, RFR и регрессия гауссовых процессов (GPR) представляют собой перспективный метод оценки LNC, LMA и других признаков листьев. Эти подходы, как правило, хорошо работали на определённом виде листьев с использованием одних и тех же спектральных датчиков [ 28 , 29 , 30 , 31 , 32 , 33 ].

Механистические модели, такие как PROSPECT и модели машинного обучения, могут быть реализованы для оценки признаков листьев у разных видов. Эти модели также могут быть перенесены на разных особей. Некоторые исследования изучали LNC листьев и полога, хлорофилл и содержание воды с помощью PROSPECT и PROSAIL у разных видов растений [ 25 , 26 , 34 , 35 , 36 ]. Увеличение параметров в модели для моделирования спектрального отражения может привести к дисперсии у разных видов, а также к ошибке оценки признаков листьев и листьев. Оценка LNC у разных видов с помощью подхода SVR была продемонстрирована в предыдущих исследованиях, а эффективность образцов была проанализирована с помощью отражательной способности в областях VIS, NIR и SWIR [ 37 ]. Исследование также показало, что дисперсия спектрального отражения и LNC связана с эффективностью оценки.

Чтобы улучшить производительность оценки LNC и LMA и повысить достоверность модели, необходимо изучить и применить надежный подход. Вышеупомянутые и продвинутые подходы машинного обучения (например, глубокое обучение) также использовались для построения надежных моделей для прогнозирования LNC и LMA [ 38 ]. Однако в моделях глубокого обучения требуется большое количество выборок и параметров, что приводит к более высоким вычислительным затратам. Подход с переносом обучения может решить эти проблемы, используя ценную информацию, полученную в определенном наборе данных, для улучшения переносимости другой модели. Подход с переносом обучения может извлекать важные признаки между связанными наборами данных. Время и стоимость обучения, как правило, сокращаются при использовании переноса обучения [ 39 , 40 ].

Обобщение аналогичных задач в другом аналогичном наборе данных может быть усилено с помощью трансферного обучения, основанного на хорошо работающей модели, созданной в конкретном наборе данных. Поэтому подходы трансферного обучения использовались для оценки данных, собранных из разных условий окружающей среды и областей. Мобильность модели также может быть улучшена путем настройки разных целевых параметров для разных наборов данных [ 41 , 42 ]. Однако соответствующие исследования еще не изучали взаимосвязь между дисперсией спектров и эффективностью оценки в моделях трансфера для разных наборов данных. Влияние дисперсии данных о признаках листьев между разными наборами данных на эффективность прогнозирования в модели трансферного обучения также неопределенно. То есть, влияние дисперсии данных (спектров и признаков листьев) на переносимость модели трансфера для разных наборов данных требует дальнейшего изучения.

В данном исследовании различные наборы данных используются для анализа переносимости и оценки эффективности признаков листьев. Конкретные цели данного исследования заключаются в следующем: (1) проанализировать дисперсию необработанных спектров и спектральных данных с предварительной обработкой в ​​различных наборах данных с помощью анализа компонентов переноса (TCA), (2) оценить взаимосвязь спектров и дисперсии признаков листьев с эффективностью оценки в моделях переноса в различных наборах данных и (3) представить весовой коэффициент обновления спектральных данных в сочетании с моделью TCA и RFR (WDT-RFR) для улучшения переносимости между наборами данных и повышения эффективности оценки в модели переноса.

2. Материалы и методы

2.1. Наборы данных спектрального отражения листьев

Для тестирования и анализа переносимости LNC и LMA были выбраны шесть наборов данных, которые являются независимыми данными. Включены спектры LNC, LMA и листьев в диапазоне 350–2500 нм с интервалом 1 нм. Все данные доступны онлайн (см. рисунок S1 ) и представлены на сайте https://ecosis.org/ (EcoSIS) (дата обращения: 29 июня 2023 г.). Подробная информация о каждом наборе данных представлена ​​в таблице 1 , а статистика LNC и LMA также представлена ​​в таблице 2. Пустые данные и выбросы были удалены в нашем исследовании перед анализом модели.

Таблица 1. Описание наборов данных листьев.

Таблица 2. Статистика LMA (мг/см² ) и LNC (%) из шести различных наборов данных. SD и CV представляют собой стандартное отклонение и коэффициент дисперсии.

Набор данных 1 был собран в Барроу, Аляска, в 2015 и 2016 годах и включал 18 видов свежих лугов. Всего было измерено 428 листьев. Измерялась спектральная отражательная способность листьев во всем спектре с использованием спектрорадиометра HR-1024i (Spectra Vista Corporation (SVC), Покипси, штат Нью-Йорк, США) в диапазоне 35–2500 нм. При измерении образца использовался серийный номер стандарта отражения Labsphere, 99%-ного стандарта спектрального отражения. Спектральные данные измерялись, когда появлялись первые зрелые листья этих видов. Измерения образца в наборе данных 2 проводились на свежих листьях в течение 48 часов после сбора с использованием ASD FieldSpec3, в котором были представлены спектральные данные во всем спектральном диапазоне (350–2500 нм). Образцы были собраны весной, летом и осенью 2013 года в прибрежной Санта-Барбаре, Центральная долина, Аризона, США. В частности, были собраны данные о новом приросте текущего года и приросте предыдущего года. Листья были получены с помощью обрезки на шесте и секаторов и хранились в холодильниках. Всего было изучено 285 образцов. Спектральные данные набора данных 3 были собраны на высушенном и измельченном листовом материале из различных областей на севере, в центральной части и на северо-востоке США. Образцы листьев были собраны в течение вегетационных сезонов 2008–2011 годов (с июня по сентябрь) и были получены из полога с помощью дробилок или секаторов и высушены при температуре 60 °C в лаборатории. Биохимические признаки, включая LNC и LMA, также измерялись после измельчения листьев. Спектры были собраны с помощью ASD FieldSpec 3 (Analytical Spectral Devices, Боулдер, Колорадо, США) с растительным зондом. Всего в этом наборе данных было использовано 360 образцов.

Семена молочая были собраны из популяций в Висконсине и Мичигане, США, а растения молочая, используемые для измерения спектральных данных, были выращены в теплице. Для измерения спектров образцов набора данных 4 использовался высокоспектральный спектрорадиометр ASD FieldSpec 3 (Analytical Spectral Devices, Боулдер, Колорадо, США), а отражение измерялось на четырех верхних полностью распустившихся листьях отдельных растений. Все спектральные данные были собраны в течение четвертой и восьмой недель роста. Всего в нашем исследовании было использовано 420 образцов. Среднее значение спектров четырех листьев было описано как спектральные данные. Данные в наборе данных 5 были собраны с февраля по май 2016 года, в пиковый сезон для листьев. Листья были отобраны с полного солнечного света на верхней части полога. Всего в этом исследовании было проанализировано 146 образцов. Для измерения спектров использовались полнодиапазонные спектральные ASD FieldSpec Pro и FieldSpec3. Набор данных 6 был собран на бельгийском побережье Северного моря. Образцы зрелых листьев были отобраны летом 2018 года. Всего было измерено 256 листьев. Для измерений использовался спектрорадиометр SVC HR-1024TM (Spectra Vista Corporation, штат Нью-Йорк, США) (350–2500 нм), оснащенный фитозондом. LNC и LMA измерялись примерно у 20 особей на делянке, всего было охвачено 50 делянок. Для каждого вида на делянках измерялась отражательная способность двух отдельных листьев в виде спектральных данных.

Образцы листьев немедленно запечатывали в большие полиэтиленовые пакеты с влажными бумажными полотенцами для сохранения влажности и помещали в холодильники для транспортировки в течение 1–3 ч в лабораторию для измерения LMA и LNC. Сырая масса и площадь листа для образцов листьев определялись с помощью прецизионных весов и сканированных изображений. Площадь листа некоторых образцов листьев также измерялась с помощью линейки и ручной лупы (виды злаков), пробойников листовых дисков (широколиственные виды) и оптических методов. Для небольших или сложных листьев, когда невозможно было взять диски, площадь листа измерялась измерителем площади листьев (LI-3100C Area Meter; Li-Cor, Линкольн, Небраска, США), откалиброванным для использования с высоким соотношением края к площади и работающим с высоким разрешением (0,1 мм2 ) . После взвешивания свежие образцы листьев высушивались в печи при 70 °C в течение 72 ч для получения массы после сушки в печи. Эти данные и измерения площади листьев затем использовались для расчета LMA. Высушенные в печи образцы листьев измельчали, гомогенизировали с помощью ножевой мельницы и помещали в эксикатор для измерения LNC. Концентрацию азота в листьях определяли методом сжигания по Дюма с помощью прибора Vario Macro CHN (Elementar, Ханау, Германия).

2.2 Анализ расстояний различных наборов данных

2.2.1 Предварительная обработка спектральных данных

Алгоритм SPA используется для извлечения длин волн признаков с более высокими важными коэффициентами, чтобы минимизировать избыточность наборов данных. Спектральные данные после анализа с помощью подхода SPA используются в качестве подмножеств переменных с небольшой степенью мультиколлинеарности [ 43 ]. Оптимизированные длины волн могут устранить нечувствительный спектральный вклад в признаки листьев и повысить скорость прогнозирования. Для обработки спектров были представлены предварительно обработанные подходы анализа мультипликативной коррекции рассеяния (MSC), фильтра Савицкого-Голея (SG), стандартной нормализованной переменной (SNV) и нормализованного анализа. Спектральные данные после предварительной обработки и необработанные данные также использовались для последующего анализа расстояний между различными наборами данных. Не только необработанные данные обрабатываются с помощью подхода SPA, но и спектральные данные после предварительной обработки четырьмя подходами также представляются SPA для выбора длин волн признаков.

2.2.2 Расстояние между различными наборами данных с использованием подхода TCA

Значительные дисперсии, как правило, представлены в различных наборах данных, и вычислить разницу сложно. Поэтому для анализа дисперсии был реализован подход TCA. Этот подход может изучить переносимые признаки компонентов в нашем исследовании, классический метод обучения переносу для адаптации домена [ 44 , 45 ]. Свойства и характеристики данных могут быть сохранены при одновременном вычислении разницы для различных наборов данных. Точнее, два домена были отображены в воспроизводящее ядро ​​Гильбертова пространства (RKHS) с высокой размерностью (размерность выше, чем у исходного и целевого доменов), в то время как целевой и исходный домены показали тенденции с различными распределениями (показано на рисунке 1 ). Другими словами, минимизация расстояния в стандартном измерении (исходный и целевой домены) неудобна. В пространстве RKHS расстояние данных между исходным и целевым доменами было минимизировано настолько, насколько это возможно, при максимальном сохранении его соответствующих внутренних атрибутов. Отражательная способность листьев двух различных наборов данных представлена ​​следующим образом:

где X o и X g представляют собой отражательную способность листьев в исходном и целевом наборах данных соответственно. s и n представляют собой количество выборки в исходном и целевом наборах данных соответственно.

Рисунок 1. Расстояние спектрального отражения листа, преобразованное в воспроизводящее ядро ​​гильбертова пространства между различными наборами данных (в качестве примеров возьмем наборы данных 1 и 2).

При расчёте расстояния между исходной и целевой областями был использован ММД (максимальное среднее расхождение). Дополнительные параметры в ММД не представлены, что может снизить погрешность вычислений. Этот подход широко используется в задачах адаптации области, где применяется метод приближённого тождественного преобразования. Расстояние в высокой размерности между X o и X g равно:

где s и n представляют собой образцы в исходной и целевой областях соответственно, а φ и H s представляют собой нормальные и ядерные карты признаков гильбертова пространства в процессе реформирования данных соответственно.

Необработанные данные, данные после анализа SPA и спектральная отражательная способность, обработанная четырьмя методами предварительной обработки всех наборов данных, реализованы с помощью алгоритма TCA для анализа дисперсии между наборами данных. Демонстрируется расстояние между каждым образцом в целевых наборах данных (используемых для тестирования модели) и исходными наборами данных (используемых для построения модели в процессе переноса обучения). Из-за значительных различий между данными двух наборов данных спектральная отражательная способность и признаки листьев в разных наборах данных также могут приводить к снижению транзитивности. Следовательно, признаки листьев также представлены с помощью подхода TCA, в котором используется расстояние между LNC и LMA разных наборов данных. Аналогично, представлено расстояние между каждым признаком листьев в целевом и исходном наборах данных.

2.3. Обновление модели с передачей данных

Обновление модели может повысить эффективность переносимости установленной модели исходной области в целевой домен, в котором часть образцов в целевом наборе данных была перенесена в исходный набор данных [ 37 ]. Обновление модели с использованием необработанных и нормализованных данных отражения было реализовано путем переноса данных (включая отражение листа, LNC и LMA) из целевого набора данных в исходный набор данных соответственно. Новый целевой набор данных был организован в порядке возрастания значения расстояния, в котором расстояние между каждым целевым образцом и исходным набором данных рассчитывалось с помощью подхода TCA. Образцы с меньшим расстоянием в реформированном наборе данных были представлены как имеющие большее сходство с исходным доменом. Для обновления данных с целью оценки производительности модели переноса были выбраны 5, 10, 15 и 20 процентов образцов с меньшими расстояниями соответственно (показано на рисунке 2 ). Исходный домен поглотил эти данные переноса (спектры и признаки листа), и соответствующие данные из целевого домена были удалены. Между тем, также демонстрируется расстояние признаков листьев (LNC и LMA) по каждому набору данных с перенесенными образцами для оценки дисперсии признаков после обновления модели.

Рисунок 2. Процесс переноса образцов с меньшими расстояниями (* представляет отсортированные образцы в целевом домене. Например, sample1* представляет спектры с наименьшим расстоянием).

Из-за различий между спектральными данными двух наборов данных в нашем исследовании была предложена модель WDT-RFR для повышения производительности образцов в модели переноса. Взвешенный анализ образцов, реализованный в подходе TrAdaboost R2, также использовался в нашем исследовании для анализа весового коэффициента в процессе регрессии [ 46 ]. Начальные веса устанавливаются на основе значения расстояния каждого образца. Вес должен контролироваться в пределах определенного диапазона изменений, а его колебание значения не должно превышать 20 процентов для сохранения сходства данных между двумя наборами данных. Весовой коэффициент образцов в исходном наборе данных рассчитывался на основе количества, в котором значения были распределены в среднем. Коэффициент, взвешенный по расстоянию, для перенесенных образцов был представлен значением расстояния, полученным с помощью TCA. Взвешенное значение обновлялось на основе производительности регрессии с начальными весами. Это значение сохраняло вес, рассчитанный в прошлый раз (без обновления), в то время как его колебание изменялось более чем на 0,2 раза по сравнению с начальным значением веса. Веса, используемые для модели переноса данных, были окончательно выбраны и объединены с данными исходной области для нормализации данных, в то время как производительность регрессионной модели была повышена после итеративного вычисления k- раунда . Описание представлено на рисунке 3 , а подробности представлены ниже. Признаки листьев (LNC и LMA) не требуют анализа весов в процессе переноса.

Рисунок 3. Взвешенный анализ и процесс обновления (* представляют отсортированные образцы в исходном и целевом доменах после передачи данных).

Линейный обучающийся алгоритм α k , линейная ошибка e k и вес ( w k ), используемые в подходе анализа веса в TrAdaboost R2, представлены следующим образом:

где w k+ 1, i представляет собой вес после обновления в раунде k , α k представляет собой линейную ошибку, которая используется для анализа эффективности регрессии, G k ( x i ) представляет собой линейный обучающийся алгоритм в процессе вычисления раунда k , который может установить регрессионную модель между отражательной способностью, LNC и LMA, s + n p представляет собой общее количество новых образцов исходной области, а E k представляет собой максимальную ошибку в обучающем наборе.

2.4. Подходы к моделированию

Подходы PLS, SVR, XGB и RFR используются для переноса количественной модели на наборы данных. В частности, модели устанавливаются этими четырьмя алгоритмами в исходных наборах данных и используются для доступа к LNC и LMA в целевых наборах данных. PLS широко используется в анализе взаимосвязей между спектрами и признаками листьев во многих исследованиях и не предполагает, что измерение предикторных переменных было выполнено без ошибок. Моделирование PLS было представлено с использованием PLS Toolbox V8.2.1 (Eigenvector Research INC, США) в программном обеспечении MATLAB (R2021b, The Mathworks, Inc., Natick, MA, США). Для подхода SVR в нашем исследовании использовалась радиальная базисная функция (RBF) в качестве функции ядра, в которой были оптимизированы параметр штрафа из списка 0,01, 0,1, 1, 10 и 100 и коэффициенты ядра 0,001 и 0,0005. Подход XGB позволяет непрерывно генерировать новые деревья регрессии, чтобы уменьшить ошибку предыдущего этапа прогнозирования и добиться более высокой скорости присоединения и меньшей сложности. Количество оценщиков и максимальная глубина дерева выбираются из списка 500, 1000, 2000, 3000 и 4000 и 1, 2, 3, 4 и 5 соответственно. Количество деревьев (ntree) независимо конструируется в демонстрационной модели RFR, которая разбивает узлы на основе наиболее эффективных входных переменных (mtry). Мы использовали ntree от 500 до 2500 с интервалом 500 и mtry от 1 до 20 с интервалом 1 для повышения производительности модели переноса.

Исходные и целевые наборы данных используются в качестве обучающего и тестового наборов в процессе переноса обучения соответственно. Для переносимой оценки между наборами данных исходный домен (включая необработанные данные и отражательную способность с четырьмя методами предварительной обработки в наборе данных) используется для обучения переносимой модели. Спектры и признаки листьев в других наборах данных используются для оценки LNC и LMA в переносимой модели. Спектральные данные в исходном и целевом доменах должны быть обработаны с использованием одного и того же метода предварительной обработки. Например, спектры в целевом наборе данных должны быть обработаны методом SNV для оценки LNC и LMA, когда переносимая модель была создана с помощью спектров с методом SNV в исходном домене. Выборки, используемые для обучения и тестирования, совпадают с количеством выборок наборов данных, используемых в качестве исходного и целевого доменов соответственно. В процессе обновления модели (модель WDT-RFR) новый исходный домен был представлен после переноса данных из целевого набора данных в исходный. Целевой домен после удаления этих выборок данных использовался в качестве тестового набора данных для переносимой оценки по различным наборам данных. Спектральные данные и связанные с ними признаки листьев участвуют в передаваемых данных. Поэтому выборки, используемые для обучения и тестирования, увеличиваются и уменьшаются по сравнению с исходной областью для передаваемой оценки между наборами данных соответственно. Например, всего 292 выборки участвуют в наборе данных 6 для оценки LNC и LMA в наборе данных 5 с обновлением 10 процентов выборок. Всего переносится 36 выборок в наборе данных 5. Модель RFR была разработана для оценки производительности переноса различных моделей при оценке LMA и LNC, что также может проверить производительность взвешенного коэффициента расстояния, используемого в процессе переноса. Исходные и целевые наборы данных без переноса данных также использовались для оценки LMA и LNC с помощью RFR для оценки продвижения модели WDT-RFR. Общий процесс оценки LNC и LMA с помощью модели переноса в нашем исследовании показан на рисунке 4 .

Рисунок 4. Общий процесс оценки LNC и LMA с помощью модели переноса WDT-RFR. На втором этапе звёздочки (*) обозначают отсортированные образцы в целевой области.

Для оценки эффективности модели переноса в каждой модели в качестве статистических индексов выбраны R² и среднеквадратическая ошибка (RMSE) . Более низкий RMSE и более высокий R² указывают на более высокую эффективность модели. Подробная информация об этих двух индексах представлена ​​в предыдущих исследованиях. Для разработки и оценки эффективности модели в нашем исследовании использовалась программа MATLAB R2021b (The Mathworks, Inc., Натик, Массачусетс, США). Для анализа дисперсии данных в тех же условиях также был реализован метод TCA.

3. Результаты

3.1. Методы предварительной обработки влияют на расстояние между наборами данных

Расстояние между двумя наборами данных представлено с помощью подхода TCA. Расстояние спектров с использованием четырех предварительно обработанных подходов показано на рисунке 5 и рисунке S2 . Результаты показали, что среднее расстояние между двумя наборами данных увеличилось после извлечения длин волн признаков с помощью подхода SPA. При моделировании LNC среднее расстояние увеличилось на 38,9, 36,3, 92,6, 41,3 и 86,7 процентов в среднем для необработанных спектров и коэффициентов отражения, предварительно обработанных с помощью SG, SNV, MSC и нормализованных подходов во всех моделях переноса по наборам данных, соответственно. Аналогичным образом, эти значения также были повышены после SPA в моделировании LMA, где они увеличились на 35,2, 42,5, 90,4, 44,1 и 86,5 процентов соответственно. Меньшее расстояние представляет собой меньшие расхождения спектральных данных, что может улучшить переносимость данных по наборам данных. Спектры, полученные с помощью метода нормализованной предварительной обработки, демонстрируют наименьшее расхождение по сравнению с другими методами предварительной обработки и необработанными данными в различных наборах данных, что указывает на снижение дисперсии спектров (см . рис. 5 и рис. S3 ). Результаты спектров, обработанных методами SG и MSC, в целом демонстрируют схожую степень расхождения с необработанными данными.

Рисунок 5. Результаты среднего расстояния между исходным доменом и целевыми образцами с использованием метода SPA и без него при доступе к LNC. ( a – d ) представляют среднее расстояние отражения с использованием предварительно обработанных SG, SNV, MSC и нормализации соответственно. SG-SPA, SNV-SPA, нормализация-SPA и MSC-SPA представляют результаты с использованием метода SPA. Метод SPA использовался для извлечения длины волны признаков для доступа к LMA. Наборы данных 1–2 представляют набор данных 1 как исходный домен и 2 как целевой домен. Погрешность показывает максимальное и минимальное расстояние между двумя различными наборами данных.

3.2. Данные о свойствах листьев влияют на расстояние между наборами данных

Расстояние (по подходу TCA) и распределение данных LNC и LMA между двумя наборами данных показаны на рисунке 6 и рисунке S3 . Наибольшие и наименьшие средние расстояния LMA представлены в наборах данных 6 и 3 с другими, которые составляют 0,5527 и 0,2755 между наборами данных 6 и 4 с другими, соответственно. Напротив, наиболее значительное среднее расстояние LNC было продемонстрировано в наборе данных 4 с другими, которое составляет 0,9303. Это значение почти вдвое больше расстояния LNC в других наборах данных. Меньшие расстояния LNC показаны в наборах данных 2 и 3, которые составляют 0,4734 и 0,4721, соответственно. Расстояние LNC больше, чем расстояние LMA в большинстве наборов данных (показано в таблице S1 ). Степень расстояния также может быть отражена в распределении данных по наборам данных. Разброс данных с меньшим расстоянием LMA или LNC равномерно распределен по горизонтали или вертикали. Это явление особенно заметно между наборами данных 2, 3 и 6 в LNC и 3 и 4 в LMA.

Рисунок 6. Расстояние и распределение данных LNC между двумя различными наборами данных. Показана только половина эффективности распределения данных, и никаких различий в распределении между двумя наборами данных в качестве исходного и целевого доменов не обнаружено.

3.3. Оценка эффективности моделей переноса

Производительность оценки доступа к LNC и LMA по различным наборам данных с помощью PLS и трех алгоритмов машинного обучения показана в таблицах S2–S5 (производительность оценки была низкой при подходах PLS, SVR и XGB). Для доступа к LNC и LMA используются необработанные данные и все предварительно обработанные спектры. Также реализованы все спектральные данные с подходом SPA и без него. Таким образом, в каждом алгоритме демонстрируется 300 моделей переноса. Модели переноса, созданные подходами PLS, SVR и XGB, показали плохую производительность прогнозирования, а R 2 в основном меньше нуля. R 2 и RMSE моделей переноса, созданных RFR для доступа к LNC и LMA, показаны в таблицах S6 и S7 . Модель переноса, использующая спектры с MSC и нормализованной обработкой, работает в основном лучше, чем модель, использующая необработанные данные и спектры с подходами SG и SNV для доступа к LNC и LMA по всем наборам данных. Среднеквадратические ошибки модели переноса с использованием MSC и нормализованной предварительной обработки по различным наборам данных без SPA для оценки LNC и LMA составляют 0,2148% и 0,2147% (8,2601 мг/см² и 8,5593 мг/см² соответственно ). Среднеквадратические ошибки модели переноса с использованием MSC и нормализованных предобработанных спектров с подходом SPA в среднем снизились на 1,7% и увеличились на 0,9% для доступа к LNC и LMA соответственно. Следовательно, для последующего процесса моделирования переноса выбираются нормализованные спектры во всех наборах данных и алгоритм RFR, а спектральные данные с подходом SPA и без него используются для оценки LNC и LMA благодаря более высокой точности прогнозирования соответственно.

Эффективность оценки доступа к LNC и LMA с помощью подходов SPA-RFR и RFR с использованием нормализованных спектров представлена ​​на рисунке 7 и рисунке S4 . Оценочные данные каждой панели на рисунке 7 и рисунке S5, близкие к пунктирной линии 1:1, указывают на более низкую среднеквадратичную ошибку и хорошую эффективность прогнозирования. Эти графики также отражают тенденцию к изменению моделей переноса, использующих спектры в подходе SPA. Это также можно продемонстрировать по изменению значений R2 в каждой модели. Более высокая эффективность оценки представлена ​​в наборах данных 2, 3 и 6 как целевой области для доступа к LNC и LMA.

Рисунок 7. Результаты переноса обучения для оценки LNC на различных наборах данных с использованием подходов RFR (зелёный крестик) и SPA-RFR (красный круг). ( a – f ) представляют наборы данных 1–6 в качестве исходного домена, а синяя пунктирная линия показывает линию 1:1. Исходный и целевой домены показаны на каждом графике (та же форма показана на рисунке S4 ). Например, наборы данных 1–2 представляют модель набора данных 1, созданную RFR, а SPA-RFR использовался для доступа к LNC в наборе данных 2. На каждом графике показаны R2 и среднеквадратичное отклонение (RMSE) , цвет которых совпадает с цветом метки двух подходов.

Взаимосвязь отражательной способности, расстояния между признаками листьев и производительности обучения переносу показана на рисунке 8 и рисунке S5 . Расстояние LMA незначительно повлияло на R 2 и RMSE , когда модель переноса была установлена ​​с использованием спектров с подходом SPA и без него для разных наборов данных. Расстояние спектров с методами SG, MSC и нормализованной предварительной обработки оказывает очень значительное влияние на производительность оценки для доступа к LNC. Это явление представлено в моделях с использованием SG, MSC и нормализованных спектров с SPA и без него. Относительные значимые коэффициенты представлены между R 2 , RMSE и моделями переноса с использованием нормализованных и нормализованных SPA спектров по сравнению с моделями, использующими другие подходы с предварительной обработкой.

Рисунок 8. Взаимосвязь и значимость расстояния отражения, расстояния признака и результатов трансферного обучения оценки LMA ( a ) и LNC ( b ) по разным наборам данных (оценки LMA и LNC были выполнены с использованием подхода RFR с использованием отражения без SPA).

Коэффициенты корреляции между расстоянием между исходными данными, SG, SNV, MSC, нормализованными спектрами и RMSE улучшаются благодаря подходу SPA для доступа к LNC (показано на рисунке S5 ). Значение между MSC, расстоянием между нормализованными спектрами и RMSE увеличилось с 0,40 и 0,37 до 0,57 и 0,42 соответственно, что указывает на то, что MSC и нормализованные спектры при подходе SPA обеспечивают более надежную модель переноса. Коэффициенты корреляции между расстоянием между исходными данными, SG, MSC, нормализованными спектрами и RMSE увеличиваются благодаря подходу SPA в модели переноса.

3.4 Влияние передачи данных на эффективность оценки

Производительность оценки модели переноса для доступа к LNC и LMA с обновлением данных представлена ​​на рисунке 9 и рисунке S6 . Представлены результаты R2 и RMSE в сочетании с соответствующей отражательной способностью листа и расстоянием между признаками модели переноса. Расстояние спектров листа, LNC и LMA между различными наборами данных показало тенденцию к уменьшению с увеличением количества образцов , перенесенных из целевого домена в исходный, а RMSE увеличивались с увеличением количества перенесенных образцов. Все RMSE уменьшаются в моделях с обновлением данных по сравнению с моделями без переноса данных. Расстояние отражательной способности для доступа к LMA и LNC уменьшалось в среднем на 3,2% и 3,3% с каждым увеличением на 5 имеющихся образцов, перенесенных во всех моделях переноса, соответственно. Аналогичным образом, расстояние LMA и LNC также уменьшалось в среднем на 12,5% и 13,6% при переносе образцов с 5% до 20% с интервалом в 5 процентов соответственно.

Рисунок 9. Расстояние LNC, отражательная способность и предполагаемая производительность передачи данных из целевого домена в исходный. Синяя и зелёная пунктирные линии представляют R2 и среднеквадратичную ошибку модели без передачи данных на каждом графике. ( a – f ) представляют наборы данных № 1–6 в качестве исходного домена. Наборы данных в нижней части каждого графика представляют исходный и целевой домены (например, 1–2 представляют модель набора данных 1, созданную RFR и использованную для оценки LMA в наборе данных 2).

Коэффициент R² каждой модели переноса в основном снижался с увеличением количества переносимых выборок. Среднеквадратичное отклонение (RMSE) увеличивалось с увеличением количества переносимых выборок из целевых доменов. Это явление свидетельствовало о том, что оценка хорошо выполнялась с меньшими перенесенными выборками. Каждое увеличение количества перенесенных выборок на 5% приводило к увеличению среднеквадратичного отклонения (RMSE) на 0,64% и 0,63% и снижению R² на 4,3% и 4,4% для LNC и LMA соответственно. Эти результаты показали, что модель переноса с 5% перенесенных выборок целевого домена демонстрирует более высокую точность оценки, чем модели с 10%, 15% и 20% перенесенных выборок.

Оценка LNC и LMA с 5% образцов, перенесённых из целевых в исходные домены моделей переноса для различных наборов данных, представлена ​​на рисунках 10 и S7 . Модели переноса наборов данных 2, 3, 4 и 6 в качестве целевых доменов показали превосходную эффективность оценки. Эти данные рассеяния в моделях переноса более точно соответствуют пунктирной линии 1:1 по сравнению с наборами данных 1 и 5 в качестве целевых доменов.

Рисунок 10. Расчетное LNC с 5% данных, перенесенных из целевого домена в исходный домен. ( a – f ) представляют наборы данных № 1–6 в качестве исходного домена.

3.5. Проверка модели

Производительность оценки LMA и LNC ( RMSE ) модели переноса WDT-RFR в наших исследовательских и моделях переноса машинного обучения показана в таблицах S8 и S9 , соответственно. В частности, все наборы данных использовали нормализованную спектральную отражательную способность без метода SPA. Было реализовано пять процентов данных, переданных из целевой в исходную область в модели WDT-RFR. Обновление выборки не выполнялось в моделях переноса, созданных с использованием подходов RFR, SVR и XGB. По сравнению с методами SVR и XGB модель переноса WDT-RFR в нашем исследовании значительно повышает точность прогнозирования. RMSE оценки LMA и LNC были повышены в среднем на 7,9% и 4,8% при использовании модели переноса WDT-RFR по сравнению с моделью переноса RFR без обновления модели, соответственно, что указывает на то, что наша модель переноса (WDT-RFR) показала превосходную производительность оценки.

4. Обсуждение

В данном исследовании изучалась дисперсия спектров, полученная с помощью четырёх предобработанных спектральных подходов на основе различных наборов данных, а также анализировалось влияние дисперсии спектров и признаков листьев (LNC и LMA) на эффективность оценки в моделях переноса, созданных на основе шести наборов данных. Мы также предложили модель переноса WDT-RFR с обновлением данных для повышения эффективности оценки LNC и LMA.

4.1 Анализ отражательной способности и расстояния между признаками листа

Расстояние между исходными данными отражения с SPA увеличилось по сравнению с отсутствием SPA, и эта тенденция также продемонстрирована в расстоянии между спектрами с предварительно обработанными подходами во всех наборах данных. Эта тенденция связана с большей дисперсией отражения длин волн признаков, извлеченных SPA, между различными наборами данных. Важность выбранных полос более заметна при оценке LNC и LMA. Значительная разница в расстоянии между исходными спектрами, SG, MSC, SNV и нормализованными предварительно обработанными спектрами по наборам данных. Это может быть отражено дисперсией, связанной со значением спектра, которую можно наблюдать в меньшем расстоянии между наборами данных 1 и 5, 2 и 3 и 3 и 6 соответственно (показано на рисунке 5 и рисунке S2 ). Аналогичные явления представлены в исследовании Вана, в котором виды листьев привели к различию в спектрах между наборами данных и повлияли на последующую переносимость модели.

Расстояние LMA между различными наборами данных в основном меньше, чем у LNC, несмотря на то, что среднее значение, CV и диапазон LMA намного больше, чем у LNC. Эта тенденция в первую очередь получена в наборах данных 1, 4 и 5 как исходных доменах. Расстояние LNC между наборами данных 2 и 3 и 2 и 6, очевидно, меньше, чем у LMA, и это явление может быть связано с похожим средним значением LNC в этих наборах данных (показано в Таблице 1 ). Эта причина также может объяснить меньшее расстояние LMA между наборами данных 3 и 4. Расстояния LNC и LMA показали меньшие степени, когда значения признаков с более высокими вероятностями распределения были близки друг к другу между двумя наборами данных. Это наблюдение показано на Рисунке 6 и Рисунке S3 . Например, большинство данных LNC сосредоточено около 1,4% между наборами данных 2 и 6, а распределение вероятностей данных LMA выше при 90 мг/см 2 между наборами данных 2 и 5.

4.2 Влияние спектров и дисперсии признаков листьев на эффективность оценки в модели переноса

Эффективность оценки зависит не только от расстояния спектров в различных наборах данных, но также связана с дисперсией признаков (показано на рисунках 8 и S5 ). Значительное влияние на эффективность прогнозирования оказывает расстояние LMA, а не расстояние спектров во всех предобработанных подходах. Напротив, расстояние спектров тесно связано с оценкой LNC по сравнению с расстоянием LNC. Эффективность оценки моделей переноса, использующих MSC и нормализованные спектры, повышается по сравнению с моделями, использующими необработанные данные, и модели с MSC и нормализованными спектрами в целом показали лучшую эффективность во всех моделях для доступа к LNC. Более высокая эффективность оценки продемонстрирована в моделях, использующих SNV, MSC и нормализованные спектры для доступа к LMA. В частности, модели, использующие спектры SNV, показали хорошие результаты в наборах данных 3, 4 и 6 в качестве целевых доменов, спектры MSC показали более значительное влияние на оценку LMA в наборах данных 1, 2, 3, 5 и 6, а нормализованные спектры, используемые в моделях переноса, показали хорошие результаты для доступа к LMA наборов данных 1, 2, 3, 5 и 6 в качестве целевых доменов. Большее расстояние LMA всегда приводило к низкой эффективности оценки в модели переноса с использованием предварительно обработанных спектров (что показано в оценке эффективности набора данных 6 в качестве целевого домена). Среднеквадратические ошибки (СКО) в этих моделях были выше по сравнению с моделями с необработанными данными, несмотря на то, что спектральное расстояние уменьшалось при использовании подходов с предварительной обработкой.

Меньшее или большее расстояние спектров и признаков листа не в полной мере указывает на хорошую производительность прогнозирования в моделях переноса. Расстояние LNC и LMA увеличивается со спектрами, используемыми с подходом SPA, что указывает на большую спектральную разницу между наборами данных. Производительность оценки LNC повышается в большинстве моделей с подходом SPA. Однако при оценке LMA демонстрируется противоположная тенденция. Это может быть связано с тем, что производительность образца связана с дисперсией множества параметров, включая характеристики отражения, спектры и расстояние LMA. Это явление также можно объяснить узкими характеристиками поглощения сухого вещества, которые упускаются подходом SPA для доступа к LMA. Предыдущие исследования показали, что спектры NIR связаны с вариацией структуры листа и содержания воды, а спектральная вариация SWIR вызвана водой, сухим веществом и белками [ 3 ]. Выбранные диапазоны длин волн в основном находятся в областях VIS и NIR с подходом SPA, который используется для доступа к LMA, и только несколько длин волн SWIR продемонстрированы для оценки LMA во всех моделях переноса (см. Таблицу S10 ). Исследование также показало, что спектры VIS и SWIR изменяются в зависимости от LMA [ 29 , 47 , 48 ].

Модели переноса в целом хорошо работали с нормализованными обработанными спектрами в сочетании с подходом SPA в оценке LNC и LMA. Уменьшение расстояния нормализованных спектров по сравнению с расстоянием необработанных данных между различными наборами данных всегда показывало хорошую производительность оценки. Извлеченные волновые диапазоны признаков во всех моделях переноса, установленных с помощью нормализованных спектров для оценки LNC, в основном находятся в областях VIS и SWIR (показано в таблице S11 ); эти наблюдения также продемонстрировали Ферет и др. [ 26 ], Бергер и др. [ 27 ] и Ван и др. [ 37 ], которые представили, что отражательная способность VIS и SWIR может характеризовать LNC. Спектры SWIR показали, что большее влияние на оценку LNC связано с особенностями поглощения в области SWIR, которые могут отражать характеристики белков (содержащих N) [ 49 , 50 ]. Некоторые выбранные длины волн в NIR для оценки LNC также были продемонстрированы в наборах данных 2 и 3; эти закономерности согласуются с результатами Хе и др. [ 51 ] и Князихин и др. [ 52 ], которые обнаружили, что оценка LNC в масштабе полога леса была более эффективной, поскольку отражение в ближнем ИК-диапазоне при высоком рассеянии излучения менее чувствительно к солнечному свету. Эти результаты подтверждают наш вывод о том, что нормализованные спектры с использованием метода SPA могут быть использованы для оценки LNC в моделях переноса.

4.3 Анализ обновления трансферной модели

Большая дисперсия расстояния LMA, LNC и спектров представлена ​​как повышенная производительность оценки во всех моделях переноса WDT-RFR с образцами, обновленными с использованием нормализованной отражательной способности. По сравнению со спектрами, дисперсией LMA и LNC между наборами данных без переноса данных, все эти расстояния в моделях переноса с обновлением образцов постепенно уменьшались (показано на рисунке 6 , рисунке 9 , рисунках S2 и S6 ), что указывает на то, что образцы с меньшей дисперсией с исходными наборами данных, перенесенными из целевых в исходные домены, могут повышать сходство двух разных наборов данных. Некоторые особенности в спектрах и признаках листьев переносятся и объединяются с исходными спектрами в качестве нового исходного домена путем переноса образцов. Следовательно, производительность оценки LMA и LNC повышается во всех моделях переноса по сравнению с результатами без переноса образцов. Аналогичные наблюдения представлены в исследовании Вана [ 37 ], которое продемонстрировало, что производительность оценки LNC была улучшена путем обновления модели. Однако повышенное сходство между двумя наборами данных не приводит к повышению производительности оценки в нашем исследовании. Это явление может быть связано с тем, что эффективность прогнозирования исходного набора данных снижается из-за модели переноса, основанной на новом исходном домене. Чем больше образцов перенесено, тем ниже эффективность прогнозирования, представленная в модели переноса.

Модель переноса WDT-RFR, использованная в нашем исследовании, показала лучшую производительность оценки LNC, чем модель с обновлением в исследовании Вана [ 37 ], хотя CV LNC в наших наборах данных в основном больше, чем в исследовании Вана. В нашем исследовании использовался тот же набор данных, 2. Большее спектральное расстояние LNC и дисперсия между наборами данных 2, 1 и 3 представлены в этом исследовании. RMSE моделей переноса, обновленных с использованием этих наборов данных, все еще меньше, чем в исследовании Вана [ 37 ], что указывает на то, что модель переноса WDT-RFR, использованная в нашем исследовании, показала превосходную производительность оценки.

Во многих исследованиях представлены надежные модели для оценки LMA и LMA, а в некоторых из них продемонстрированы попытки создания моделей переноса для оценки признаков листьев. В нашем исследовании мы проанализировали дисперсию спектров и признаков листьев, влияющих на эффективность оценки в моделях переноса, и предложили модель переноса WDT-RFR для повышения эффективности оценки образцов. Эффективность оценки связана с характеристиками спектров и признаков листьев. Поэтому для дальнейшего расширения наших выводов необходимо добавить больше наборов данных по отражательной способности листьев с несколькими диапазонами значений. Для проверки эффективности оценки модели переноса WDT-RFR можно также использовать больше признаков листьев, таких как содержание углерода и хлорофилла.

4.4 Ограничения и дальнейшие исследования

Наша модель переноса предложена на основе данных об отражательной способности листьев из различных наборов данных. Доказано, что отражательная способность ближнего ИК- и коротковолнового ИК-диапазона может быть использована для оценки содержания азота в пологе леса в предыдущих исследованиях [ 53 , 54 ]. Индекс площади листа и распределение углов листьев существенно влияют на взаимосвязь между отражательной способностью полога и характеристиками растений. Поэтому при использовании нашей модели в масштабе полога следует учитывать влияние структуры полога. В нашем исследовании оценивались только характеристики листьев LNC и LMA. Другие характеристики, такие как содержание углерода, лигнин и хлорофилл, также следует оценивать с помощью нашей модели переноса для повышения надежности модели в дальнейших исследованиях. Кроме того, следует учитывать освещение и геометрию наблюдения во время получения данных.

Точность модели оценки в нашем исследовании связана со спектрами и данными о признаках, полученными в результате. Наши модели переноса данных используют только шесть наборов данных. Поэтому необходимо продемонстрировать использование нашей модели на большем количестве образцов и наборов данных. Для подтверждения эффективности нашей модели необходимо провести измерения на большем количестве образцов растений, произрастающих на разных континентах и ​​в теплицах. Нашу модель можно дополнительно изучить, объединив её с моделью спектров оптических свойств листьев (PROSPECT). Например, она представляет собой связанную модель PROSPECT для моделирования спектральных данных в различных наборах данных при отсутствии некоторых важных признаков листьев.

5. Выводы

В данном исследовании мы изучили дисперсию спектров и признаков листьев (LNC и LMA) в различных наборах данных. Мы также представили модель переноса WDT-RFR для улучшения качества оценки LNC и LMA. Основываясь на результатах, полученных в данном исследовании, мы делаем следующие выводы:

(1)  Дисперсия нормализованных спектров между различными наборами данных меньше, чем при использовании других методов предварительной обработки (SG, SNV и MSC) и необработанных данных. Среднее расстояние между спектрами двух наборов данных увеличивается благодаря подходу SPA во всех предобработанных и необработанных спектральных значениях отражения. Дисперсия LMA и LNC для различных наборов данных меньше, в то время как значения признаков с более высокими вероятностями распределения близки друг к другу.

(2)  На эффективность оценки влияют спектры и расстояние между признаками в различных наборах данных. Расстояние LMA оказывает значительное влияние на эффективность оценки в модели переноса, а расстояние между спектрами при всех предобработанных подходах показало очень значительное влияние на эффективность отбора LNC. В нашем исследовании для оценки LMA и LNC выбран нормализованный спектральный коэффициент отражения ввиду его более высокой эффективности оценки.

(3)  В нашем исследовании была продемонстрирована модель переноса WDT-RFR для повышения эффективности оценки LNC и LMA на различных наборах данных. Дисперсия спектров и признаков листьев постепенно снижалась с увеличением количества перенесённых образцов. Эффективность оценки в моделях переноса повышается за счёт образцов с меньшей дисперсией по сравнению с исходными наборами данных, перенесёнными из целевого домена. Более точная оценка получена для образцов LNC и LMA с перенесённым 5% образцов, что показало превосходную эффективность. Среднеквадратические ошибки (RMSE) оценок LMA и LNC были повышены в среднем на 7,9% и 4,8% по сравнению с моделью переноса RFR, использующей спектры без обновления соответственно. Результаты показывают, что наша модель продемонстрировала превосходную эффективность оценки.

Дополнительные материалы

Следующая вспомогательная информация может быть загружена по адресу https://www.mdpi.com/article/10.3390/agriculture15010046/s1 , Таблица S1: Расстояние LMA и LNC по различным наборам данных; Таблица S2: Результаты трансфера обучения для оценки LMA по различным наборам данных с помощью модели RFR; Таблица S3: Результаты трансфера обучения для оценки LNC по различным наборам данных с помощью модели RFR; Таблица S4: Результаты трансфера обучения для оценки LMA по различным наборам данных с помощью модели RFR с SPA; Таблица S5: Результаты трансфера обучения для оценки LNC по различным наборам данных с помощью модели RFR с SPA; Таблица S6: Расстояние LMA и LNC по различным наборам данных с передачей данных (обновление модели); Таблица S7: Расстояние отражения по различным наборам данных с передачей данных (обновление модели); Таблица S8: Трансфер обучения для оценки LMA по различным наборам данных с использованием подходов WDT-RFR, RFR, SVR и XGB; Таблица S9: Перенос обучения для оценки LNC по различным наборам данных с использованием подходов WDT-RFR, RFR, SVR и XGB; Таблица S10: Выбранные длины волн подходом SPA для доступа к LMA; Таблица S11: Выбранные длины волн подходом SPA для доступа к LNC; Рисунок S1: Данные отражения каждого набора данных; Рисунок S2: Результаты среднего расстояния между исходным доменом и целевыми образцами с и без подхода SPA при доступе к LMA; Рисунок S3: Расстояние LMA между двумя различными наборами данных; Рисунок S4: Результаты переноса обучения оценки LMA по различным наборам данных с подходами RFR и SPA-RFR; Рисунок S5: Связь и значимость расстояния отражения после подхода SPA, расстояния признака и результатов переноса обучения оценки LMA и LNC по различным наборам данных; Рисунок S6: Расстояние LMA, отражательная способность и расчетная производительность передачи данных из целевого домена в исходный домен; Рисунок S7: Расчетный LMA с 5% данных, переданных из целевого домена в исходный домен.

Ссылки

1.    Poorter, H.; Niinemets, U.; Poorter, L.; Wright, I.J.; Villar, R. Causes and consequences of variation in leaf mass per area (LMA): A meta-analysis. New Phytol. 2009182, 565–588. [Google Scholar] [CrossRef]

2.    Serbin, S.P.; Wu, J.; Ely, K.S.; Kruger, E.L.; Townsend, P.A.; Meng, R.; Wolfe, B.T.; Chlus, A.; Wand, Z.; Alstair, R. From the Arctic to the tropics: Multi-biome prediction of leaf mass per area using leaf reflectance. New Phytol. 2019224, 1557–1568. [Google Scholar] [CrossRef] [PubMed]

3.    Asner, G.P.; Martin, R.E. Spectral and chemical analysis of tropical forests: Scaling from leaf to canopy levels. Remote Sens. Environ. 2008112, 3958–3970. [Google Scholar] [CrossRef]

4.    Singh, A.; Serbin, S.P.; McNeil, B.E.; Kingdon, C.C.; Townsend, P.A. Imaging spectroscopy algorithms for mapping canopy foliar chemical and morphological traits and their uncertainties. Ecol. Appl. 201525, 2180–2197. [Google Scholar] [CrossRef]

5.    Xu, H.; He, H.; Yang, K.; Ren, H.; Zhu, T.; Ke, J.; You, C.; Guo, S.; Wu, L. Application of the nitrogen nutrition index to estimate the yield of indica hybrid rice grown from machine-transplanted bowl seedlings. Agronomy 202212, 742. [Google Scholar] [CrossRef]

6.    Gara, T.W.; Darvishzadeh, R.; Skidmore, A.K.; Wang, T. Impact of Vertical Canopy Position on Leaf Spectral Properties and Traits across Multiple Species. Remote Sens. 201810, 346. [Google Scholar] [CrossRef]

7.    Shen, Y.; Wu, X.; Wu, B.; Tan, Y.; Liu, J. Qualitative Analysis of Lambda-Cyhalothrin on Chinese Cabbage Using Mid-Infrared Spectroscopy Combined with Fuzzy Feature Extraction Algorithms. Agriculture 202111, 275. [Google Scholar] [CrossRef]

8.    Wu, B.; Huang, W.; Ye, H.; Luo, P.; Ren, Y.; Kong, W. Using Multi-Angular Hyperspectral Data to Estimate the Vertical Distribution of Leaf Chlorophyll Content in Wheat. Remote Sens. 202113, 1501. [Google Scholar] [CrossRef]

9.    Wang, W.; Gao, X.; Cheng, Y.; Ren, Y.; Zhang, Z.; Wang, R.; Cao, J.; Geng, H. QTL Mapping of Leaf Area Index and Chlorophyll Content Based on UAV Remote Sensing in Wheat. Agriculture 202212, 595. [Google Scholar] [CrossRef]

10. Silva-Perez, V.; Molero, G.; Serbin, S.P.; Condon, A.G.; Reynolds, M.P.; Furbank, R.T.; Evans, J.R. Hyperspectral reflectance as a tool to measure biochemical and physiological traits in wheat. J. Exp. Bot. 201769, 483–496. [Google Scholar] [CrossRef]

11. Ely, K.S.; Burnett, A.C.; Lieberman-Cribbin, W.; Serbin, S.P.; Rogers, A. Spectroscopy can predict key leaf traits associated with source–sink balance and carbon–nitrogen status. J. Exp. Bot. 201970, 1789–1799. [Google Scholar] [CrossRef] [PubMed]

12. Asner, G.P.; Martin, R.E.; Tupayachi, R.; Emerson, R.; Martinez, P.; Sinca, F.; Powell, G.V.N.; Wright, S.J.; Lugo, A.E. Taxonomy and remote sensing of leaf mass per area (LMA) in humid tropical forests. Ecol. Appl. 201121, 85–98. [Google Scholar] [CrossRef]

13. Shiklomanov, A.N.; Dietze, M.C.; Viskari, T.; Townsend, P.A.; Serbin, S.P. Quantifying the influences of spectral resolution on uncertainty in leaf trait estimates through a Bayesian approach to RTM inversion. Remote Sens. Environ. 2016183, 226–238. [Google Scholar] [CrossRef]

14. Wu, J.; Albert, L.P.; Lopes, A.P.; Restrepo-Coupe, N.; Hayek, M.; Wiedemann, K.T.; Guan, K.; Stark, S.C.; Christoffersen, B.; Prohaska, N.; et al. Leaf development and demography explain photosynthetic seasonality in Amazon evergreen forests. Science 2016351, 972–976. [Google Scholar] [CrossRef]

15. Couture, J.J.; Serbin, S.P.; Townsend, P.A. Spectroscopic sensitivity of real-time, rapidly induced phytochemical change in response to damage. New Phytol. 2013198, 311–319. [Google Scholar] [CrossRef]

16. Liang, L.; Di, L.; Huang, T.; Wang, J.; Lin, L.; Wang, L.; Yang, M. Estimation of leaf nitrogen content in wheat using new hyperspectral indices and a random forest regression algorithm. Remote Sens. 201810, 1940. [Google Scholar] [CrossRef]

17. Yu, X.; Huo, X.; Qian, L.; Du, Y.; Liu, D.; Cao, Q.; Wang, W.; Hu, X.; Yang, X.; Fan, S. Combining UAV Multispectral and Thermal Infrared Data for Maize Growth Parameter Estimation. Agriculture 202414, 2004. [Google Scholar] [CrossRef]

18. Maire, G.L.; François, C.; Soudani, K.; Berveiller, D.; Pontailler, J.Y.; Bréda, N.; Genet, H.; Davi, H.; Dufrêne, E. Calibration and validation of hyperspectral indices for the estimation of broadleaved forest leaf chlorophyll content, leaf mass per area, leaf area index and leaf canopy biomass. Remote Sens. Environ. 2008112, 3846–3864. [Google Scholar] [CrossRef]

19. Serbin, S.P.; Singh, A.; Desai, A.R.; Dubois, S.G.; Jablonski, A.D.; Kingdon, C.C.; Kruger, E.L.; Townsend, P.A. Remotely estimating photosynthetic capacity, and its response to temperature, in vegetation canopies using imaging spectroscopy. Remote Sens. Environ. 2015167, 78–87. [Google Scholar] [CrossRef]

20. Zhang, Y.; Hui, J.; Qin, Q.; Sun, Y.; Zhang, T.; Sun, H. Transfer-learning-based approach for leaf chlorophyll content estimation of winter wheat from hyperspectral data. Remote Sens. Environ. 2021267, 112724. [Google Scholar] [CrossRef]

21. Rapaport, T.; Hochberg, U.; Cochavi, A.; Karnieli, A.; Rachmilevitch, S. The potential of the spectral ‘water balance index’ (WABI) for crop irrigation scheduling. New Phytol. 2017216, 741–757. [Google Scholar] [CrossRef] [PubMed]

22. Jacquemoud, S.; Baret, F. PROSPECT: A model of leaf optical properties spectra. Remote Sens. Environ. 199034, 75–91. [Google Scholar] [CrossRef]

23. Jacquemoud, S.; Verhoef, W.; Baret, F.; Bacour, C.; Zarco-Tejada, P.J.; Asner, G.P.; François, C.; Ustin, S.L. PROSPECT+SAIL models: A review of use for vegetation characterization. Remote Sens. Environ. 2009113, S56–S66. [Google Scholar] [CrossRef]

24. Jay, S.; Maupas, F.; Bendoula, R.; Gorretta, N. Retrieving LAI, chlorophyll and nitrogen contents in sugar beet crops from multi-angular optical remote sensing: Comparison of vegetation indices and PROSAIL inversion for field phenotyping. Field Crop. Res. 2017210, 33–46. [Google Scholar] [CrossRef]

25. Yang, G.; Zhao, C.; Pu, R.; Feng, H.; Li, Z.; Li, H.; Sun, C. Leaf nitrogen spectral reflectance model of winter wheat (Triticum aestivum) based on PROSPECT: Simulation and inversion. J. Appl. Remote. Sens. 20159, 095976. [Google Scholar] [CrossRef]

26. Féret, J.-B.; Berger, K.; de Boissieu, F.; Malenovský, Z. PROSPECT-PRO for estimating content of nitrogen-containing leaf proteins and other carbon-based constituents. Remote Sens. Environ. 2021252, 112173. [Google Scholar] [CrossRef]

27. Berger, K.; Verrelst, J.; Féret, J.-B.; Wang, Z.; Wocher, M.; Strathmann, M.; Danner, M.; Mauser, W.; Hank, T. Crop nitrogen monitoring: Recent progress and principal developments in the context of imaging spectroscopy missions. Remote Sens. Environ. 2020242, 111758. [Google Scholar] [CrossRef]

28. Féret, J.-B.; Le Maire, G.; Jay, S.; Berveiller, D.; Bendoula, R.; Hmimina, G.; Cheraiet, A.; Oliveira, J.; Ponzoni, F.J.; Solanki, T. Estimating leaf mass per area and equivalent water thickness based on leaf optical properties: Potential and limitations of physical modeling and machine learning. Remote Sens. Environ. 2019231, 110959. [Google Scholar] [CrossRef]

29. Helsen, K.; Bassi, L.; Feilhauer, H.; Kattenborn, T.; Honnay, O. Evaluating different methods for retrieving intraspecific leaf trait variation from hyperspectral leaf reflectance. Ecol. Indic. 2021130, 108111. [Google Scholar] [CrossRef]

30. Matin, D.; Katja, B.; Matthias, W.; Wolfram, M.; Tobias, H. Efficient RTM-based training of machine learning regression algorithms to quantify biophysical & biochemical traits of agricultural crops. ISPRS J. Photogramm. Remote Sens. 2021173, 278–296. [Google Scholar] [CrossRef]

31. Yi, Q.; Wang, F.; Bao, A.; Jiapaer, G. Leaf and canopy water content estimation in cotton using hyperspectral indices and radiative transfer models. Int. J. Appl. Earth Obs. Geoinf. 201433, 67–75. [Google Scholar] [CrossRef]

32. Zhang, C.; Yi, Y.; Zhang, S.; Li, P. Quantitative Analysis of Vertical and Temporal Variations in the Chlorophyll Content of Winter Wheat Leaves via Proximal Multispectral Remote Sensing and Deep Transfer Learning. Agriculture 202414, 1685. [Google Scholar] [CrossRef]

33. Zhang, C.; Xue, Y. Estimation of Biochemical Pigment Content in Poplar Leaves Using Proximal Multispectral Imaging and Regression Modeling Combined with Feature Selection. Sensors 202424, 217. [Google Scholar] [CrossRef]

34. Ustin, S.L.; Gitelson, A.A.; Jacquemoud, S.; Schaepman, M.; Asner, G.P.; Gamon, J.A.; Zarco-Tejada, P. Retrieval of foliar information about plant pigment systems from high resolution spectroscopy. Remote Sens. Environ. 2009113, S67–S77. [Google Scholar] [CrossRef]

35. Gastellu-Etchegorry, J.P.; Yin, T.; Lauret, N.; Cajgfinger, T.; Gregoire, T.; Grau, E.; Feret, J.B.; Lopes, M.; Guilleux, J.; Dedieu, G. Discrete anisotropic radiative transfer (DART 5) for modeling airborne and satellite spectroradiometer and LIDAR acquisitions of natural and urban landscapes. Remote Sens. 20157, 1667–1701. [Google Scholar] [CrossRef]

36. Yang, H.; Ming, B.; Nie, C.; Xue, B.; Xin, J.; Lu, X.; Xue, J.; Hou, P.; Xie, R.; Wang, K.; et al. Maize Canopy and Leaf Chlorophyll Content Assessment from Leaf Spectral Reflectance: Estimation and Uncertainty Analysis across Growth Stages and Vertical Distribution. Remote Sens. 202214, 2115. [Google Scholar] [CrossRef]

37. Wan, L.; Zhou, W.; He, Y.; Thomas, C.W.; Cen, H. Combining transfer learning and hyperspectral reflectance analysis to assess leaf nitrogen concentration across different plant species datasets. Remote Sens. Environ. 2022269, 112826. [Google Scholar] [CrossRef]

38. Pullanagari, R.; Dehghan-Shoar, M.; Yule, I.J.; Bhatia, N. Field spectroscopy of canopy nitrogen concentration in temperate grasslands using a convolutional neural network. Remote Sens. Environ. 2021257, 112353. [Google Scholar] [CrossRef]

39. LeCun, Y.; Bengio, Y.; Hinton, G. Deep learning. Nature 2015521, 436–444. [Google Scholar] [CrossRef] [PubMed]

40. Pan, S.; Yang, Q. A survey on transfer learning. IEEE Trans. Knowl. Data Eng. 200922, 1345–1359. [Google Scholar] [CrossRef]

41. Tian, W.; Liao, Z.; Wang, X. Transfer learning for neural network model in chlorophyll-a dynamics prediction. Environ. Sci. Pollut. Res. 201926, 29857–29871. [Google Scholar] [CrossRef] [PubMed]

42. Ma, J.; Cheng, J.; Lin, C.; Tan, Y.; Zhang, J. Improving air quality prediction accuracy at larger temporal resolutions using deep learning and transfer learning techniques. Atmos. Environ. 2019214, 116885. [Google Scholar] [CrossRef]

43. Feilhauer, H.; Asner, G.P.; Martin, R.E. Multi-method ensemble selection of spectral bands related to leaf biochemistry. Remote Sens. Environ. 2015164, 57–65. [Google Scholar] [CrossRef]

44. Pan, S.; Tsang, I.W.; Kwok, J.T.; Yang, Q. Domain Adaptation via Transfer Component Analysis. IEEE Trans. Neural Netw. 201122, 199–210. [Google Scholar] [CrossRef] [PubMed]

45. Xia, J.; Naoto, Y.; Akira, I. Ensemble of transfer component analysis for domain adaptation in hyperspectral remote sensing image classification. In Proceedings of the 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Fort Worth, TX, USA, 23 July 2017. [Google Scholar]

46. David, P.; Peter, S. Boosting for Regression Transfer. In Proceedings of the 27th International Conference on International Conference on Machine Learning, Haifa, Israel, 21 June 2010. [Google Scholar]

47. Cheng, T.; Benoit, R.; Arturo, G.S.A.; Jean-Baptiste, F.; Stéphane, J.; Susan, L.U. Deriving leaf mass per area (LMA) from foliar reflectance across a variety of plant species using continuous wavelet analysis. ISPRS J. Photogramm. Remote Sens. 201487, 28–38. [Google Scholar] [CrossRef]

48. Riva, E.G.; Olmo, M.; Poorter, H.; Ubera, J.L.; Villar, R. Leaf mass per area (LMA) and its relationship with leaf structure and anatomy in Mediterranean woody species along a water availability gradient. PLoS ONE 201611, e0148788. [Google Scholar] [CrossRef]

49. Meerdink, S.K.; Roberts, D.A.; King, J.Y.; Roth, K.L.; Dennison, P.E.; Amaral, C.H.; Hook, S.J. Linking seasonal foliar traits to VSWIR-TIR spectroscopy across California ecosystems. Remote Sens. Environ. 2016186, 322–338. [Google Scholar] [CrossRef]

50. Wang, Z.; Skidmore, A.K.; Darvishzadeh, R.; Wang, T. Mapping forest canopy nitrogen content by inversion of coupled leaf-canopy radiative transfer models from airborne hyperspectral imagery. Agric. For. Meteorol. 2018253, 247–260. [Google Scholar] [CrossRef]

51. He, L.; Song, X.; Feng, W.; Guo, B.; Zhang, Y.; Wang, Y.; Wang, C.; Guo, T. Improved remote sensing of leaf nitrogen concentration in winter wheat using multi-angular hyperspectral data. Remote Sens. Environ. 2016174, 122–133. [Google Scholar] [CrossRef]

52. Knyazikhin, Y.; Schull, M.A.; Stenberg, P.; Mottus, M.; Rautiainen, M.; Yang, Y.; Marshak, A.; Latorre Carmona, P.; Kaufmann, R.K.; Lewis, P.; et al. Hyperspectral remote sensing of foliar nitrogen content. Proc. Natl. Acad. Sci. USA 2013110, E185–E192. [Google Scholar] [CrossRef] [PubMed]

53. Liu, C.; Berg, B.; Kutsch, W.; Westman, C.J.; Ilvesniemi, H.; Shen, X.; Shen, G.; Chen, X. Leaf litter nitrogen concentration as related to climatic factors in Eurasian forests. Glob. Ecol. Biogeogr. 200615, 438–444. [Google Scholar] [CrossRef]

54. Jay, S.; Baret, F.; Dutartre, D.; Malatesta, G.; Héno, S.; Comar, A.; Weiss, M.; Maupas, F. Exploiting the centimeter resolution of UAV multispectral imagery to improve remote-sensing estimates of canopy structure and biochemistry in sugar beet crops. Remote Sens. Environ. 2019231, 110898. [Google Scholar] [CrossRef]

Wang Y, He M, Sun L, He Y, Zheng Z. Transfer Learning Estimation and Transferability of LNC and LMA Across Different Datasets. Agriculture. 2025; 15(1):46. https://doi.org/10.3390/agriculture15010046

Перевод статьи «Transfer Learning Estimation and Transferability of LNC and LMA Across Different Datasets» авторов Wang Y, He M, Sun L, He Y, Zheng Z., оригинал доступен по ссылке. Лицензия: CC BY. Изменения: переведено на русский язык


Комментарии (0)