Опубликовано 5 часов назад

Оценка площадей возделывания картофеля на основе многоисточниковых данных ДЗЗ и модели SHAP-RF.

Картофель, важная продовольственная и товарная культура, требует точной идентификации и оценки площади для эффективного планирования посадки, регулирования рынка и прогнозирования урожайности. Однако извлечение крупномасштабных посевных площадей с помощью спутникового дистанционного зондирования сопряжено с такими трудностями, как низкое пространственное разрешение, помехи, вызванные облачностью, и ограничения цикла повторных наблюдений, что препятствует созданию высококачественных наборов данных временных рядов. 

Аннотация

В данном исследовании мы разработали временной ряд индекса растительности высокого разрешения путем расчета коэффициентов координации и интеграции данных отражения со спутников Landsat-8, Landsat-9 и Sentinel-2. Временные ряды индекса растительности были улучшены с помощью линейной интерполяции и фильтрации Савицкого–Голея (SG) для реконструкции высококачественных данных. Мы использовали метод гармонического анализа временных рядов NDVI (HANTS) для извлечения признаков из временных рядов и оценили точность классификации по пяти наборам признаков: признаки временного ряда индекса растительности, средние значения полосы, средние значения индекса растительности, текстурные признаки и признаки цветового пространства. Модель случайного леса (RF), использующая полный набор признаков, оказалась наиболее точной, достигнув точности 0,97 и значения каппа 0,94. Мы дополнительно уточнили подмножество признаков, используя метод отбора признаков SHAP-SFS, что привело к разработке подхода к классификации SHAP-SFS-RF для дифференциации картофеля от других культур. Этот подход повысил точность примерно на 0,1 и значение каппа примерно на 0,2 по сравнению с моделью RF, при этом извлеченные площади практически совпали с данными статистических ежегодников. В нашем исследовании удалось успешно получить точные данные о площадях посадок картофеля на уровне округов, что позволило получить новые знания и методологии для смежных областей исследований.

1. Введение

Будучи четвертой по значимости продовольственной культурой в мире и единственной клубневой культурой, используемой в качестве основного продукта, картофель не только имеет значительную экономическую ценность, но и демонстрирует отличную приспособляемость [ 1 , 2 ]. Согласно последним статистическим данным, мировая площадь посадки картофеля превысила 17,8 миллионов гектаров, а годовой объем производства составляет 374 миллиона тонн, в то время как Китай лидирует в мире по площади выращивания и объему производства [ 3 ]. Учитывая его сильную приспособляемость, высокую производительность и богатую пищевую ценность, картофель необходим для обеспечения продовольственной безопасности и содействия устойчивому развитию сельского хозяйства в контексте таких глобальных проблем, как демографический взрыв, изменение климата и частые стихийные бедствия [ 4 ]. Китай обладает богатым историческим опытом выращивания картофеля, с широким распространением по всей стране, разделенной на четыре основных агроэкологических региона в зависимости от природных условий, причем каждый регион дополняет другой посредством сезонных различий, формируя крупномасштабную модель производства. Уезд Учуань во Внутренней Монголии, являясь типичным представителем северной зоны односезонного земледелия, стал одним из наиболее перспективных регионов выращивания картофеля в стране благодаря благоприятным климатическим условиям. Поэтому точное определение районов выращивания картофеля имеет большое значение для регулирования рынка, разработки политики и обеспечения продовольственной безопасности на национальном и региональном уровнях.

Традиционная статистика посевных площадей сельскохозяйственных культур обычно использует изображения дистанционного зондирования в сочетании с методами пространственной выборки для отбора образцов обследования, а исследователи на низовом уровне измеряют посевы на опытных участках на земле, а затем синтезируют данные для оценки посевных площадей основных продовольственных культур [ 5 ]. Однако этот традиционный статистический метод, который опирается на ручной труд и отчетность по уровням, сталкивается с двойной проблемой своевременности и точности в процессе внедрения, что создает трудности в обеспечении достоверности и надежности данных. Технология спутникового дистанционного зондирования с ее широким охватом, сильными возможностями мониторинга в реальном времени и богатой информацией позволяет быстро и удобно получать информацию о наземных наблюдениях в региональном масштабе, предоставляя эффективные средства извлечения площадей посадки картофеля в большом регионе [ 6 ]. Использование технологии спутникового дистанционного зондирования для определения и извлечения площадей посадки сельскохозяйственных культур представляет собой ключевой аспект точного земледелия, который в определенной степени способствует развитию интеллектуального сельского хозяйства 4.0. В то же время быстрая и точная крупномасштабная экстракция площади посадки картофеля имеет принципиально важное значение для мониторинга условий роста картофеля и прогнозирования урожайности. Используя комбинацию каналов 5, 6 и 4 спутника Landsat-8, Ли, Д. и др. [ 7 ] провели всесторонний анализ пяти периодов съемки в период с июня по август 2017 года и точно извлекли и проанализировали выращивание картофеля на ферме Кешань провинции Хэйлунцзян; рассчитанная посевная площадь в значительной степени соответствовала фактическим данным, демонстрируя высокую точность извлечения. Ашурлу, Д. и др. [ 8 ] определили четыре уникальных спектральных свойства картофеля, включая значения отражения в ближнем инфракрасном диапазоне в даты выращивания и сбора урожая, изменения в отражении в ближнем инфракрасном диапазоне в момент пика зелени и отношение значений отражения в ближнем инфракрасном диапазоне к значениям отражения в красном диапазоне в момент пика зелени, которые использовались для дифференциации картофеля от других культур; Общая точность метода в испытаниях, проведенных на четырех исследовательских площадках в Иране и США, составила более 90%, а коэффициент каппа также превысил 0,8, что свидетельствует об отличной способности к дифференциации. В 2023 году Чжао, Л. Х. и др. [ 9[] использовали данные дистанционного зондирования Google Earth Engine (GEE) и Sentinel-2 (S2) для извлечения спектральных, индексных и текстурных характеристик картофельных полей в провинции Шаньдун, Китай. Благодаря их усилиям по извлечению и мониторингу, им удалось достичь точности классификации 92,5%, а коэффициент каппа, показатель межэкспертной надежности, достиг впечатляющего значения 0,916. Несмотря на выдающиеся результаты, в этих исследованиях применение технологии спутникового дистанционного зондирования для крупномасштабного извлечения урожая картофеля по-прежнему сталкивается с трудностями. Пространственное и временное разрешение данных спутникового дистанционного зондирования ограничивает возможность получения детальной информации при планировании крупномасштабного возделывания сельскохозяйственных культур и распределения ресурсов. Кроме того, неопределенности в получении и разрешении данных спутникового дистанционного зондирования, а также в извлечении признаков могут влиять на рыночные суждения и регулирование спроса и предложения сельскохозяйственных культур. Связь между данными спутникового дистанционного зондирования и урожайностью колеблется в зависимости от года и региона, поэтому изучение стабильных моделей извлечения урожая картофеля на больших площадях в зависимости от региона и года имеет решающее значение для повышения точности и стабильности моделей оценки урожайности.

Методы, используемые для распознавания сельскохозяйственных культур и измерения площадей их возделывания с помощью спутникового дистанционного зондирования, в основном подразделяются на три типа: основанные на одновременных фазовых изображениях, основанные на многовременных фазовых изображениях и основанные на изображениях временных рядов. Одновременные фазовые изображения относятся к изображениям дистанционного зондирования, полученным в один определенный момент, и исследователи анализируют спектральную информацию и особенности изображения этих изображений, чтобы идентифицировать сельскохозяйственные культуры и извлекать посадочные площади. Однако из-за циклической природы сельскохозяйственных культур данные с одной временной фазой не могут полностью охватить динамику роста сельскохозяйственных культур и подвержены таким факторам, как свет, стадия роста и угол съемки, что ограничивает точность результатов идентификации. Многовременные дистанционные изображения включают в себя последовательности изображений сельскохозяйственных культур, собранных в разные моменты времени, и этот метод может фиксировать цикл роста и морфологические изменения сельскохозяйственных культур, предоставляя более богатую информацию для идентификации сельскохозяйственных культур [ 10 ]. С другой стороны, изображения временных рядов фокусируются на анализе непрерывных изменений в изображениях дистанционного зондирования сельскохозяйственных культур с течением времени и больше ориентированы на выявление эволюционного тренда переменной с течением времени, чем многовременные данные [ 11 ]. В области сельского хозяйства последовательностные данные нормализованного разностного индекса растительности (NDVI) широко используются, поскольку они обеспечивают надежное указание цикла роста и климатических характеристик сельскохозяйственных культур [ 12 ]. Тем не менее, построение наборов данных временных рядов на основе спутникового дистанционного зондирования сталкивается с множеством проблем, включая частую облачность; ограничения технологии дистанционного зондирования часто очевидны в областях временного, пространственного и спектрального разрешения. Все эти факторы могут влиять на качество набора данных и выводы, сделанные в результате анализа [ 13 ].

Спутники дистанционного зондирования Земли, предоставляющие изображения с высоким временным разрешением, часто сопровождаются грубым пространственным разрешением. Примером служит спектрорадиометр MODIS (Moderate-Resolution Imaging Spectroradiometer) на спутниковых платформах Terra и Aqua; он обеспечивает интервал между съёмками от 1 до 2 дней, но пространственное разрешение составляет всего от 250 до 1000 м. Серия спутников Landsat, с другой стороны, обеспечивает пространственное разрешение 30 м, но имеет цикл обращения к Земле до 16 дней. Спутники многоспектральной съёмки высокого разрешения, такие как S2, с 5-дневным периодом съёмки, способны осуществлять мониторинг на основе пространственного разрешения на уровнях 10, 20 и 60 м. Чтобы улучшить временную непрерывность изображений с чётким разрешением, исследователи часто объединяют данные дистанционного зондирования с нескольких спутников. Сочетание сенсоров Landsat и S2 обеспечивает обширный массив многоспектральных данных со средним и высоким разрешением, находя широкое применение в различных областях. Унификация конструкции этих датчиков дополнительно повышает совместимость их данных. Ли и др. [ 14 ] достигли средней глобальной частоты повторных визитов 2,9 дня, объединив спутниковые данные Landsat-8 (L8) и S2. Армия и др. [ 15 ] повысили точность мониторинга фенологии растительности, координируя данные отражения и слияния данных индекса растительности (VI) с использованием спутниковых данных L8, S2A и GF-1. Landsat-9 (L9) был успешно развернут 27 сентября 2021 года; это предоставило дополнительные возможности для обработки временных рядов многоспектральных изображений среднего разрешения. Однако из-за различий в орбите, освещенности и угле обзора во время сбора данных различными спутниковыми датчиками полученные значения отражательной способности поверхности могут отличаться; поэтому требуется единая калибровка этих различий. Тревизиол, Ф. и др. [ 16 ] представили идеальные коэффициенты линейного преобразования для европейского региона, достигнув совместимости между L9 и L8, а также S2 по всей Европе, что обеспечивает важную справочную информацию для слияния данных с разных датчиков.

Было продемонстрировано, что методологии машинного обучения (МО) и глубокого обучения (ГО) эффективны для обеспечения классификации сельскохозяйственных культур, определения площадей и извлечения основных данных из источников дистанционного зондирования, включая беспилотные летательные аппараты (БПЛА) и спутники [ 17 ]. Производительность моделей МО в значительной степени зависит от извлечения, построения и фильтрации полезных признаков из необработанных данных. И модели ГО могут автоматически захватывать глубокие признаки в данных с помощью своих многоуровневых структур нейронных сетей. Тем не менее, процесс обучения модели ГО требует обширного набора данных, и сбор многолетних данных о посевах на обширных территориях является сложной задачей в условиях больших площадей, сложных структур посевов и изменчивого рельефа; эти факторы ограничивают применение моделей ГО в этих сценариях. Поэтому методы МО нашли более широкое применение при извлечении крупномасштабных площадей посевов из спутникового дистанционного зондирования [ 18 , 19 , 20 ]. Для извлечения признаков модели МО используют спектральные и пространственные характеристики, извлекаемые из данных дистанционного зондирования, которые могут быть как исходными, так и производными, с целью повышения разделимости целевых объектов. Извлечение спектральных характеристик включает такие методы, как преобразование главных компонент, разделение с минимальным шумом, преобразование «Tassel Hat» и VI, в то время как извлечение пространственных характеристик включает особенности текстуры, формы и пространственных взаимосвязей. Эти характеристики играют ключевую роль в повышении точности категоризации изображений дистанционного зондирования.

В области развития технологий дистанционного зондирования наблюдается значительное увеличение объема данных дистанционного зондирования [ 21 ], что предъявляет более высокие требования к загрузке и обработке [ 22 ]. Для решения этих проблем появилось несколько платформ онлайн-обработки данных дистанционного зондирования, среди которых наиболее известной является платформа GEE, которая обеспечивает мощные возможности облачных вычислений, большие источники данных, эффективную обработку данных и поддержку нескольких языков программирования, а также находит широкое применение в спектре исследовательских областей, включая почвенный покров [ 23 ], классификацию сельскохозяйственных культур [ 24 ] и картографирование пространственного распределения сельскохозяйственных культур [ 25 ] и другие области исследований.

Большинство предыдущих исследований были сосредоточены на регионах, где выращиваются такие культуры, как кукуруза, рис и пшеница; однако, важность картофеля как ключевой культуры в некоторых конкретных регионах, таких как холодные зоны в высоких широтах, не следует игнорировать, и исследования по извлечению и распределению площадей посевов картофеля все еще находятся в стадии разработки. В этом исследовании уезд Учуань в городе Хух-Хото, Внутренняя Монголия, основной район производства картофеля, был взят в качестве исследуемой области. Цели были следующими: (1) Рассчитать наилучший коэффициент линейного преобразования для гармонизации временных рядов спутниковых снимков L8, L9 и S2 по исследуемому региону. (2) Рассчитать и реконструировать данные временных рядов индекса растительности (временные ряды VI); признаки временных рядов были извлечены на основе гармонического анализа. (3) Рассчитать средние значения отражательной способности многовременных полос, средние значения многовременного индекса растительности (временные средние VI), текстурные признаки и признаки цветового пространства в качестве дополнительных признаков. (4) Оценить точность моделей МО и алгоритмов извлечения признаков для классификации урожая картофеля.

2. Материалы и методы

2.1. Зона обучения

Уезд Учуань, расположенный в самом сердце автономного района Внутренняя Монголия, подпадающий под управление города Хух-Хото, является основной зоной сельскохозяйственного производства и экологических функций в северной части города. Уезд расположен у северного подножия гор Иньшань, с географическими координатами от 40°47′~41°23′ северной широты до 110°31′~111°53′ восточной долготы и высотами от 1219 м до 2259 м ( рисунок 1 ). Климат умеренно-континентальный муссонный, отмеченный частыми солнечными условиями, обильным солнечным сиянием и очевидными сезонными изменениями, со среднегодовой температурой, которая колеблется около 4,2 ° C. Годовое количество осадков находится в диапазоне от 360 до 366 мм, что преимущественно сосредоточено в период с июня по август, составляя более 63% от годового количества осадков. Продолжительность безморозного периода составляет от 90 до 120 дней. Преобладающий тип почв — песчано-каштановые карбонатные.

Благодаря уникальным географическим и климатическим условиям уезд Учуань стал крупным производителем горных культур, особенно картофеля. Выращивание картофеля занимает центральное место в сельском хозяйстве уезда и оказывает существенное влияние на реализацию стратегии возрождения села, способствуя экономическому развитию и повышению уровня жизни населения. Поэтому точное определение районов выращивания картофеля в уезде Учуань важно для оптимизации управления сельскохозяйственным производством, разработки политики и оценки продовольственной безопасности.

2.2 Данные

2.2.1. Данные спутникового дистанционного зондирования Земли из нескольких источников

Система S2 разделена на два спутника, S2A и S2B, каждый из которых оснащён многоспектральным приёмником изображений (MSI). Высота орбиты S2A и S2B составляет 786 км, и они способны захватывать 13 спектральных каналов (включая 3 красных) шириной 290 км. Пространственное разрешение на поверхности Земли составляет 10 м, 20 м и 60 м. Каждый спутник имеет индивидуальный цикл повторных визитов 10 дней; однако при их объединении эффективный цикл повторных визитов сокращается до 5 дней. Набор данных S2B с атмосферной и радиометрической коррекцией можно получить, обратившись к набору данных «COPERNICUS/S2_SR_HARMONIZED» на платформе GEE. L8 оснащен парой датчиков: оперативным наземным имиджером (OLI) и тепловым инфракрасным датчиком (TIRS), которые обозначены в GEE как «LANDSAT/LC08/C02/T2_L2». Запущенный в сентябре 2021 года, L9 представляет собой новейшую модель в серии Landsat, оснащенную оперативным наземным имиджером (OLI-2) второго поколения и тепловым инфракрасным датчиком (TIRS-2). Оба спутника Landsat имеют высоту орбиты 705 км и период повторения снимков 16 дней, который может быть сокращен до 8 дней при их совместном использовании, а данные идентифицируются в GEE как «LANDSAT/LC09/C02/T1_L2». В таблице 1 представлена ​​компиляция спектральных диапазонов для датчиков MSI, OLI и OLI-2. Сравнение показывает, что эти датчики перекрываются в некоторых спектральных диапазонах, что обеспечивает возможность интеграции данных [ 26 , 27 ].

2.2.2. Образец данных

Набор данных, используемый в этом исследовании, был разделен на две основные части: данные полевых обследований и данные, полученные после визуальной интерпретации и маркировки на основе исторических изображений Google высокого разрешения. Данные полевого обследования были получены в результате полевого обследования в уезде Учуань в течение всего периода выращивания картофеля с мая по сентябрь 2023 года. С целью соблюдения принципов точности и научности собранных образцов исследование выбрало большие площади (более 50 акров) с равномерным ростом каждого типа культуры на индивидуально засаженных участках и постаралось максимально охватить весь уезд. Собранные данные образцов в основном документировали типы культур, а также полученные с помощью GPS координаты широты и долготы центральных точек обширных полей. Общее количество точек отбора проб для различных культур составило 593 (включая 268 для картофеля и 325 для других культур). Снимки полевого сбора данных по полевому картофелю в июне, июле и августе показаны на рисунке 2 .

2.2.3 Маска данных

Для целей данного исследования основополагающая карта земельного покрова для округа Учуань была получена из результатов, полученных исследовательской группой под руководством профессора Ян Цзе и Хуан Синя в Уханьском университете. Загрузку данных можно найти по адресу https://zenodo.org/records/12779975 , дата обращения 10 сентября 2024 года. Результаты использовали 335 709 просмотров данных Landsat на платформе GEE для создания набора данных о земельном покрове Китая (CLCD), который был запущен в 1985 году и был обновлен до 2023 года. CLCD содержит девять различных типов землепользования, включая сельскохозяйственные угодья, кустарники, леса, водоразделы, луга, снег и лед, голую землю, непроницаемую поверхность и водно-болотные угодья. Категория земельного покрова снега и льда, вероятно, будет крайне ограничена в этом регионе, учитывая высокие температуры и низкий потенциал снегопадов в округе Учуань в сезон выращивания картофеля. В этом исследовании использовались 2023 растровых данных по земельному покрову с разрешением 30 м с несельскохозяйственными типами земель в уезде Учуань, удаленными с помощью процесса маскирования.

2.3 Методы

Исследование представляет подход, направленный на извлечение площади возделывания картофеля на основе модели МО и многоисточниковых спутниковых снимков среднего и высокого разрешения. Подход структурирован в три основных этапа ( Рисунок 3 ): Первый этап - это выбор трех спутниковых снимков дистанционного зондирования, полученных в период фертильности картофеля с мая 2023 года по октябрь 2023 года, для предварительной обработки соответственно; затем рассчитываются линейные коэффициенты для унификации и гармонизации значений отражательной способности поверхности различных данных спутникового дистанционного зондирования для построения набора данных временного ряда снимков дистанционного зондирования с 10-дневными интервалами. Второй этап основан на извлечении признаков из набора данных временного ряда, и для оценки влияния различных комбинаций признаков на точность классификации создаются пять различных входных наборов признаков. Третий этап - это оценка точности классификации картофельных и некартофельных культур на основе алгоритма извлечения признаков и модели классификации машинного обучения. Четвертый этап - это проведение расчета площади посадки картофеля в пикселях для получения карты распределения площади посадки картофеля в уезде Учуань.

2.3.1.Расчет коэффициента координации L9 с S2 и L8

В период с 1 мая 2023 года по 30 сентября 2023 года, охватывая всю исследуемую область, были выбраны и сложены вместе 3-ракурсные изображения с трех спутников с ближайшим временным разделением, и GEE выполнила повторную выборку ближайшего соседа по умолчанию во время перепроецирования. Сравнительный кросс-сенсорный анализ был выполнен путем случайной выборки большого количества пикселей в границах области исследования. Подход к выборке был основан на методе стратифицированной выборки для восьми типов землепользования в данных CLCD 2023 года, за исключением категории снега и льда, для получения выборки, которая характерна для каждой категории. Для максимальной случайной выборки точек пикселей в каждой категории был установлен предел в 5000. Последующая фильтрация удалила все нулевые выборки, что привело к окончательному подсчету 29 755 действительных пикселей в наборе выборки. Для каждого пикселя были извлечены шесть схожих значений отражательной способности полосы. Уравнения линейной регрессии, включающие S2 и L9, а также L8 и L9, были получены с использованием метода наименьших квадратов (OLS) с последующим расчетом наклонов и точек пересечения уравнений, как подробно описано в Таблице 2 .

При сравнении данных датчиков OLI и OLI-2 отчетливо наблюдается высокая степень сходства и небольшие различия. В частности, эффективность подгонки модели особенно выражена в красном спектральном диапазоне. Все коэффициенты подгонки, специфичные для данного диапазона, превышают пороговое значение 0,9, в то время как среднеквадратическая ошибка (RMSE) сохраняется ниже 0,252, что указывает на хорошее соответствие. Несмотря на относительно большие различия между MSI и OLI-2, коэффициенты подгонки обоих диапазонов остаются выше 0,8, что свидетельствует о сильной корреляции. При подгонке S2 и L9 линейная регрессия диапазона SWIR-2 показала наибольшую значимость, что может указывать на то, что этот диапазон имеет важное референтное значение при сравнительном анализе данных двух датчиков.

2.3.2 Предварительная обработка спутниковых изображений дистанционного зондирования Земли

Для анализа изображений дистанционного зондирования данные изображений, покрывающие исследуемую территорию, были сначала отобраны путем установки временного диапазона (1 мая 2023 г. – 30 сентября 2023 г.). Для изображений S2 были исключены изображения с облачностью более 80%; для изображений L8 и L9 были исключены изображения с облачностью более 50%. Впоследствии облака и тени на снимке были обнаружены и скрыты для повышения точности полученных данных о поверхности. Для удобства анализа были выбраны и переименованы похожие каналы. Затем данные об отражательной способности изображений L8 и S2 были равномерно преобразованы в шкалу L9 с использованием ранее вычисленных коэффициентов преобразования (наклона и пересечения) для обеспечения возможности сравнительного анализа между различными наборами данных. На платформе GEE большинство данных изображений уже прошли официальную предварительную обработку, включая такие этапы, как атмосферная коррекция, радиометрическая коррекция и топографическая коррекция. На этой основе была проведена дополнительная предварительная обработка с удалением облаков на изображениях L8, L9 и S2; В результате было получено 125 видов высококачественных изображений дистанционного зондирования. Для решения проблемы, связанной с пропуском данных изображения, потенциально возникающим в процессе деоблачности, был использован метод синтеза изображений для реконструкции полного изображения за определённый период времени. Сравнив 10-дневный и 15-дневный интервалы синтеза, был выбран 10-дневный интервал, который не только обеспечил полноту данных изображения, но и сохранил высокую плотность временного ряда. В результате был сформирован набор данных временного ряда, содержащий 16 видов синтезированных изображений, что обеспечивает надёжную базу данных для последующего извлечения признаков и классификации.

2.3.3 Реконструкция временного ряда VI

Анализ временных рядов VI важен для выявления циклов роста сельскохозяйственных культур и фенологических характеристик [ 28 ]. В предыдущих исследованиях NDVI широко применялся в исследованиях по извлечению площадей для основных зерновых культур, таких как рис, кукуруза и пшеница, из-за их устойчивости [ 29 , 30 , 31 , 32 ]. Однако NDVI имеет тенденцию достигать насыщения при более высоких плотностях растительности, что приводит к снижению его чувствительности [ 33 ]. Поскольку различные VI имеют свои собственные преимущества в практическом применении и зависят от таких факторов, как месяц, окружающая среда места отбора проб, климатические условия и управление полем, опора только на конкретный VI может привести к запутанным результатам анализа. Поэтому в этом исследовании шесть различных VI были извлечены из 16-сценовых изображений дистанционного зондирования, и были построены соответствующие данные временных рядов. Были обнаружены значительные корреляции между этими индексами и физиологическими параметрами сельскохозяйственных культур, и они охватывали различные спектральные диапазоны и влияющие факторы. Название каждого ВП, формула его расчета и ссылки подробно изложены в Таблице 3 .

Хотя набор данных дистанционного зондирования объединяет изображения с трех спутников, последовательные данные VI продолжают обладать разрывами во времени из-за ограничений периода повторного визита и затенения облаков. Кроме того, под влиянием производительности сенсора, облачности и затенения, атмосферных солей и других факторов окружающей среды данные временных рядов дистанционного зондирования часто содержат шум, который может повлиять на точность VI и, таким образом, помешать анализу данных [ 40 ]. Чтобы решить эти проблемы, Чен и др. [ 41 ] разработали инновационный подход к реконструкции высококачественных данных временных рядов Landsat–MODIS NDVI, который называется методом заполнения пробелов и фильтрации Савицкого–Голея (GF-SG). Это исследование заимствует эту технику для создания высококачественных рядов данных VI с использованием линейной интерполяции и фильтрации SG. Окно линейной интерполяции установлено на 60 дней, что означает, что каждое изображение будет искать изображения в течение 60 дней от целевого изображения; Для пустых пикселей изображения их значения будут интерполированы с использованием среднего значения изображений «до» и «после». Формула интерполяции выглядит следующим образом (1):

Среди множества методов реконструкции временных рядов данных алгоритм фильтрации SG широко распространен благодаря своей превосходной стабильности и эффективности [ 42 ]. Ключевые параметры этого алгоритма включают полуширину окна (m) и полиномиальные коэффициенты (d), которые оказывают решающее влияние на производительность фильтрации. Если m присвоено слишком минимальное значение, это может привести к чрезмерной подгонке модели под данные, что не позволит эффективно улавливать долгосрочную тенденцию; в то же время слишком большое значение m может привести к игнорированию критических изменений во временном ряду. Полиномиальный коэффициент d обычно находится в диапазоне от 2 до 4. Более низкие значения d, как правило, дают более сглаженные выходные данные, но могут внести некоторое смещение; и наоборот, более высокие значения d, хотя и уменьшают смещение, могут переобучать данные и приводить к более шумным результатам. Чтобы сбалансировать гладкость и точность, мы решили установить полуширину окна m равной 4, а полиномиальный коэффициент d — 3. Дорожная карта реконструкции представлена ​​на рисунке 4 .

2.3.4 Извлечение признаков временного ряда VI на основе HANTS

Важность получения надежных фенологических данных о картофеле из сложных временных рядов спутниковых снимков невозможно переоценить [ 43 ]. В прошлых исследованиях анализировались особенности как с точки зрения временной, так и частотной области. Временная область фокусируется на соотношении сигнала во времени и выявляет тенденцию посевов путем подгонки линейной функции. Анализ в частотной области фокусируется на частотных характеристиках сигнала и анализирует сезонную фенологию посевов путем разложения временного ряда, что помогает в классификации сельскохозяйственных культур и оценке площади. Временной ряд и частотный спектр преобразуются друг в друга с помощью преобразования Фурье. В этом исследовании HANTS использовался для разложения данных временного ряда VI на несколько гармонических компонентов для извлечения значимой периодической и трендовой информации из сложного временного ряда [ 44 ]. Временной ряд разлагается на бесконечные синусоидальные и косинусоидальные волны разных частот с помощью уравнения (2).

Временные переменные были добавлены к вычисленным изображениям шести ВП, и гармонические члены косинуса и синуса были вычислены из временных переменных. Множественная линейная регрессия была выполнена с использованием гармонических членов (например, константы, 𝑡, cos, sin) в качестве независимых переменных и различные VI в качестве зависимых переменных, а также фаза, амплитуда и гармоническое подогнанное среднее значение временного ряда шести VI были рассчитаны с использованием встроенного редуктора (Reducer) на GEE.

2.3.5. Извлечение признаков цветового пространства и текстурных признаков

Помимо спектральных характеристик, не следует пренебрегать пространственными характеристиками; цветовое пространство и текстурные характеристики являются двумя важными концепциями в обработке изображений и компьютерном зрении. Поскольку преобразование модели цветового пространства и извлечение текстурных характеристик выполняются на одном изображении, предварительно обработанный набор временных рядов изображений дистанционного зондирования синтезируется в единое изображение путем вычисления среднего значения. Цветовое пространство изображения — это математическая модель или система координат, описывающая цвета на изображении. Распространенные цветовые пространства включают RGB, HSV и HSI. Преобразование из RGB в HSV выполняется путем выбора трех каналов RGB из синтезированных данных изображения из загруженных данных изображения. В GEE это обычно выполняется с помощью image.select('red_mean', 'green_mean', 'blue_mean'), где «red_mean» обозначает среднее значение в красной полосе изображения временного ряда, «green_mean» обозначает среднее значение в зеленой полосе, а «blue_mean» обозначает среднее значение в синей полосе. Используя метод ee.Image.rgbToHsv() платформы GEE для преобразования RGB-изображения в HSV-изображение, были получены три новых диапазона: цветовой тон, насыщенность и яркость. Значения этих диапазонов находились в диапазоне чисел с плавающей точкой [0, 1] и использовались в качестве признаков для последующих исследований.

Если матрица совпадений уровней серого (GLCM) и соответствующие ей текстурные характеристики рассчитываются индивидуально для каждой полосы изображения на платформе GEE, то в результате будут получены огромные полосы текстурных данных, превышающие вычислительную память GEE. Чтобы избежать этого явления, слой в оттенках серого вычисляется до вычисления текстурных характеристик, а карты в оттенках серого синтезируются согласно уравнению (3).

После расчета слоя в градациях серого можно напрямую вызвать функцию .glcmTexture(), а размер текстурного окна настроить на 4; затем вы получите изображение, содержащее 18 полос признаков текстуры.

В данном исследовании было сформировано пять типов входных наборов признаков для оценки важности временных признаков VI, текстурных признаков и цветовых пространственных компонентов для классификации урожая картофеля: (1) фаза, амплитуда и средние значения после гармонической подгонки 6 VI, всего 18 признаков (VIsTC); (2) средние значения VI по 16 изображениям дистанционного зондирования (VIsmean); (3) средние значения полосы по 16 изображениям дистанционного зондирования (Bandsmean); (4) 18 текстурных признаков, основанных на синтетическом изображении (TFs); (5) 3 цветовых пространственных компонента (HSV). Таким образом, всего имеется 51 входной признак.

2.3.6 Выбор моделей и оценка их эффективности

Обучающий и тестовый наборы данных сначала извлекаются из финального изображения (final_img), содержащего все признаки. Функция sampleRegions() используется для извлечения данных выборки из указанных диапазонов; затем нулевые данные выборки отфильтровываются; затем набор данных делится на обучающий и проверочный подмножества в соотношении 8:2. Затем задаётся новая метка категории, и каждый признак буферизируется на 20 м, что эквивалентно расширению на два пикселя наружу; это одновременно увеличивает область выборки и гарантирует, что в обучающем и тестовом наборах данных она содержит достаточно пространственной информации, тем самым повышая точность прогнозирования модели. Наконец, разделённые данные объединяются в глобальные наборы признаков обучающего и тестового наборов. После построения обучающего и тестового наборов данных для классификации картофельных и некартофельных культур были выбраны четыре классификатора: случайный лес (RF), опорный векторный метод (SVM), дерево классификации и регрессии (CART) и дерево решений с градиентным усилением (GBDT). На платформе GEE функция «ee.Classifier.smile» может быть вызвана напрямую для создания различных объектов классификатора. RF, CART и GBDT основаны на деревьях решений, поэтому количество деревьев решений является наиболее важным параметром в этом типе алгоритма, и его можно отладить с помощью нескольких тестов. Остальным параметрам в модели классификации обычно назначаются значения по умолчанию, при этом полный набор признаков используется для итеративного тестирования в рамках модели. Количество деревьев решений RF определено равным 110, максимальная глубина деревьев решений в CART — 50, а количество деревьев решений GBDT — 60. SVM также является мощным методом классификации, особенно подходящим для задач классификации в многомерных пространствах. Применение радиальной базисной функции (RBF) к классификатору SVM устанавливает гамму, где количество признаков набора данных равно 51.

2.3.7. Проверка характеристик

Процесс отбора признаков имеет важное значение в сфере МО. Многомерные необработанные наборы данных признаков часто содержат избыточные и нерелевантные признаки, которые снижают вычислительную эффективность и точность модели. SHAP (SHapley Additive exPlanations) — это метод, основанный на теории игр, разработанный для интерпретации выходных данных любой модели МО [ 45 ]. В этом исследовании значения SHAP рассчитываются для измерения того, как признаки влияют на зависимую переменную, что может быть использовано для вычисления предельного значения вклада каждого признака и измерения важности признаков в задаче отбора признаков. 51 признак был экспортирован из GEE и реализован в программном обеспечении Python 3.9 для построения модели бинарной классификации, а тест МО использовался для получения вклада признаков с использованием SHAP для интерпретации модели, поскольку SHAP может обеспечить только рейтинг вклада, но не может определить оптимальные размеры подмножества признаков, поэтому оптимальное подмножество признаков было определено на его основе и объединено с методом последовательного прямого выбора (SFS). Первый признак выбирается как независимый оптимальный признак, а второй признак занимает второе место по вкладу признака в сочетании с первым признаком; признак добавляется по одному признаку за раз, и формируется кривая для определения оптимального размера подмножества признаков на основе общего изменения точности.

3. Результаты и анализ

3.1. Реконструированные временные ряды ВИ и анализ фенологического периода картофеля

Для полного покрытия территории уезда Учуань требовалось два спутниковых снимка. Спутниковые снимки S2, L8 и L9 с облачностью менее 50% были просмотрены в период с мая по октябрь 2023 года для синтеза полных снимков уезда Учуань. Было получено в общей сложности 21 полное изображение S2, 7 изображений L8 и 8 изображений L9, при этом отдельных данных спутникового дистанционного зондирования было немного, а некоторые из них имели сильное загрязнение облачностью. После анализа сенсоров, установленных на трех спутниках, S2, L8 и L9, было обнаружено, что они имеют схожие полосы частот, а коэффициенты подгонки полос частот превышают 8,3; снимки с трех спутников были интегрированы. Эта стратегия не только улучшает пространственное и временное разрешение данных, но и минимизирует влияние загрязнения облачностью на качество данных, тем самым повышая точность и надежность результатов мониторинга. После предварительной обработки интегрированных изображений с очисткой от облаков, которая привела к серьёзному дефициту пиксельной информации, мы применили методы линейной интерполяции и фильтрации для реконструкции временного ряда VI. Как показано на рисунке 5 , на примере изображения с большим количеством пропущенных пикселей после предварительной обработки 30 июня, эффект значительно улучшился после реконструкции. Благодаря этому методу мы успешно заполнили пустые значения пикселей на изображении и снизили уровень шумовых помех, что не только улучшило общее качество изображения, но и увеличило его информативность. Эти улучшения заложили основу для построения временного ряда VI, обеспечив точность и надёжность последующего анализа.

Используя пространственные координаты мест отбора проб картофеля, данные VI были получены как из исходных изображений, так и из каждого перспективного изображения после применения линейной интерполяции и SG-фильтрации. В результате были построены шесть временных рядов VI, иллюстрирующих временную динамику этих индексов в течение периода выращивания картофеля, как показано на рисунке 6 .

Ход средних значений кривых соответствовал фенологическим тенденциям, наблюдаемым для картофеля в исследуемом регионе. В сочетании с анализом общих спектральных характеристик зеленой растительности, временной узел минимального значения NDVI в начале мая представлял собой период посева картофеля. Посев картофеля в уезде Учуань начался около 11 мая, а в начале июня он находился в стадии рассады. С увеличением растительного покрова NDVI продолжал расти, и с июля по август картофель достиг пика 0,822 в значении NDVI примерно через 90 дней после посадки. Это указывает на то, что с конца августа до начала сентября картофель вступал в период созревания, и значения NDVI постепенно снижались. Уборка картофеля в большинстве районов уезда Учуань проводилась с середины до конца сентября. Тенденция NDPI была аналогична динамике NDVI, но пик наступал немного позже, что может отражать некоторую корреляцию или гистерезис в отношении связи между коэффициентом отражения коротковолнового инфракрасного излучения и ростом вегетативной массы. Значения LSWI были отрицательными с мая по июнь, а абсолютное значение постепенно увеличивалось, что может указывать на уменьшение количества поверхностных водоемов или на ослабление отражательных характеристик водоемов в этот период. Тренд EVI аналогичен тренду NDVI, но значение относительно выше, что может быть связано с тем, что EVI учитывает факторы почвенного фона и атмосферного влияния, что делает его более точным в оценке растительного покрова. Тренд SAVI аналогичен тренду NDVI и EVI, но значение немного ниже, что может быть связано с тем, что SAVI учитывает яркость почвы и атмосферное влияние, что может быть результатом задержки роста растительности. В связи с тем, что SAVI учитывает влияние яркости почвы на VI, тренд GNDVI аналогичен тренду других VI, но значение относительно выше. Вероятно, это связано с тем, что GNDVI больше фокусируется на оценке зеленой растительности. Импутированный набор данных устранил пробелы в исходных данных, в результате чего тренд VI практически отражал картину исходного набора данных, при этом расположение пиков и спадов практически не изменилось. Изменчивость и стандартное отклонение восстановленного временного ряда NDVI были примерно на 0,1 и 0,19 меньше, чем у исходного временного ряда, тогда как коэффициент корреляции с исходным рядом достигал 0,95. Результаты свидетельствуют о том, что метод реконструкции изображений, использованный в данном исследовании, успешно устраняет пробелы, существенно снижая влияние шумов и улучшая целостность данных.

3.2 Определение оптимальной модели классификации и оценка точности классификации для различных наборов входных признаков

Полнофункциональные данные были введены в четыре модели классификации для получения матрицы путаницы и двух метрик оценки ( Рисунок 7 ). Из оценки метрик легко увидеть, что модель RF имеет наилучшую производительность с OA выше 0,9 и самым высоким коэффициентом каппа, обнаруженным как для RF, так и для CART. За производительностью GBDT следует модель SVM с наихудшей производительностью. Следующие различные входные данные наборов данных признаков и выбор признаков основаны на наилучшей модели RF. RF, CART и GBDT построены на основе дерева решений, и производительность их моделей обычно превосходит SVM. По сравнению с CART и GBDT, RF использует интегрированную стратегию обучения, которая значительно снижает риск переобучения и повышает обобщающую способность модели за счет построения и объединения результатов прогнозирования из нескольких деревьев решений. В задаче классификации сельскохозяйственных культур RF демонстрирует высокую точность в соответствии с существующими результатами в литературе [ 46 , 47 ]. Кроме того, RF может эффективно решать распространенные проблемы, такие как многомерные объекты и пропущенные значения, а также демонстрирует высокую устойчивость к шуму и нерелевантным объектам.

В рамках данного исследования было проведено сравнение точности пяти наборов признаков с использованием модели RF ( рисунок 8 ), где общая точность OA VIsCT составила 0,958. Это очень высокая точность, указывающая на то, что временной ряд признаков VI отлично подходит для классификации картофеля. Далее следуют среднее значение коэффициента отражения полосы и среднее значение VI. Спектральные признаки являются наиболее эффективными признаками в задаче классификации по сравнению с признаками изображения.

3.3. Ранжирование вклада признаков и определение оптимального подмножества признаков на основе значения SHAP

В ходе оценки модели наилучшие результаты показала модель RF, а метод отбора признаков SHAP-SFS был объединен с классификатором RF для фильтрации оптимального подмножества признаков, которое ранжировалось на основе значения SHAP для вклада признака ( рисунок 9 ).

Как показано на рисунке 9 , пятью главными признаками с точки зрения важности являются среднее значение гармонического соответствия NDVI, среднее значение гармонического соответствия GNDVI, среднее значение SAVI, дифференциальная энтропия и среднее значение гармонического соответствия SAVI соответственно. Только SHAP насыщенности положителен в цветовых пространственных признаках. Вклад признаков временного ряда LSWI в VI был относительно низким в классификации картофеля, что указывает на то, что индексы наземных водных объектов картофеля и других культур существенно не различались. Признаки временного ряда NDVI были VI с наибольшим вкладом. Можно доказать, что временной ряд NDVI хорошо распознает картофельные культуры. Все остальные VI вносят свой вклад. Это обеспечивает хороший индекс для классификации культур. Пять главных вкладов текстурных признаков - это дифференциальная энтропия, выраженность кластера, суммарная энтропия, угловые вторые моменты и суммарное среднее. На основе ранжирования важности признаков оптимальный размер подмножества признаков был определен путем объединения SFS; Согласно кривой, описывающей общее изменение точности ( Рисунок 10 ), результаты показали, что модель SHAP-RF достигла пиковой точности с измерением признака 41. Вводя оптимальное подмножество признаков в RF, OA, коэффициент каппа и оценка F1 были улучшены; поэтому в этом исследовании модель SHAP-SFS-RF была выбрана для извлечения площадей посадки картофеля в уезде Учуань. Значение SHAP, как инструмент интерпретации прогноза модели, объединяет глобальную и локальную оценку важности признаков для точного определения признаков, которые оказывают значительное влияние на результаты прогнозирования. Применение метода SHAP-SFS позволяет удерживать атрибуты, которые имеют решающее значение при моделировании прогнозирования, путем рекурсивного отсеивания тех признаков, которые оказывают меньшее влияние. Этот процесс не только оптимизирует размер набора признаков, но и превосходно сохраняет или улучшает точность модели.

Как показано в Таблице 4 , точность исходной модели RF составляет 0,97, что указывает на то, что модель хорошо справляется с правильной классификацией образцов. Точность модели (SHAP-SFS-RF) после отбора признаков SHAP-SFS улучшилась до 0,98, что демонстрирует положительный эффект отбора признаков в улучшении производительности модели. Оценка F1 модели SHAP-SFS-RF улучшилась до 0,98, что дополнительно доказывает оптимизирующий эффект отбора признаков на производительность модели. Увеличение коэффициента каппа с 0,94 до 0,96 может означать, что модель становится более точной и надежной в различении различных категорий, особенно при извлечении площадей посадки картофеля. Улучшение может означать, что модель стала более точной и надежной в различении картофельных и некартофельных культур, особенно при извлечении площадей выращивания картофеля. Это может быть связано с тем, что процесс отбора признаков помог модели снизить влияние шума и нерелевантной информации, тем самым повысив точность классификации.

3.4. Извлеченные данные о площади под картофелем в сравнении со статистическими данными

Изначально каждый пиксель на синтетическом изображении был разделен на две группы: картофельные и некартофельные культуры. Это привело к созданию масок изображений для обеих категорий; была рассчитана площадь, занимаемая каждым пикселем (в квадратных километрах), и для маскирования использовалась векторная карта уезда Учуань; затем набор данных CLCD использовался для маскирования несельскохозяйственных данных на изображении для создания выделенной области. Выделенная область была объединена на региональном уровне. Для создания выделенных областей было выполнено маскирование, а на изображениях областей выделенных областей было выполнено объединение областей. Площади картофельных и некартофельных культур были рассчитаны с использованием суммирующего редуктора ee.Reducer.sum с пространственным разрешением 10 м. Максимальное количество обработанных пикселей составило 1 × 10¹³, а коэффициент масштабирования тайла — 16 раз, чтобы получить карту пространственного распределения картофеля в уезде Учуань ( рисунок 11 ). Распределение выращивания картофеля в уезде Учуань во многом зависит от рельефа. Восточная, южная и западная части уезда Учуань с трех сторон окружены горными хребтами; здесь горный сектор составляет 47% от общей площади, а рельеф постепенно понижается и плавно понижается с юга на север. Почва плодородная и хорошо дренированная, что обеспечивает высококачественные почвенные условия для выращивания картофеля. Из рисунка 11 мы также можем видеть, что выращивание картофеля также в основном сосредоточено в северных низинных районах. Помимо топографических факторов, распространение сельскохозяйственных культур также зависит от температуры, осадков, орошения и других факторов. Последующие исследования могут проанализировать другие факторы, влияющие на распространение картофеля.

Чтобы проверить точность выявленной площади посадки картофеля в уезде Учуань, рассчитанная площадь посадки картофеля была сравнена с данными в Статистическом ежегоднике города Хух-Хото за 2023 год. Категоризированная площадь картофеля составила 244,043 км2 , т. е. 24 404,3 га, а статистическая площадь составила 23 302 га. Результаты сравнения со статистической площадью показали высокую согласованность со статистической площадью. Относительная погрешность составила менее 5%, а результаты классификации, по сравнению со статистическими данными, продемонстрировали надежную точность, в то время как результаты извлечения были последовательными и заслуживающими доверия. Чтобы подтвердить адаптивность модели, извлечение площади было проведено в основном регионе выращивания картофеля Чахар Правого заднего Знамени в городе Уланчаб. Без необходимости выборки модель определила площадь в 111,286 км2 , что эквивалентно 11 128,6 га, при этом статистические данные показали 10 677 га. Относительная погрешность составляет 4,6%. При сопоставлении с данными «Статистического ежегодника города Уланкаб» результаты извлечения данных из модели демонстрируют надежный уровень точности, что подтверждает возможность переноса модели.

4. Обсуждение

Интервалы повторных визитов различных спутников, пространственное разрешение бортовых датчиков и облачность в исследуемой области влияют на разработку временных рядов данных. В этой статье данные с разных спутников преобразуются в один и тот же стандарт отражательной способности для облегчения построения временных рядов данных. Такой подход улучшает доступность и анализ временных рядов данных дистанционного зондирования; слияние спутниковых данных также использует математические алгоритмы для объединения данных с разных спутников, чтобы увеличить разрешение, покрытие или непрерывность данных или временных рядов для получения более качественных изображений дистанционного зондирования. Однако слияние спутниковых данных требует больших вычислительных ресурсов и времени, что может увеличить стоимость обработки данных. Метод равномерного отражения прост в использовании и обеспечивает быструю обработку и анализ данных, но в некоторых экстремальных случаях, таких как облачность или сложный рельеф местности, равномерное отражение может упустить некоторые важные детали и не предоставить достаточной информации.

Особенно важно извлекать эффективные признаки временного ряда о различных сельскохозяйственных культурах из данных временного ряда со сложными признаками. Предыдущие исследователи изучали анализ признаков с различных точек зрения временной и частотной областей. Временная область описывает математическую функцию или физический сигнал в зависимости от времени и выявляет тенденции в сельскохозяйственном покрове путем анализа подобранной линейной функции. Частотная область представляет собой систему координат, которая описывает сигнал в терминах частотных характеристик. Разложение временного ряда с использованием спектрального анализа помогает анализировать различные фенологические характеристики различных сельскохозяйственных культур из-за сезонности, чтобы выполнить классификацию сельскохозяйственных культур и извлечение площадей. Временная и частотная области преобразуются друг в друга с помощью преобразования Фурье и обратного преобразования Фурье. Текущие алгоритмы извлечения признаков временной области склонны к проблемам переобучения на пике роста сельскохозяйственных культур. В этом исследовании временные признаки также были извлечены с точки зрения частотной области, что демонстрирует применимость временных признаков частотной области.

Платформа GEE отличается высокой портативностью во многих аспектах, таких как данные, код, платформа, результаты и совместная работа, что позволяет пользователям проводить анализ и исследования геопространственных данных более гибко и эффективно. Однако она также имеет некоторые ограничения. Во-первых, многие алгоритмы обработки GEE непрозрачны, поэтому пользователям сложно найти первопричину проблемы и её решение при возникновении. Во-вторых, сама облачная платформа GEE не поддерживает обучение моделей глубокого обучения, что требует загрузки локально обученных моделей в GEE Assets.

Интеграция спутниковых данных из нескольких источников позволяет эффективно улучшить пространственное и временное разрешение данных. Таким образом, можно получить более подробную информацию о покрытии поверхности, что позволит точно отразить даже самые незначительные динамические изменения в зоне посадки картофеля. В процессе обработки данных проводится слияние спектральных, текстурных и цветовых многомерных характеристик, а также углубленный отбор признаков; это значительно повышает точность модели классификации, обеспечивая более точное определение площадей посадки картофеля. Кроме того, сочетание метеорологических данных, почвенных данных и данных об управлении полями закладывает прочную основу для построения крупномасштабной модели прогнозирования урожайности картофеля и инструментов рыночного прогнозирования; это помогает принимать научные и обоснованные решения в области сельскохозяйственного производства и планирования рынка. Сбор данных об образцах урожая в полевых условиях часто требует много времени и труда, и в будущих исследованиях может наблюдаться тенденция к использованию небольших наборов данных для оценки посевных площадей. Однако изменчивость систем севооборота и спутниковых снимков может затруднить моделирование влияния межгодовой изменчивости. В дальнейшем будет использоваться трансферное обучение для проверки эффективности модели в разных регионах в разные годы.

5. Выводы

Данное исследование решает критическую задачу точной оценки площади посевов картофеля путем разработки временных рядов VI высокого разрешения со спутников L8, L9 и S2. Мы улучшили данные с помощью линейной интерполяции и фильтрации SG, а также использовали метод HANTS для извлечения многомерных признаков, что привело к созданию надежной системы классификации. Модель RF, дополненная выбором признаков SHAP-SFS, достигла значительного повышения точности с коэффициентом точности 0,97 и значением каппа 0,94, что превосходит предыдущие модели. Эта методология не только улучшает извлечение площади посевов картофеля, но и позволяет получить подробную карту пространственного распределения для уезда Учуань, предоставляя ценную информацию для сельскохозяйственного планирования и исследований.

Хотя это исследование знаменует собой значительный шаг вперёд, существуют возможности для дальнейшего совершенствования. В дальнейшем будут изучаться дополнительные алгоритмы машинного обучения для повышения точности классификации сельскохозяйственных культур и учёта большего количества факторов окружающей среды и моделей роста сельскохозяйственных культур для более глубокого понимания динамики сельского хозяйства. Данный подход также будет обобщён на другие культуры и регионы для оценки его более широкой применимости, что позволит разработанным здесь методам внести вклад в более широкий спектр сельскохозяйственных мониторинговых и исследовательских инициатив.

Ссылки

1.    Zhang, H.; Xu, F.; Wu, Y.; Hu, H.H.; Dai, X.F. Progress of potato staple food research and industry development in China. J. Integr. Agric. 201716, 2924–2932. [Google Scholar] [CrossRef]

2.    Zierer, W.; Rüscher, D.; Sonnewald, U.; Sonnewald, S. Tuber and Tuberous Root Development. In Annual Review of Plant Biology; Merchant, S.S., Ed.; Annual Reviews: San Mateo, CA, USA, 2021; Volume 72, pp. 551–580. [Google Scholar]

3.    Wang, N.; Reidsma, P.; Pronk, A.A.; de Wit, A.J.W.; van Ittersum, M.K. Can potato add to China’s food self-sufficiency? The scope for increasing potato production in China. Eur. J. Agron. 2018101, 20–29. [Google Scholar] [CrossRef]

4.    Devaux, A.; Goffart, J.P.; Kromann, P.; Andrade-Piedra, J.; Polar, V.; Hareau, G. The Potato of the Future: Opportunities and Challenges in Sustainable Agri-food Systems. Potato Res. 202164, 681–720. [Google Scholar] [CrossRef]

5.    Kuang, X.; Guo, J.; Bai, J.; Geng, H.; Wang, H. Crop-Planting Area Prediction from Multi-Source Gaofen Satellite Images Using a Novel Deep Learning Model: A Case Study of Yangling District. Remote Sens. 202315, 3792. [Google Scholar] [CrossRef]

6.    Pan, Y.; Li, L.; Zhang, J.; Liang, S.; Zhu, X.; Sulla-Menashe, D. Winter wheat area estimation from MODIS-EVI time series data using the Crop Proportion Phenology Index. Remote Sens. Environ. 2012119, 232–242. [Google Scholar] [CrossRef]

7.    Li, D. Research on remote sensing monitoring of potato planting in reclamation area based on LANDSAT8TM images. Mod. Agric. 20187, 68–69. [Google Scholar]

8.    Ashourloo, D.; Shahrabi, H.S.; Azadbakht, M.; Rad, A.M.; Aghighi, H.; Radiom, S. A novel method for automatic potato mapping using time series of Sentinel-2 images. Comput. Electron. Agric. 2020175, 105583. [Google Scholar] [CrossRef]

9.    Zhao, L.; Zhang, S.; Sun, Y. Research on area extraction of potato planting area in Shandong Province based on Google Earth engine. Mod. Agric. Technol. 202317, 72–75, 89. [Google Scholar]

10. Feng, Y.; Chen, B.; Liu, W.; Xue, X.; Liu, T.; Zhu, L.; Xing, H. Winter Wheat Mapping in Shandong Province of China with Multi-Temporal Sentinel-2 Images. Appl. Sci. 202414, 3940. [Google Scholar] [CrossRef]

11. Song, W.; Wang, C.; Dong, T.; Wang, Z.; Wang, C.; Mu, X.; Zhang, H. Hierarchical extraction of cropland boundaries using Sentinel-2 time-series data in fragmented agricultural landscapes. Comput. Electron. Agric. 2023212, 108097. [Google Scholar] [CrossRef]

12. Li, S.; Xu, L.; Jing, Y.; Yin, H.; Li, X.; Guan, X. High-quality vegetation index product generation: A review of NDVI time series reconstruction techniques. Int. J. Appl. Earth Obs. Geoinf. 2021105, 102640. [Google Scholar] [CrossRef]

13. Rajadel-Lambistos, C.; Izquierdo-Verdiguier, E.; Moreno-Martínez, A.; Maneta, M.P.; Begueria, S.; Kimball, J.S.; Clinton, N.; Atzberger, C.; Camps-Valls, G.; Running, S.W. Within-season crop monitoring at continental scale utilizing new gap-filled Landsat temporal series. Int. J. Digit. Earth 202417, 2359577. [Google Scholar] [CrossRef]

14. Li, J.; Roy, D.P. A Global Analysis of Sentinel-2A, Sentinel-2B and Landsat-8 Data Revisit Intervals and Implications for Terrestrial Monitoring. Remote Sens. 20179, 902. [Google Scholar] [CrossRef]

15. Lu, J.; He, T.; Song, D.-X.; Wang, C.-Q. Land Surface Phenology Retrieval through Spectral and Angular Harmonization of Landsat-8, Sentinel-2 and Gaofen-1 Data. Remote Sens. 202214, 1296. [Google Scholar] [CrossRef]

16. Trevisiol, F.; Mandanici, E.; Pagliarani, A.; Bitelli, G. Evaluation of Landsat-9 interoperability with Sentinel-2 and Landsat-8 over Europe and local comparison with field surveys. ISPRS J. Photogramm. Remote Sens. 2024210, 55–68. [Google Scholar] [CrossRef]

17. Tian, Y.; Yang, C.; Huang, W.; Tang, J.; Li, X.; Zhang, Q. Machine learning-based crop recognition from aerial remote sensing imagery. Front. Earth Sci. 202115, 54–69. [Google Scholar] [CrossRef]

18. She, B.; Hu, J.; Huang, L.; Zhu, M.; Yin, Q. Mapping Soybean Planting Areas in Regions with Complex Planting Structures Using Machine Learning Models and Chinese GF-6 WFV Data. Agriculture 202414, 231. [Google Scholar] [CrossRef]

19. Wei, M.F.; Qiao, B.J.; Zhao, J.H.; Zuo, X.Y. The area extraction of winter wheat in mixed planting area based on Sentinel-2 a remote sensing satellite images. Int. J. Parallel Emergent Distrib. Syst. 202035, 297–308. [Google Scholar] [CrossRef]

20. Chen, Y.; Hou, J.; Huang, C.; Zhang, Y.; Li, X. Mapping Maize Area in Heterogeneous Agricultural Landscape with Multi-Temporal Sentinel-1 and Sentinel-2 Images Based on Random Forest. Remote Sens. 202113, 2988. [Google Scholar] [CrossRef]

21. Lai, J.; Kang, X.; Lu, X.; Li, S. A review of land observation satellite remote sensing application technology with new generation artificial intelligence. Natl. Remote Sens. Bull. 202226, 1530–1546. [Google Scholar] [CrossRef]

22. Saralioglu, E.; Gungor, O. Crowdsourcing in Remote Sensing: A Review of Applications and Future Directions. Ieee Geosci. Remote Sens. Mag. 20208, 89–110. [Google Scholar] [CrossRef]

23. Kumar, L.; Mutanga, O. Google Earth Engine Applications Since Inception: Usage, Trends, and Potential. Remote Sens. 201810, 1509. [Google Scholar] [CrossRef]

24. Amini, S.; Saber, M.; Rabiei-Dastjerdi, H.; Homayouni, S. Urban Land Use and Land Cover Change Analysis Using Random Forest Classification of Landsat Time Series. Remote Sens. 202214, 2654. [Google Scholar] [CrossRef]

25. Zhang, C.; Zhang, H.; Tian, S. Phenology-assisted supervised paddy rice mapping with the Landsat imagery on Google Earth Engine: Experiments in Heilongjiang Province of China from 1990 to 2020. Comput. Electron. Agric. 2023212, 108105. [Google Scholar] [CrossRef]

26. Vermote, E.; Justice, C.; Claverie, M.; Franch, B. Preliminary analysis of the performance of the Landsat 8/OLI land surface reflectance product. Remote Sens. Environ. 2016185, 46–56. [Google Scholar] [CrossRef]

27. Main-Knorn, M.; Pflug, B.; Louis, J.M.B.; Debaecker, V.; Müller-Wilm, U.; Gascon, F. Sen2Cor for Sentinel-2. In Proceedings Volume 10427, Image and Signal Processing for Remote Sensing XXIII; SPIE: Warsaw, Poland, 2017; Volume 1042704. [Google Scholar] [CrossRef]

28. Fan, D.; Zhao, X.; Zhu, W.; Zheng, Z. A Review of Factors Influencing the Accuracy of Remote Sensing for Plant Climate Monitoring. Prog. Geosci. 201635, 304–319. [Google Scholar] [CrossRef][Green Version]

29. Yao, Y.; Wu, T.; Li, Y.; Li, Z.; Qian, X.; Zhang, L.; Xing, S.; Zhang, H. Rice field identification based on rice weather parameters and object-oriented algorithms. J. Agric. Eng. 202440, 150–158. [Google Scholar]

30. Yu, R.; Liu, X.; Yang, X.; Zhao, B. Research on winter wheat information extraction and irrigation information recognition method based on time series. China Rural. Water Conserv. Hydropower 2024, 68–82. [Google Scholar] [CrossRef]

31. Yao, F.; Feng, L.; Zhang, J. Corn Area Extraction by the Integration of MODIS-EVI Time Series Data and China’s Environment Satellite (HJ-1) Data. J. Indian Soc. Remote Sens. 201442, 859–867. [Google Scholar] [CrossRef]

32. Zhang, J.; Feng, L.; Yao, F. Improved maize cultivated area estimation over a large scale combining MODIS–EVI time series data and crop phenological information. ISPRS J. Photogramm. Remote Sens. 201494, 102–113. [Google Scholar] [CrossRef]

33. Gu, Y.; Wylie, B.K.; Howard, D.M.; Phuyal, K.P.; Ji, L. NDVI saturation adjustment: A new approach for improving cropland performance estimates in the Greater Platte River Basin, USA. Ecol. Indic. 201330, 1–6. [Google Scholar] [CrossRef]

34. Rouse, J.W.; Haas, R.H.; Schell, J.A.; Deering, D.W. Monitoring vegetation systems in the Great Plains with ERTS. NASA Spec. Publ. 1974351, 309. [Google Scholar]

35. Huete, A.; Didan, K.; Miura, T.; Rodriguez, E.P.; Gao, X.; Ferreira, L.G. Overview of the radiometric and biophysical performance of the MODIS vegetation indices. Remote Sens. Environ. 200283, 195–213. [Google Scholar] [CrossRef]

36. Huete, A.R. A soil-adjusted vegetation index (SAVI). Remote Sens. Environ. 198825, 295–309. [Google Scholar] [CrossRef]

37. Gitelson, A.A.; Kaufman, Y.J.; Merzlyak, M.N. Use of a green channel in remote sensing of global vegetation from EOS-MODIS. Remote Sens. Environ. 199658, 289–298. [Google Scholar] [CrossRef]

38. Jurgens, C. The modified normalized difference vegetation index (mNDVI) a new index to determine frost damages in agriculture based on Landsat TM data. Int. J. Remote Sens. 199718, 3583–3594. [Google Scholar] [CrossRef]

39. Xu, D.; Wang, C.; Chen, J.; Shen, M.; Shen, B.; Yan, R.; Li, Z.; Karnieli, A.; Chen, J.; Yan, Y.; et al. The superiority of the normalized difference phenology index (NDPI) for estimating grassland aboveground fresh biomass. Remote Sens. Environ. 2021264, 112578. [Google Scholar] [CrossRef]

40. Li, R.; Zhang, X.; Liu, B.; Zhang, B. A Review on the Development of Filter Reconstruction Algorithms for Remote Sensing Time Series Data. J. Remote Sens. 200913, 335–341. [Google Scholar]

41. Chen, Y.; Cao, R.; Chen, J.; Liu, L.; Matsushita, B. A practical approach to reconstruct high-quality Landsat NDVI time-series data by gap filling and the Savitzky–Golay filter. ISPRS J. Photogramm. Remote Sens. 2021180, 174–190. [Google Scholar] [CrossRef]

42. Cao, R.; Chen, Y.; Shen, M.; Chen, J.; Zhou, J.; Wang, C.; Yang, W. A simple method to improve the quality of NDVI time-series data by integrating spatiotemporal information with the Savitzky-Golay filter. Remote Sens. Environ. 2018217, 244–257. [Google Scholar] [CrossRef]

43. Zhong, L.; Hu, L.; Zhou, H. Deep learning based multi-temporal crop classification. Remote Sens. Environ. 2019221, 430–443. [Google Scholar] [CrossRef]

44. Zhou, J.; Jia, L.; Menenti, M. Reconstruction of global MODIS NDVI time series: Performance of Harmonic Analysis of Time Series (HANTS). Remote Sens. Environ. 2015163, 217–228. [Google Scholar] [CrossRef]

45. Lundberg, S.M.; Lee, S.-I. A unified approach to interpreting model predictions. In Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, CA, USA, 4–9 December 2017; Curran Associates Inc.: Red Hook, NY, USA, 2017; pp. 4768–4777. [Google Scholar]

46. Luan, W.; Shen, X.; Fu, Y.; Li, W.; Liu, Q.; Wang, T.; Ma, D. Research on Maize Acreage Extraction and Growth Monitoring Based on a Machine Learning Algorithm and Multi-Source Remote Sensing Data. Sustainability 202315, 16343. [Google Scholar] [CrossRef]

47. Mou, H.; Li, H.; Zhou, Y.; Dong, R. Response of Different Band Combinations in Gaofen-6 WFV for Estimating of Regional Maize Straw Resources Based on Random Forest Classification. Sustainability 202113, 4603. [Google Scholar] [CrossRef]

Li Q, Fu X, Li H, Zhou H. Advancing County-Level Potato Cultivation Area Extraction: A Novel Approach Utilizing Multi-Source Remote Sensing Imagery and the Shapley Additive Explanations–Sequential Forward Selection–Random Forest Model. Agriculture. 2025; 15(1):92.

Перевод статьи «Advancing County-Level Potato Cultivation Area Extraction: A Novel Approach Utilizing Multi-Source Remote Sensing Imagery and the Shapley Additive Explanations–Sequential Forward Selection–Random Forest Model» авторовLi Q, Fu X, Li H, Zhou H., оригинал доступен по ссылке. Лицензия: CC BY. Изменения: переведено на русский язык


Комментарии (0)