Microsoft Building Footprints в GEE: пересмотр масштаба и доступности

Следы зданий, вероятно, являются одной из самых заметных модификаций природного ландшафта. Типы зданий различаются, но класс зданий и общие закономерности развития этих пространств связаны с деятельностью человека, его ростом и разрушением. Картографирование населенных пунктов не ново, и все, от ночных огней до открытых карт улиц, создавало массивные карты объектов, которые помогли расширить это понимание. Они неотъемлемо связаны с объектами переписи, дорогами и распределительными сетями и служат эффективным средством понимания миграции.

Так зачем же целая история для набора данных, спросите вы? В конце концов, мы работаем с каталогом сообщества уже более года и содержат более 100 ТБ и более 850 типов наборов данных. История восходит к доступности и тому, что потребовалось, чтобы перейти от чтения в памяти к потоковой передаче GeoJSON, чтобы понять, что действительно соответствует пользовательскому опыту.

Набор данных MSBuildings, который я загрузил в Google Earth Engine, включает более ранние выпуски, помимо 777 миллионов глобальных площадей зданий Microsoft, и в своем окончательном состоянии составляет Более 1 миллиарда следов (1 069 059 359). Это, пожалуй, самый большой векторный ввод, который я проглотил со своей стороны, и три подпапки включают США, Индонезию и Нигерию. Кроме того, такие наборы данных, как Канада и Австралия, были объединены в составные векторные данные.

Здание с высоким разрешением

Крупномасштабное картографирование контуров зданий было упражнением для более глубокого понимания формы, размера и узоров зданий. С помощью Open Street Map пользователи могли оцифровывать выбранные здания и расширять существующие базы данных с информацией о зданиях. Вы можете извлечь экстракт OSM, используя такие сайты, как bbbike Extractor или Geofabrik. К сожалению, несмотря на то, что многие районы, муниципалитеты и местные органы власти имеют этот набор данных, не существует единых и простых подходов к их сбору.

Поэтому в 2018 году Microsoft начала экспериментировать с выпуском Building Footprint под открытой лицензией для потребления, охватываемой такими изданиями, как Нью-Йорк Таймс. Это один из самых важных выпусков единого подхода для набора данных здания, за которым следует Microsoft, выпускающая его в нескольких странах и регионах. Далее последовали обновления и примечания к выпуску.

Google также выпустила набор данных по африканскому континенту в 2021 году, что стало одним из наиболее важных выпусков под лицензией CC-BY 4.0 в рамках инициативы Google Open Buildings.

Производительность в разных подходах и моделях варьируется, как и ожидалось, а тип данных, которые вам нужны или которые вы хотите использовать, зависит от предполагаемого приложения.

Глобальный набор данных Microsoft Building Footprint

Глобальные наборы данных MS содержат 777 миллионов зданий из изображений Bing Maps в период с 2014 по 2021 год, включая изображения Maxar и Airbus. Набор данных не включает более ранние выпуски, такие как Канада, США, Австралия и т. д., и является массовым для прямого использования и применения. Оказывается, вы можете искать все их выпуски, просто используя ключевые слова Github, подобные этому. Мало того, вы можете довольно легко перейти по ссылкам для скачивания.

Исходные данные: сортировка и разделение

Для тех, кто работал с некоторыми из этих наборов данных, вот несколько быстрых замечаний.

  • Размер подмножества данных может варьироваться от нескольких КБ до нескольких ГБ. Несмотря на то, что мы прошли долгий путь, чтобы уменьшить зависимость на стороне клиента, это все еще может вызвать проблемы у тех, у кого ограниченное оборудование и пропускная способность.
  • Глобальный выпуск машинного обучения связан с более ранними выпусками, которые можно агрегировать, чтобы убедиться, что коллекция действительно глобальна и полна.
  • Хотя некоторые наборы данных выпускаются как GeoJSON, некоторые выпускаются в формате Large GeoJSON (GeoJSONL). В то время как заархивированные размеры достаточно велики, чтобы ограничить тип оборудования, распакованные фрагменты представляют собой массивные векторные файлы. Отсюда необходимость сортировки и разделения наборов данных.

Google Earth Engine и векторные пространства

Google Earth Engine является мощным инструментом для анализа растров и периодически совершенствует векторные возможности, включая такие выпуски, как FeatureView для быстрого рендеринга листов. Однако прием таблиц или векторов ограничен определенными типами файлов, включая файлы CSV и Shapefiles. Это означает, что вы должны получить файлы в любом из этих форматов.

В Ingest есть несколько интересных особенностей производительности.

  • Время загрузки не обязательно зависит от размера файла; кажется, что сложная геометрия может занять больше времени, хотя это недостаточно последовательное обобщение.
  • Обширные наборы данных были разделены на более мелкие подмножества и загружены.
  • После завершения приема части в папке можно было объединить, свести и экспортировать с переменным успехом.

Доступ к специальным возможностям

Доступность выходит за рамки простого предоставления данных; это может быть ограничено тем, что вы можете и не можете делать с какими-либо данными. Попытка здесь состояла в том, чтобы сделать его, по крайней мере, доступным в первую очередь для некоторых пользователей и зафиксировать шаги, необходимые для создания собственного конвейера. На данный момент вы можете прочитать об этом наборе данных и получить к нему доступ здесь.

При 201 объекте общий размер папки, включая все наборы данных, составляет 62,03 ГБ, что может быть связано со сжатием и оптимизацией в Google Earth Engine. Мне не терпится узнать, создадут ли пользователи собственное подмножество объектов представления объектов, которое появилось несколько недель назад. Весь процесс был захватывающим глубоким погружением в проблемы, связанные с подгруппами данных, выравниванием, сбоями задач и повторными попытками. В итоге у вас есть полный набор данных Global ML Building Footprint от Microsoft в рамках Google Earth Engine, а в замечательном каталоге наборов данных сообщества GEE будет еще много интересного. .

Если вам нравятся усилия, Отметьте проект звездочкой, чтобы получать больше обновлений и поддержите сообщество. Вы также можете подписаться на меня в Twitter, чтобы получать более частые обновления.