Esri и Microsoft присоединяются к Калифорнийскому университету в Сан-Диего, преподают практическую науку о геопространственных данных и глубокое обучение

В апреле - мае 2019 года Калифорнийский университет в Сан-Диего, Esri и Microsoft объединили свои усилия в преподавании курса DSC 170 - Наука о пространственных данных в кампусе Ла-Хойя под руководством Dr. Илья Заславский , директор лаборатории пространственных информационных систем Суперкомпьютерного центра Сан-Диего.

Практическое глубокое обучение в ГИС

Это была первая в своем роде возможность для студентов узнать о концепциях, методологиях, реальных приложениях и сценариях использования, и, что наиболее важно, получить практический опыт использования инструментов глубокого обучения с необработанными геопространственными данными для приходить к пониманию, извлекать знания и производить ценные информационные продукты.

В рамках курса учащимся был предоставлен доступ к мощным виртуальным машинам Azure Cloud, оснащенным графическими процессорами NVDIA Quadro GP100, чтобы изучить и пройти полный цикл обучения модели Single Shot MultiBox Detector (SSD) для обнаружения пальм. и дома на аэрофотоснимках.

В этом упражнении студенты создали свои собственные учебные наборы с помощью настольного приложения ArcGIS Pro 2.3.2, а затем экспортировали набор в формат Pascal VOC, поддерживаемый большинством фреймворков машинного обучения. Затем с помощью ArcGIS API for Python 1.6.1 студенты обучили свои собственные модели сверточной нейронной сети SSD для обнаружения и классификации объектов на входных изображениях.

Студенты узнали об архитектуре сети SSD, провели несколько итераций с конструктором SSD в поисках наилучшей точности обнаружения и классификации, определили оптимальное значение скорости обучения и наблюдали за обучением на предмет признаков переобучения.

После того, как модель SSD была успешно обучена, студентов попросили применить ее к гораздо большей географической области с помощью встроенного инструмента геообработки Обнаружение объектов с помощью глубокого обучения, который позволяет эффективно разбивать листы и выводить пакеты для чрезвычайно больших растров.

Студенты экспериментировали с пост-обработкой Non-maximum Suppression поверх сырых обнаружений, и их попросили обдумать дальнейшие шаги для повышения точности обнаружения.

Полученные векторные слои с пальмами и обнаруженными домами были опубликованы в ArcGIS Online как размещенные сервисы объектов и отправлены таким образом на оценку. Записные книжки студентов Jupyter с обучающим кодом Single Shot Detector и кодом проверки были отправлены для оценки через Gradescope.

В среднем каждый ученик тратил около 5–6 часов на графический процессор, экспериментируя, тренируясь и выполняя логический вывод с различными моделями Single Shot Detector.

В результате мы получили сильные и положительные отзывы от студентов и преподавателей, несколько убедительных заявлений на стажировку и просьбу повторить и расширить эти практические упражнения в предстоящих классах.

Важность «геопространственного» в машинном обучении

В одной из лекций студенты проработали замечательный пример обучения scikit-learn Random Forest Regressor, предсказывающего заболеваемость астмой у детей, используя частичные данные переписи населения из Коннектикута. Обученный Регрессор позже использовался для прогнозирования частоты астмы для участков переписи, на которых не были заполнены значения частоты.

Результаты с помощью scikit-learn Random Forest Regressor не были идеальными, но все же довольно хорошими: R² на тестовом наборе был равен 0,704 со следующей важностью независимых переменных (они были добавлены к исходным данным переписного участка с использованием ArcGIS Online Сервис геообогащения):

1. Выкуривал сигареты за последние 12 месяцев: процент = 34%.

2. ДЖС ACS: Inc с уровнем бедности / выше: процент = 33%

3. Уровень безработицы в 2018 г. = 20%.

4. Средний семейный доход в 2018 г. = 5%

5. Образование 2018: аттестат о среднем образовании, процент = 4%

6. Образование 2018: степень бакалавра, процент = 4%

Затем набор из шести вышеупомянутых объясняющих переменных был расширен, чтобы включить в него растры расстояния до дорог, плотности дорог и близости загрязнения, устанавливающие геопространственную взаимосвязь между каждым участком переписи и транспортным графом, а также источниками загрязнения воздуха.

Поскольку scikit-learn Regressor не работает с растровыми данными из коробки, студентам были продемонстрированы результаты использования инструмента Классификация и регрессия на основе леса из набора Пространственная статистика для обучения нового регрессора случайного леса ArcGIS. Результаты были поистине впечатляющими - с дополнительными растрами стоимости, ArcGIS Random Forest Regressor смог достичь R² 0,876 на тестовом наборе - более чем на 17% улучшение по сравнению с исходным scikit-learn Regressor, который не полагался на геопространственные компоненты данные!

Вот важность независимых переменных в соответствии с моделью ArcGIS Forest-based Classification and Regression:

1. Средний семейный доход в 2018 г. = 27%

2. ДЖС ACS: Inc ниже уровня бедности: процент = 22%

3. Выкуривал сигареты за последние 12 месяцев: процент = 16%.

4. Уровень безработицы в 2018 г. = 8%.

5. Образование 2018: степень бакалавра: процент = 7%.

6. ДОРОЖНАЯ ПЛОТНОСТЬ (растр) = 6%.

7. AIRQUALITYEBK (растр) = 4%

8. ДИСТАНЦИОННЫЕ ВЫБРОСЫ ВОЗДУХА (растр) = 4%.

9. ДИСТАНЦИОННЫЕ ПЕРВИЧНЫЕ ВТОРИЧНЫЕ ДОРОГИ (растр) = 3%.

10. 2018 Образование: Диплом о среднем образовании: Процент = 3%

Ценность геопространственных данных: учащимся было продемонстрировано значительное увеличение точности прогнозов на 17% по сравнению с исходными результатами, полученными с непространственными переменными, путем добавления растров близости к регрессору случайного леса.

‹ACK›

Особая благодарность Джону Мезе и его команде из Microsoft Azure за работу по настройке виртуальных машин для студентов Калифорнийского университета в Сан-Диего для обучения нейронных сетей.

Руководители класса: Илья Заславский, Дмитрий Кудинов.

Помощники учителей : Ашин Джордж, Хаммадабдулла Айюби