Esri и Microsoft присоединяются к Калифорнийскому университету в Сан-Диего, преподают практическую науку о геопространственных данных и глубокое обучение
В апреле - мае 2019 года Калифорнийский университет в Сан-Диего, Esri и Microsoft объединили свои усилия в преподавании курса DSC 170 - Наука о пространственных данных в кампусе Ла-Хойя под руководством Dr. Илья Заславский , директор лаборатории пространственных информационных систем Суперкомпьютерного центра Сан-Диего.
Практическое глубокое обучение в ГИС
Это была первая в своем роде возможность для студентов узнать о концепциях, методологиях, реальных приложениях и сценариях использования, и, что наиболее важно, получить практический опыт использования инструментов глубокого обучения с необработанными геопространственными данными для приходить к пониманию, извлекать знания и производить ценные информационные продукты.
В рамках курса учащимся был предоставлен доступ к мощным виртуальным машинам Azure Cloud, оснащенным графическими процессорами NVDIA Quadro GP100, чтобы изучить и пройти полный цикл обучения модели Single Shot MultiBox Detector (SSD) для обнаружения пальм. и дома на аэрофотоснимках.
В этом упражнении студенты создали свои собственные учебные наборы с помощью настольного приложения ArcGIS Pro 2.3.2, а затем экспортировали набор в формат Pascal VOC, поддерживаемый большинством фреймворков машинного обучения. Затем с помощью ArcGIS API for Python 1.6.1 студенты обучили свои собственные модели сверточной нейронной сети SSD для обнаружения и классификации объектов на входных изображениях.
Студенты узнали об архитектуре сети SSD, провели несколько итераций с конструктором SSD в поисках наилучшей точности обнаружения и классификации, определили оптимальное значение скорости обучения и наблюдали за обучением на предмет признаков переобучения.
После того, как модель SSD была успешно обучена, студентов попросили применить ее к гораздо большей географической области с помощью встроенного инструмента геообработки Обнаружение объектов с помощью глубокого обучения, который позволяет эффективно разбивать листы и выводить пакеты для чрезвычайно больших растров.
Студенты экспериментировали с пост-обработкой Non-maximum Suppression поверх сырых обнаружений, и их попросили обдумать дальнейшие шаги для повышения точности обнаружения.
Полученные векторные слои с пальмами и обнаруженными домами были опубликованы в ArcGIS Online как размещенные сервисы объектов и отправлены таким образом на оценку. Записные книжки студентов Jupyter с обучающим кодом Single Shot Detector и кодом проверки были отправлены для оценки через Gradescope.
В среднем каждый ученик тратил около 5–6 часов на графический процессор, экспериментируя, тренируясь и выполняя логический вывод с различными моделями Single Shot Detector.
В результате мы получили сильные и положительные отзывы от студентов и преподавателей, несколько убедительных заявлений на стажировку и просьбу повторить и расширить эти практические упражнения в предстоящих классах.
Важность «геопространственного» в машинном обучении
В одной из лекций студенты проработали замечательный пример обучения scikit-learn Random Forest Regressor, предсказывающего заболеваемость астмой у детей, используя частичные данные переписи населения из Коннектикута. Обученный Регрессор позже использовался для прогнозирования частоты астмы для участков переписи, на которых не были заполнены значения частоты.
Результаты с помощью scikit-learn Random Forest Regressor не были идеальными, но все же довольно хорошими: R² на тестовом наборе был равен 0,704 со следующей важностью независимых переменных (они были добавлены к исходным данным переписного участка с использованием ArcGIS Online Сервис геообогащения):
1. Выкуривал сигареты за последние 12 месяцев: процент = 34%.
2. ДЖС ACS: Inc с уровнем бедности / выше: процент = 33%
3. Уровень безработицы в 2018 г. = 20%.
4. Средний семейный доход в 2018 г. = 5%
5. Образование 2018: аттестат о среднем образовании, процент = 4%
6. Образование 2018: степень бакалавра, процент = 4%
Затем набор из шести вышеупомянутых объясняющих переменных был расширен, чтобы включить в него растры расстояния до дорог, плотности дорог и близости загрязнения, устанавливающие геопространственную взаимосвязь между каждым участком переписи и транспортным графом, а также источниками загрязнения воздуха.
Поскольку scikit-learn Regressor не работает с растровыми данными из коробки, студентам были продемонстрированы результаты использования инструмента Классификация и регрессия на основе леса из набора Пространственная статистика для обучения нового регрессора случайного леса ArcGIS. Результаты были поистине впечатляющими - с дополнительными растрами стоимости, ArcGIS Random Forest Regressor смог достичь R² 0,876 на тестовом наборе - более чем на 17% улучшение по сравнению с исходным scikit-learn Regressor, который не полагался на геопространственные компоненты данные!
Вот важность независимых переменных в соответствии с моделью ArcGIS Forest-based Classification and Regression:
1. Средний семейный доход в 2018 г. = 27%
2. ДЖС ACS: Inc ниже уровня бедности: процент = 22%
3. Выкуривал сигареты за последние 12 месяцев: процент = 16%.
4. Уровень безработицы в 2018 г. = 8%.
5. Образование 2018: степень бакалавра: процент = 7%.
6. ДОРОЖНАЯ ПЛОТНОСТЬ (растр) = 6%.
7. AIRQUALITYEBK (растр) = 4%
8. ДИСТАНЦИОННЫЕ ВЫБРОСЫ ВОЗДУХА (растр) = 4%.
9. ДИСТАНЦИОННЫЕ ПЕРВИЧНЫЕ ВТОРИЧНЫЕ ДОРОГИ (растр) = 3%.
10. 2018 Образование: Диплом о среднем образовании: Процент = 3%
Ценность геопространственных данных: учащимся было продемонстрировано значительное увеличение точности прогнозов на 17% по сравнению с исходными результатами, полученными с непространственными переменными, путем добавления растров близости к регрессору случайного леса.
‹ACK›
Особая благодарность Джону Мезе и его команде из Microsoft Azure за работу по настройке виртуальных машин для студентов Калифорнийского университета в Сан-Диего для обучения нейронных сетей.
Руководители класса: Илья Заславский, Дмитрий Кудинов.
Помощники учителей : Ашин Джордж, Хаммадабдулла Айюби