Поиск по эффективной передовой архитектуре Майкрософт

Мы должны выяснить, сколько слоев нам нужно и больше → но мы не знаем эту информацию заранее. Обычно мы сидим и пробуем новое → , однако это не лучшая идея. Итак, как мы можем сделать это проще?

Дело в том, что никто не знает → как установить все эти гиперпараметры. (это просто волшебные числа LOL) → как мы должны начать?

Игра заключается в том, чтобы убрать ручную инженерную часть из дизайна модели → это очень важно.

Эта проблема не так уж сложна → нужно найти архитектуру, отвечающую некоторым критериям → таким как точность и многое другое. (это то же самое, что алгоритмы поиска).

Кажется, есть макро- и микро-поиск → также важно знать, что такое правильное пространство поиска. (и мы можем ввести некоторые априорные значения → например, после свертки мы не можем поставить пакетную нормализацию).

Поиск довольно дорогой → это проблема → после того, как определенная архитектура найдена, нам нужно найти статистику → обучение → оценка точности модели ОЧЕНЬ СЛОЖНО и ДОЛГО. (мы не хотим обучать одну модель два дня → мы хотим каким-то образом оценить модель намного быстрее).

Пространство поиска ячеек → есть несколько предопределенных ячеек → и мы соединяем эти ячейки одним соединением. (этот метод очень популярен → так как сокращает пространство поиска в целом). (поэтому мы воспользуемся этой информацией)

Противоположностью этому было бы общее пространство поиска и поиск всего и вся. (это поле довольно жаркое).

Существует веб-сайт для всех статей, связанных с NAS → очень круто → это действительно кажется будущим направлением. (по Arix есть от 50 до 60 статей)

Но, к счастью, многие из них — это шум, и в большинстве из них всего несколько ключевых идей.

И одна из ключевых идей → это RL в сочетании с глубоким обучением → иметь какой-то контроллер → и еще один набор поиска моделей → это так круто.

Сделать хорошие сети из другой сети.

Это процесс создания новой модели → единственное, что это ОЧЕНЬ дорого.

Вышла еще одна новая статья → для более короткого GPU → намного практичнее.

Мы по-прежнему делаем то же самое → но стоимость выполнения задней опоры высока → это очень дорогая часть → что, если мы этого не сделаем → есть несколько моделей, которые выглядят очень похожими → и делят вес.

Градиенты → делят градиент → это очень эффективно → один вперед и назад → но мы можем искать несколько архитектур моделей. (это простая идея → но очень эффективная)

Количество дней сократилось → и большинство параметров → мы смогли все оптимизировать. (были найдены совершенно новые архитектуры).

Это была одна из самых эпичных работ → DARTS → вот идея → уже есть соединения сот → есть соединения операций.

Связи уже есть → но веса связей могут меняться → и это именно то, что мы оптимизируем. (поэтому некоторые связи будут потеряны → в то время как другие связи станут сильнее)

Следовательно, в конце концов → мы можем получить конкретную архитектуру модели. (и это занимает меньше дня → но есть одна проблема: → пространство поиска ограничено → мы не можем создать новый узел → также мы должны обучить массивный граф → это неэффективно по памяти).

Чтобы исправить проблему с графическим процессором → вышла другая статья → здесь мы собираемся сохранить только часть графика внутри графического процессора → поэтому тренируйте только эту часть → это такой интересный подход.

Есть много оптимизаций, которые мы можем сделать, когда дело доходит до NAS.

Кроме того, существует некоторый байесовский подход к оптимизации архитектуры модели. (для DARTS → возможен сбой компиляции)

Большинство методов выполняют поиск в обратном направлении → здесь мы собираемся выполнить поиск в прямом направлении! (как это работает?)

Мы можем генерировать по мере продвижения → эй, нам нужен еще один слой? Другая функция активации? И больше??

Некоторые методы являются заимствованными идеями из других методов статистического прогнозирования.

Во-первых, мы собираемся начать с малого → и у нас будет несколько кандидатов → и мы хотим знать, какие из них полезны. (и этот процесс будет повторяться снова и снова).

Немного сложный процесс → но очень новая идея → мы в целом не меняем градиент → это критично. (поскольку мы не знаем, какие из них являются лучшими, когда дело доходит до выбора кандидатов).

Итак, из возможного выбора операций → медленно выбирайте те, которые повышают производительность модели. (интересная идея)

Это похоже на дерево эволюции → медленно превращается в лучшую модель. (собрав много этих вещей вместе).

И мы даже можем сделать это асинхронно, LOL.

Убыток — это сигнал, который мы принимаем → не точность → величина убытка — это идея, которой мы пользуемся.

В зависимости от значения потерь → нам не нужно искать некоторые точки данных, которые не дают хороших результатов. (дополнение данных, а также поиск по гиперпараметрам не учитываются) → следовательно, воспроизводимость является проблемой.

Неплохие результаты и на imagenet, но это не решаемая проблема.

Поиск по эффективной передовой архитектуре Майкрософт

Похожие вопросы