Мы должны выяснить, сколько слоев нам нужно и больше → но мы не знаем эту информацию заранее. Обычно мы сидим и пробуем новое → , однако это не лучшая идея. Итак, как мы можем сделать это проще?
Дело в том, что никто не знает → как установить все эти гиперпараметры. (это просто волшебные числа LOL) → как мы должны начать?
Игра заключается в том, чтобы убрать ручную инженерную часть из дизайна модели → это очень важно.
Эта проблема не так уж сложна → нужно найти архитектуру, отвечающую некоторым критериям → таким как точность и многое другое. (это то же самое, что алгоритмы поиска).
Кажется, есть макро- и микро-поиск → также важно знать, что такое правильное пространство поиска. (и мы можем ввести некоторые априорные значения → например, после свертки мы не можем поставить пакетную нормализацию).
Поиск довольно дорогой → это проблема → после того, как определенная архитектура найдена, нам нужно найти статистику → обучение → оценка точности модели ОЧЕНЬ СЛОЖНО и ДОЛГО. (мы не хотим обучать одну модель два дня → мы хотим каким-то образом оценить модель намного быстрее).
Пространство поиска ячеек → есть несколько предопределенных ячеек → и мы соединяем эти ячейки одним соединением. (этот метод очень популярен → так как сокращает пространство поиска в целом). (поэтому мы воспользуемся этой информацией)
Противоположностью этому было бы общее пространство поиска и поиск всего и вся. (это поле довольно жаркое).
Существует веб-сайт для всех статей, связанных с NAS → очень круто → это действительно кажется будущим направлением. (по Arix есть от 50 до 60 статей)
Но, к счастью, многие из них — это шум, и в большинстве из них всего несколько ключевых идей.
И одна из ключевых идей → это RL в сочетании с глубоким обучением → иметь какой-то контроллер → и еще один набор поиска моделей → это так круто.
Сделать хорошие сети из другой сети.
Это процесс создания новой модели → единственное, что это ОЧЕНЬ дорого.
Вышла еще одна новая статья → для более короткого GPU → намного практичнее.
Мы по-прежнему делаем то же самое → но стоимость выполнения задней опоры высока → это очень дорогая часть → что, если мы этого не сделаем → есть несколько моделей, которые выглядят очень похожими → и делят вес.
Градиенты → делят градиент → это очень эффективно → один вперед и назад → но мы можем искать несколько архитектур моделей. (это простая идея → но очень эффективная)
Количество дней сократилось → и большинство параметров → мы смогли все оптимизировать. (были найдены совершенно новые архитектуры).
Это была одна из самых эпичных работ → DARTS → вот идея → уже есть соединения сот → есть соединения операций.
Связи уже есть → но веса связей могут меняться → и это именно то, что мы оптимизируем. (поэтому некоторые связи будут потеряны → в то время как другие связи станут сильнее)
Следовательно, в конце концов → мы можем получить конкретную архитектуру модели. (и это занимает меньше дня → но есть одна проблема: → пространство поиска ограничено → мы не можем создать новый узел → также мы должны обучить массивный граф → это неэффективно по памяти).
Чтобы исправить проблему с графическим процессором → вышла другая статья → здесь мы собираемся сохранить только часть графика внутри графического процессора → поэтому тренируйте только эту часть → это такой интересный подход.
Есть много оптимизаций, которые мы можем сделать, когда дело доходит до NAS.
Кроме того, существует некоторый байесовский подход к оптимизации архитектуры модели. (для DARTS → возможен сбой компиляции)
Большинство методов выполняют поиск в обратном направлении → здесь мы собираемся выполнить поиск в прямом направлении! (как это работает?)
Мы можем генерировать по мере продвижения → эй, нам нужен еще один слой? Другая функция активации? И больше??
Некоторые методы являются заимствованными идеями из других методов статистического прогнозирования.
Во-первых, мы собираемся начать с малого → и у нас будет несколько кандидатов → и мы хотим знать, какие из них полезны. (и этот процесс будет повторяться снова и снова).
Немного сложный процесс → но очень новая идея → мы в целом не меняем градиент → это критично. (поскольку мы не знаем, какие из них являются лучшими, когда дело доходит до выбора кандидатов).
Итак, из возможного выбора операций → медленно выбирайте те, которые повышают производительность модели. (интересная идея)
Это похоже на дерево эволюции → медленно превращается в лучшую модель. (собрав много этих вещей вместе).
И мы даже можем сделать это асинхронно, LOL.
Убыток — это сигнал, который мы принимаем → не точность → величина убытка — это идея, которой мы пользуемся.
В зависимости от значения потерь → нам не нужно искать некоторые точки данных, которые не дают хороших результатов. (дополнение данных, а также поиск по гиперпараметрам не учитываются) → следовательно, воспроизводимость является проблемой.
Неплохие результаты и на imagenet, но это не решаемая проблема.