Последние инновации в сетях ReLU, часть 4 (машинное обучение)

Слегка завышенные параметры сетей ReLU имеют благоприятный ландшафт потерь (arXiv)

Автор: Кедар Кархадкар, Майкл Мюррей, Ханна Церан, Гвидо Монтуфар.

Аннотация: мы изучаем ландшафт потерь двухслойных нейронных сетей ReLU со слегка завышенными параметрами на общем конечном наборе входных данных для квадрата ошибки. Наш подход включает ограничение размерности множеств локальных и глобальных минимумов с использованием ранга якобиана карты параметризации. Используя результаты для случайных двоичных матриц, мы показываем, что большинство шаблонов активации соответствуют областям параметров без плохо дифференцируемых локальных минимумов. Кроме того, для одномерных входных данных мы показываем, что большинство областей активации, реализуемых сетью, содержат многомерный набор глобальных минимумов и не имеют плохих локальных минимумов. Мы экспериментально подтверждаем эти результаты, обнаружив фазовый переход от большинства областей, имеющих полный ранг, ко многим областям, имеющим недостаточный ранг, в зависимости от степени избыточной параметризации.

2. Изучение того, как сети ReLU кодируют симметрии (arXiv)

Автор: Георг Бёкман, Фредрик Каль.

Аннотация: Многие симметрии данных могут быть описаны с точки зрения групповой эквивариантности, и наиболее распространенным способом кодирования групповой эквивариантности в нейронных сетях является построение линейных слоев, которые являются групповыми эквивариантными. В этой работе мы исследуем, означает ли эквивариантность сети, что все слои эквивариантны. С теоретической точки зрения мы находим случаи, когда эквивариантность подразумевает эквивариантность по слоям, но также демонстрируем, что в общем случае это не так. Тем не менее, мы предполагаем, что CNN, обученные быть эквивариантными, будут демонстрировать эквивариантность по слоям, и объясняем, почему эта гипотеза является более слабой версией недавней гипотезы о перестановках Entezari et al. [2022]. Мы проводим количественные эксперименты с VGG-сетями на CIFAR10 и качественные эксперименты с ResNets на ImageNet, чтобы проиллюстрировать и подтвердить наши теоретические выводы. Эти эксперименты представляют интерес не только для понимания того, как групповая эквивариантность кодируется в ReLU-сетях, но они также дают новый взгляд на гипотезу о перестановках Энтезари и др., поскольку мы обнаруживаем, что обычно легче объединить сеть с группой. -преобразованная версия самой себя, чем слияние двух разных сетей.

Последние инновации в сетях ReLU, часть 4 (машинное обучение)

Похожие вопросы