1. Границы ошибки обобщения для алгоритмов итеративного обучения с ограниченными обновлениями (arXiv)

Автор: Цзинвэнь Фу, Наньнин Чжэн

Аннотация: В данной статье с использованием методов теории информации исследуются характеристики обобщения алгоритмов итеративного обучения с ограниченными обновлениями для невыпуклых функций потерь. Наш ключевой вклад — это новая оценка ошибки обобщения этих алгоритмов с ограниченными обновлениями, выходящая за рамки предыдущих работ, которые были сосредоточены только на стохастическом градиентном спуске (SGD). Наш подход вводит две основные новинки: 1) мы переформулируем взаимную информацию как неопределенность обновлений, предоставляя новую перспективу, и 2) вместо использования правила объединения взаимной информации мы используем метод разложения дисперсии для разложения информации по итерациям. что позволяет упростить суррогатный процесс. Мы анализируем нашу границу обобщения при различных настройках и демонстрируем улучшенные границы, когда размерность модели увеличивается с той же скоростью, что и количество выборок обучающих данных. Чтобы преодолеть разрыв между теорией и практикой, мы также исследуем ранее наблюдаемое поведение масштабирования в больших языковых моделях. В конечном счете, наша работа делает еще один шаг в развитии практических теорий обобщения.

2.Точная и быстрая оценка ошибки обобщения встраивания графа в метрическое пространство (arXiv)

Автор: Ацуши Судзуки, Ацуши Нитанда, Тайцзи Судзуки, Цзин Ван, Фэн Тянь, Кендзи Яманиши.

Аннотация: Недавние исследования экспериментально показали, что в неевклидовом метрическом пространстве можно добиться эффективного и действенного встраивания графов, целью которого является получение представлений вершин, отражающих структуру графа в метрическом пространстве. В частности, встраивание графов в гиперболическое пространство экспериментально позволило встроить графы с иерархической древовидной структурой, например, данные на естественных языках, в социальных сетях и базах знаний. Однако недавние теоретические анализы показали гораздо более высокую верхнюю границу ошибки обобщения встраивания неевклидовых графов, чем ошибки евклидова, где высокая ошибка обобщения указывает на то, что неполнота и шум в данных могут значительно ухудшить эффективность обучения. Это означает, что существующая граница не может гарантировать успех встраивания неевклидова графа в неевклидово метрическое пространство при практическом объеме обучающих данных, что может помешать применению встраивания неевклидова графа в реальных задачах. В этой статье представлена ​​новая верхняя граница ошибки обобщения встраивания графов путем оценки локальной сложности Радемахера модели как функционального набора расстояний пар представлений. Наша оценка поясняет, что производительность встраивания графов в неевклидово метрическое пространство, включая гиперболическое пространство, лучше, чем предполагают существующие верхние оценки. В частности, наша новая верхняя граница является полиномиальной по отношению к геометрическому радиусу R метрического пространства и может быть самое быстрое значение O(1S), где S — размер обучающих данных. Наша оценка значительно точнее и быстрее существующей, которая может быть экспоненциальной по отношению к R и O(1S√) в кратчайшие сроки. Конкретные расчеты на примерах показывают, что встраивание графа в неевклидово метрическое пространство может превзойти его в евклидовом пространстве с гораздо меньшими обучающими данными, чем предполагает существующая граница.