5 минут на 5 часов чтения

Январь кажется мне странным месяцем. У всех полно энергии, идей, амбиций и хочется двигаться. Но первые несколько недель нового года часто заполнены согласованиями и дискуссиями о том, как воплотить эти идеи в жизнь. Каждый год я задаюсь вопросом, почему эти согласования и обсуждения не произошли в декабре. Но так тому и быть.

На этой неделе смешанный пакет — статистика, обработка данных и машинное обучение.

  • A/B-тестирование — есть ли лучший способ? Исследование многоруких бандитов:A/B-тестирование предлагает отличный способ принимать решения на основе данных при сравнении двух (или более) вариантов. Но правильное проведение A/B-тестирования требует значительного количества наблюдений для каждого варианта. Но если один вариант окажется намного слабее, мы можем потерять деньги, используя его слишком часто. Вот тогда и появляются многорукие бандиты. Они предназначены для баланса между использованием наилучшего из известных на данный момент вариантов (эксплуатация) и тестированием других — потенциально лучших — вариантов (исследование). Необходимо рассмотреть несколько алгоритмов. Как они работают? Как они сравниваются? И, наконец, какой из них использовать? Чтобы получить ответы на эти вопросы, прочитайте эту замечательную статью. (Грег Рафферти @ TDS)
  • Будущая история Data Engineering.Роль специалистов по обработке данных меняется по мере того, как инструменты обработки данных становятся лучше, и специалисты по данным могут уделять больше внимания получению ценности данных для своего бизнеса. Что это значит для нынешних и будущих дата-инженеров? (И их будет много — поскольку нынешний дефицит компетентных инженеров приведет к переизбытку младших инженеров.) Будут ли они заменены инженерами-аналитиками? Или аналитики данных? В статье много замечательных идей и мыслей. Я думаю, что в течение некоторого времени все поле данных будет продолжать быстро развиваться, но не все компании будут двигаться с одинаковой скоростью, что создаст большую изменчивость в фактической работе отдельных должностей. Таким образом, названия будут меньше объяснять, чем на самом деле является работа. Поэтому и кандидаты, и компании должны уделять особое внимание согласованию ожиданий от ролей. И даже тогда каждый должен быть готов к тому, что ежедневная работа будет смещаться во времени. (Группировать по 1)
  • Методы ансамбля: бэггинг, бустинг и суммирование. Поскольку в последнее время для различных задач классификации и прогнозирования широко используются деревья повышения градиента, а именно реализации XGBoost или LightGBM, стоит повторить методы ансамбля. Идея ансамблевого обучения заключается в обучении нескольких моделей и объединении их вместе для достижения лучшей производительности. То, как они сочетаются, различает бэггинг, бустер и стек. Будь то подведение итогов или изучение чего-то нового, визуализации в статье облегчат задачу каждому. (Джозеф Рокка и Батист Рокка @ TDS)

Счастливые выходные!

И если вы (или кто-то из ваших знакомых) ищете работу в сфере консалтинга по стратегическим данным — DataDiligence нанимает новых сотрудников по работе с данными!

На случай, если вы пропустили выпуск журнала Keeping up with data за последнюю неделю



Спасибо, что прочитали!

Пожалуйста, поделитесь своими мыслями или советами по чтению в комментариях.

Подпишитесь на меня в Medium, LinkedIn и Twitter.