Еще одно пошаговое руководство по некоторым вопросам науки о данных из интервью Microsoft

Несколько недель назад я опубликовал статью под названием Вопросы и ответы на собеседовании в Microsoft Data Science!. В ней были рассмотрены первые девять из восемнадцати вопросов, которые мой друг задал мне во время интервью в Microsoft для получения данных. позиция ученого. На этой неделе я постараюсь ответить на оставшиеся девять вопросов в меру своих возможностей. Вот так!

Вопросы на собеседовании

В: Простые вероятностные вопросы, связанные с байесовскими вопросами

О: Я предполагаю, что они, вероятно, задавали общие вопросы о теореме Байеса и просили найти значение одной переменной, учитывая значения других. Я кратко расскажу, что такое теорема Байеса, на примере.

P (A | B) - это вероятность того, что событие A произойдет при условии, что событие B произойдет.
P (B | A) - это вероятность того, что событие B произойдет при данном событие A произойдет
P (A) - это вероятность того, что произойдет событие A;
P (B)
- это вероятность того, что произойдет событие B

Я воспользуюсь примером, чтобы показать, насколько это имеет смысл:

  • P (A) равно вероятности того, что у пациента заболевание печени. 10% пациентов в прошлом страдали заболеванием печени. Следовательно, P (A) = 0,1
  • P (B) равно вероятности того, что пациент алкоголик. 5% пациентов, осматривавшихся в прошлом, были алкоголиками. Следовательно, P (B) = 0,05
  • Вы также знаете, что 7% пациентов, у которых диагностировано заболевание печени, также являются алкоголиками. Следовательно, P (B | A) = 0,07
  • Используя теорему Байеса, вы можете заключить, что:
    P (A | B) = (0,07 * 0,1) / 0,05 = 0,14
    Следовательно, если пациент алкоголик, они имеют 14% шанс заболеть заболеванием печени.

Если теорема Байеса все еще сбивает вас с толку, 3Blue1Brown проделывает невероятную работу, объясняя ее наглядно и интуитивно - см. Здесь.

Вопрос: Каковы некоторые этапы обработки и очистки данных перед применением алгоритмов машинного обучения?

О: Есть много шагов, которые можно предпринять при обработке и очистке данных. Некоторые из наиболее распространенных шагов перечислены ниже:

  • Профилирование данных. Практически каждый начинает с понимания своего набора данных. В частности, вы можете посмотреть на форму набора данных с помощью .shape и описание ваших числовых переменных с помощью .describe ().
  • Визуализация данных. Иногда полезно визуализировать данные с помощью гистограмм, диаграмм и диаграмм рассеяния, чтобы лучше понять взаимосвязь между переменными, а также выявить потенциальные выбросы.
  • Синтаксическая ошибка. Это включает в себя проверку отсутствия пробелов, соответствие регистра букв и проверку опечаток. Вы можете проверить наличие опечаток с помощью .unique () или гистограмм.
  • Стандартизация или нормализация: в зависимости от набора данных, с которым вы работаете, и метода машинного обучения, который вы решите использовать, может быть полезно стандартизировать или нормализовать ваши данные, чтобы разные шкалы разных переменных не влияли отрицательно. производительность вашей модели.
  • Обработка нулевых значений. Существует несколько способов обработки нулевых значений, включая удаление строк с нулевыми значениями в целом, замену нулевых значений средним / медианным / режимом, замену нулевых значений новой категорией (например, unknown), прогнозируя значения или используя модели машинного обучения, которые могут работать с нулевыми значениями. Подробнее здесь.
  • Другие действия включают: удаление нерелевантных данных, удаление дубликатов и преобразование типов.

В: Как бороться с несбалансированной двоичной классификацией?

A: Существует несколько способов обработки несбалансированной двоичной классификации (при условии, что вы хотите идентифицировать класс меньшинства):

  • Во-первых, вы хотите пересмотреть показатели, которые вы бы использовали для оценки своей модели. Точность вашей модели может быть не лучшим показателем, на который стоит смотреть, потому что я воспользуюсь примером, чтобы объяснить, почему. Допустим, 99 банковских операций снятия средств не были мошенничеством, а 1 снятие средств - мошенничеством. Если ваша модель просто классифицирует каждый экземпляр как «не мошеннический», ее точность будет 99%! Поэтому вы можете рассмотреть возможность использования таких показателей, как точность и отзыв.
  • Еще один способ улучшить несбалансированную двоичную классификацию - это увеличение стоимости неправильной классификации класса меньшинства. Увеличивая штраф за такие, модель должна более точно классифицировать класс меньшинства.
  • Наконец, вы можете улучшить баланс классов, передискретив класс меньшинства или занижая выборку класса большинства. Вы можете прочитать больше об этом здесь".

В: В чем разница между прямоугольной диаграммой и гистограммой?

О: Хотя прямоугольные диаграммы и гистограммы представляют собой визуализации, используемые для отображения распределения данных, они передают информацию по-разному.

Гистограммы - это гистограммы, которые показывают частоту значений числовой переменной и используются для аппроксимации распределения вероятностей данной переменной. Это позволяет быстро понять форму распределения, вариации и потенциальные выбросы.

Коробчатые диаграммы сообщают о различных аспектах распределения данных. Хотя вы не можете увидеть форму распределения с помощью прямоугольной диаграммы, вы можете собрать другую информацию, такую ​​как квартили, диапазон и выбросы. Коробчатые диаграммы особенно полезны, когда вы хотите сравнить несколько диаграмм одновременно, потому что они занимают меньше места, чем гистограммы.

В: Как подойти к решению проблемы L2-регуляризованной регрессии?

A: К сожалению, я недостаточно знаю о регрессии гребня, чтобы понять, в чем заключается проблема регрессии L2, но если вы знаете, прокомментируйте свой ответ, и я добавлю его сюда с приветствием!

Q: Основы вероятности

A: Для этого я собираюсь рассмотреть восемь правил вероятности, изложенных здесь, и четыре различных метода подсчета (подробнее см. Здесь).

Восемь правил вероятности

  • Правило №1: для любого события A, 0 ≤ P (A) ≤ 1; другими словами, вероятность события может варьироваться от 0 до 1.
  • Правило №2: сумма вероятностей всех возможных исходов всегда равна 1.
  • Правило № 3: P (не A) = 1 - P (A); Это правило объясняет взаимосвязь между вероятностью события и его дополнительным событием. Дополнительное событие - это событие, которое включает в себя все возможные результаты, которых нет в A.
  • Правило №4: Если A и B являются непересекающимися событиями (взаимоисключающими), то P (A или B) = P (A) + P (B); это называется правилом сложения для непересекающихся событий
  • Правило № 5: P (A или B) = P (A) + P (B) - P (A и B); это называется общим правилом сложения.
  • Правило № 6: Если A и B - два независимых события, то P (A и B) = P (A) * P (B); это называется правилом умножения для независимых событий.
  • Правило № 7: условная вероятность события B для данного события A равна P (B | A) = P (A и B) / P (A)
  • Правило № 8: для любых двух событий A и B P (A и B) = P (A) * P (B | A); это называется общим правилом умножения

Методы подсчета

Факториальная формула: n! = nx (n -1) x (n - 2) x… x 2 x 1
Используется, когда количество элементов равно количеству имеющихся мест.
Например. Найдите общее количество способов, которыми 5 человек могут разместиться на 5 свободных местах.
= 5 x 4 x 3 x 2 x 1 = 120

Фундаментальный принцип подсчета (умножение)
Этот метод следует использовать, когда разрешены повторения и на количество способов заполнения открытого места не влияют предыдущие заливки.
Например. Есть 3 вида завтраков, 4 вида обедов и 5 видов десертов. Общее количество комбинаций = 5 x 4 x 3 = 60

Перестановки: P (n, r) = n! / (n − r)!
Этот метод используется, когда замены не разрешены и порядок ранжирования элементов имеет значение.
Например. Код состоит из 4 цифр в определенном порядке, а диапазон цифр - от 0 до 9. Сколько существует перестановок, если одну цифру можно использовать только один раз?
P (n, r) = 10! / (10–4 )! = (10x9x8x7x6x5x4x3x2x1) / (6x5x4x3x2x1) = 5040

Формула комбинаций: C (n, r) = (n!) / [(n − r)! r!]
Используется, когда замены не разрешены и порядок, в котором элементы ранжируются не имеет значения.
Например. Чтобы выиграть в лотерею, вы должны выбрать 5 правильных чисел в любом порядке от 1 до 52. Какое количество возможных комбинаций?
C (n, r) = 52! / (52–5)! 5! = 2 598 960

В: Опишите цепи Маркова?

A: Brilliant дает отличное определение цепей Маркова (здесь):

Марковская цепь - это математическая система, которая испытывает переходы из одного состояния в другое в соответствии с определенными« вероятностными правилами. Определяющей характеристикой цепи Маркова является то, что независимо от того, каким образом процесс достиг своего текущего состояния, возможные будущие состояния фиксируются. Другими словами, вероятность перехода в какое-либо конкретное состояние зависит исключительно от текущего состояния и прошедшего времени ».

Фактическая математика, лежащая в основе цепей Маркова, требует знания линейной алгебры и матриц, поэтому я оставлю несколько ссылок ниже на тот случай, если вы захотите изучить эту тему самостоятельно.

Смотрите больше здесь или здесь.

В: Опишите различные методы регуляризации, такие как регуляризация L1 и L2?

A: Регуляризация как L1, так и L2 - это методы, используемые для уменьшения переобучения обучающих данных. Метод наименьших квадратов сводит к минимуму сумму квадратов остатков, что может привести к низкому смещению, но высокой дисперсии.

Регуляризация L2, также называемая регрессией гребня, минимизирует сумму квадратов остатков плюс лямбда, умноженная на квадрат наклона. Этот дополнительный термин называется штраф за регрессию за гребень. Это увеличивает смещение модели, ухудшая соответствие обучающих данных, но также уменьшает дисперсию.

Если вы возьмете штраф за регрессию гребня и замените его на абсолютное значение наклона, вы получите регрессию Лассо или регуляризацию L1.

L2 менее надежен, но имеет стабильное решение и всегда одно решение. L1 более надежен, но имеет нестабильное решение и, возможно, может иметь несколько решений.

У StatQuest есть потрясающее видео о регрессии Лассо и Риджа здесь.

Вопрос: Основы нейронной сети

О: нейронная сеть - это многослойная модель, вдохновленная человеческим мозгом. Как и нейроны в нашем мозгу, кружки выше представляют собой узел. Синие кружки представляют входной слой, черные кружки представляют скрытые слои, а зеленые кружки представляют выходной слой. Каждый узел в скрытые слои представляют функцию, через которую проходят входные данные, что в конечном итоге приводит к выходу в зеленых кружках. Формальный термин для этих функций называется сигмовидной функцией активации.

Если вам нужен пошаговый пример создания нейронной сети, ознакомьтесь со статьей Виктора Чжоу здесь.

Если вы изучаете видео / аудио, у 3Blue1Brown есть замечательная серия статей о нейронных сетях и глубоком обучении на YouTube здесь.

Спасибо за прочтение!

Если вам нравится моя работа и вы хотите поддержать меня, подпишитесь на мою рассылку здесь, чтобы первыми узнавать о новом и эксклюзивном контенте! :)

Другие статьи по теме