Обновлено 11.12.2019

Если вы использовали или планируете использовать AWS / Azure / GCloud для машинного обучения, вы знаете, насколько дорого обходится время графического процессора. А включение и выключение машин - серьезное нарушение рабочего процесса. Есть способ получше. Просто создайте свой собственный компьютер для глубокого обучения. Это в 10 раз дешевле и проще в использовании. Рассмотрим подробнее ниже.

Это часть 1 из 3 серии статей о компьютерах с глубоким обучением. Часть 2 - Как построить идеальный, а Часть 3 - Производительность и тесты. Смотрите новые фото и обновления: Следите за мной в Medium, Twitter и Instagram! Оставляйте мысли и вопросы в комментариях ниже.

Создание расширяемого компьютера для глубокого обучения всего с 1 графическим процессором высшего уровня стоит 3 тыс. долларов

Машина, которую я построил, стоит 3 тысячи долларов и имеет детали, показанные ниже. Для начала есть один графический процессор 1080 Ti (вы можете так же легко использовать новый 2080 Ti за 600 долларов больше или Titan RTX за 1800 долларов больше - просто будьте осторожны, чтобы получить один с дизайном с вентилятором), 12-ядерный процессор, 64 ГБ ОЗУ. и SSD M.2 емкостью 1 ТБ. Вы можете легко добавить еще три графических процессора, всего четыре. 11/2019: Память теперь намного дешевле, и процессоры TR 2-го и 3-го поколения легко заменяют первый 1920X.

Строительство в 10 раз дешевле, чем аренда на AWS / EC2, и столь же производительно.

Если предположить, что стоимость вашего компьютера с 1 графическим процессором для глубокого обучения снизится до 0 долларов за 3 года (очень консервативно), приведенная ниже диаграмма показывает, что если вы используете его до 1 года, он будет в 10 раз дешевле, включая затраты на электроэнергию. Amazon снижает цены, если у вас многолетний контракт, поэтому преимущество в 4–6 раз для многолетних контрактов. Если вы тратите десятки тысяч долларов на многолетний контракт, вам следует серьезно подумать о строительстве с затратами в 4–6 раз меньше. Математика становится более благоприятной для версии с 4 GPU и в 21 раз дешевле в течение 1 года!

Есть некоторые недостатки, такие как более низкая скорость загрузки на ваш компьютер, потому что он не на магистрали, статический IP-адрес необходим для доступа к нему вдали от вашего дома, вы можете обновить графические процессоры через пару лет, но экономия средств настолько смешно, что оно того стоит.

Если вы думаете об использовании 2080 Ti для своего компьютера с глубоким обучением, это будет на 600 долларов дороже и все равно в 4–9 раз дешевле для машины с 1 графическим процессором. Titan RTX стоит на 1800 долларов больше, но он в 2,3 раза быстрее с более чем вдвое большим объемом памяти, чем 1080 Ti - хотя вы можете установить только один Titan RTX, потому что они не поставляются с нагнетательными вентиляторами. Моя текущая установка имеет одну Titan RTX в нижнем слоте и 3 другие карты вверху.

Машины с облачным графическим процессором стоят 3 доллара в час, и вам придется платить, даже если вы не используете машину.

Причина такого резкого расхождения в стоимости заключается в том, что Amazon Web Services EC2 (или Google Cloud, или Microsoft Azure) стоит дорого для графических процессоров - 3 доллара в час или около 2100 долларов в месяц. В Стэнфорде я использовал его для своего проекта семантической сегментации, и мой счет составил 1000 долларов. Я также попробовал Google Cloud для проекта, и мой счет составил 1800 долларов. Я тщательно отслеживаю использование и выключаю машины, когда они не используются - большая боль в заднице!

Даже когда вы выключаете свою машину, вам все равно придется платить за хранилище для машины из расчета 0,10 доллара за гигабайт в месяц, поэтому мне взяли сотню долларов в месяц только за то, чтобы хранить мои данные.

Вы окупитесь всего за несколько месяцев

Создаваемый вами компьютер для машинного обучения (1 кВт / ч) за 3 тысячи долларов на 1 GPU выйдет на уровень окупаемости всего за 2 месяца, если вы будете использовать его регулярно. Это не говоря уже о том, что у вас все еще есть свой компьютер, и он не сильно обесценился за 2 месяца, так что сборка должна быть легкой задачей. Опять же, математика становится более благоприятной для версии с четырьмя графическими процессорами (2 кВт / ч), поскольку вы окупитесь менее чем за 1 месяц. (Предполагается, что стоимость электроэнергии составляет 0,20 доллара США / кВтч)

Производительность вашего графического процессора на уровне AWS

Ваш Nvidia 1080 Ti за 700 долларов работает на 90% скорости по сравнению с облачным графическим процессором Nvidia V100 (который использует технологию Volta следующего поколения). Это связано с тем, что облачные графические процессоры страдают от медленного ввода-вывода между экземпляром и графическим процессором, поэтому, хотя V100 может быть в 1,5–3 раза быстрее в теории, на практике ввод-вывод замедляет его. Поскольку вы используете твердотельный накопитель M.2, ввод-вывод на вашем компьютере работает очень быстро.

Вы получаете больше памяти с V100: 16 Гбайт против 11 Гбайт, но если вы просто уменьшите размер пакетов, а ваши модели более эффективны, у вас все будет в порядке с 11 Гбайт.

По сравнению с арендой Nvidia K80 последнего поколения онлайн (дешевле 1 доллар в час), ваш 1080 Ti вышибает его из воды, в 4 раза быстрее тренируясь. Я подтвердил, что это в 4 раза быстрее в моем собственном тесте здесь. K80 составляет 12 ГБ на графический процессор, что является небольшим преимуществом по сравнению с 11 ГБ 1080 Ti.

Новые карты RTX от Nvidia еще быстрее: 2080 Ti в 1,4 раза быстрее, а Titan RTX в 1,6 раза быстрее и в 2 раза больше памяти, чем 1080 Ti. Если вы тренируетесь с половинной точностью, карты RTX в 1,6 и 2,2 раза быстрее соответственно. Эти карты RTX легко превосходят облако.

AWS стоит дорого, потому что Amazon вынужден использовать гораздо более дорогой графический процессор.

Причина, по которой центры обработки данных дороги: они не используют карты 1080 Ti / 2080 Ti / Titan. Nvidia запрещает использование карт GeForce и Titan в центрах обработки данных. Таким образом, Amazon и другим провайдерам приходится использовать графические процессоры для центра обработки данных стоимостью 8 500 долларов США, и они должны брать большую плату за ее аренду. Это сегментация клиентов в лучшем виде!

Строить лучше, чем покупать

Вам также необходимо решить, покупать ли компьютер для машинного обучения или построить свой собственный. Хотя для меня совершенно невообразимо, что энтузиаст предпочел бы покупать, а не строить, вы будете счастливы узнать, что строить это на 1000 долларов дешевле. Покупка предварительно собранной версии дает некоторые преимущества, поскольку она поставляется с хорошей трехлетней гарантией, поддержкой и предустановленным стеком глубокого обучения. У Exxact есть хорошие варианты: 2 x 2080Ti за 5899 долларов.

Покупать его не обязательно. Видите ли, самая сложная часть сборки - это найти правильные части для машинного обучения и убедиться, что все они работают вместе, что я для вас сделал! Физически собрать компьютер несложно, новичок может сделать это менее чем за 6 часов, профессионал - менее чем за 1 час.

Строительство позволяет вам воспользоваться сумасшедшим падением цен

Когда каждый год выходит оборудование нового поколения, количество оборудования последнего поколения постепенно снижается. Например, когда AMD выпустила процессоры Threadripper 2, она снизила цену процессора 1920X с 800 до 400 долларов. А в 2019 году вы можете купить 1920X за 200 долларов! 2920x сейчас стоит 400 долларов. Вы можете сразу же воспользоваться этими выпадами и держать $$$ в кармане.

Сборка позволяет вам выбирать детали, чтобы ваш компьютер мог расширяться до 4-х графических процессоров и оптимизировать его другими способами.

Я просмотрел некоторые из готовых сборок, и некоторые из них не могут работать с 4-мя графическими процессорами или не оптимизированы для производительности. Некоторые примеры проблем: у ЦП нет более 36 линий PCIe, к материнской плате физически не подключено 4 GPUS, блок питания менее 1400 Вт, ЦП менее 8 ядер. Я расскажу о нюансах подбора деталей в следующем посте, а вот видео, как я собираю компьютер.

Вы также можете убедиться, что эстетика дизайна потрясающая (я лично нахожу некоторые из обычных компьютерных корпусов ужасно уродливыми), профиль шума низкий (некоторые блоки питания с золотым рейтингом очень громкие), а детали имеют смысл для машинного обучения (SATA3 SSD - 600 МБ / с, а твердотельный накопитель M.2 PCIe - в 5 раз быстрее (3,4 ГБ / с).

Как начать сборку

Перейдите к следующему посту: Как построить идеальный компьютер для глубокого обучения и сэкономить тысячи долларов, чтобы узнать, как выбрать компоненты и построить свою машину, с помощью моего общедоступного списка запчастей с ценами (см. Страницу с обновленной сборкой в ​​7 / 2019). Вот видео сборки.

Смотрите новые фото и обновления: Следите за мной в Medium и Twitter!

часто задаваемые вопросы

Почему расширяемость важна для компьютера с глубоким обучением?
Если вы не знаете, сколько мощности графического процессора вам понадобится, лучше всего создать компьютер для глубокого обучения с 1 графическим процессором. и добавляйте больше графических процессоров по мере продвижения.

Вы поможете мне создать его?
С радостью ответим на вопросы в комментариях или по электронной почте. Я также веду www.HomebrewAIClub.com, некоторые из наших членов могут быть заинтересованы в помощи.

Какие модели я могу обучать?
Вы можете обучать любую модель, если у вас есть данные. Графические процессоры наиболее полезны для глубоких нейронных сетей, таких как CNN, RNN, LSTM, GAN. Некоторые примеры с кодом и наборами данных перечислены на моем сайте thisisjeffchen.com.

Улучшение зрения и фотографий сейчас действительно хорошее, что делает новый iPhone 11 потрясающим.

Как мой компьютер сравнивается с персональным суперкомпьютером Nvidia с искусственным интеллектом за 49 000 долларов?
Персональный суперкомпьютер с искусственным интеллектом от Nvidia использует 4 графических процессора (Tesla V100), 20-ядерный процессор и 128 ГБ оперативной памяти. У меня его нет, поэтому я не знаю наверняка, но последние тесты показывают улучшение скорости на 25–80%. Собственный тест Nvidia показывает в 4 раза быстрее, но вы можете поспорить, что его тест использует все уникальные преимущества V100, такие как половинная точность, и не будет реализован на практике. Помните, что ваша машина с 4 графическими процессорами стоит всего 4,5 тысячи долларов, так что смейтесь, идя в банк.

Как я могу изучить искусственный интеллект?
Стэнфорд раздает большую часть своей учебной программы по компьютерной науке. Так что смотрите туда.

Во время исследования сборки мне очень помогли другие статьи. Если вам интересно читать дальше, я перечислил их здесь: Сообщение Майкла Рейбеля Боэсена, Сообщение Гоккульната TS, сообщение Юсаку Сако, блог Тима Деттмера, сообщение Винсента Чу, Пьюджет Системные PCIe 16x vs. 8x post, Анализ аренды и покупки QuantStart, Статья Tom's Hardware.

Спасибо моим друзьям Эвану Дарк, Нику Го, Джеймсу Чжану, Хайле Силл и Имоджен Грённингер за то, что они прочитали черновики этого документа.