Публикации по теме 'reinforcement-learning'


Начало работы с обучением с подкреплением - крестики-нолики
Реализация простой модели обучения с подкреплением с двумя агентами Представьте, что вы пытаетесь максимизировать свою повседневную продуктивность, выбирая набор занятий (учеба, переедание, мечтания). Здесь вы - агент , пытающийся максимизировать вознаграждение (т. Е. Продуктивность), выбирая подмножество вероятных действий. Каждое действие, которое вы выберете, приведет вас в новое состояние (например, если вы выберете разгул, а не тренировку своей модели RL, это повлияет на ваше..

Введение в Q-Learning
Представьте себя в поисках сокровищ в лабиринте. Игра выглядит следующим образом: Вы начинаете с заданной позиции, исходного состояния. Из любого состояния вы можете идти влево, вправо, вверх или вниз или оставаться в том же месте, если вы не пересекаете территорию лабиринта. Каждое действие переводит вас в ячейку сетки (другое состояние). Теперь в одном из состояний (состояние цели) есть сундук с сокровищами. Кроме того, в лабиринте есть яма со змеями в определенных положениях /..

С чего все началось: увлекательное руководство по основам машинного обучения и искусственного интеллекта
Давным-давно, в мире, исцеляющемся от последствий войны (1939–1945), некоторые люди были очарованы темами патриотизма, героизма и самопожертвования, в то время как другие были поражены блеском и гламуром Золотого века Голливуда с участием актеров. как Хамфри Богарт, Кэтрин Хепберн и Мэрилин Монро. Среди всего этого были и те, кто был заинтригован идеей обучения машин обучению и измерению их интеллекта. В этом мире жил блестящий британский математик и ученый по имени Алан Тьюринг. В 1950..

Торговля акциями с использованием машинного обучения: полное руководство
Вместо того, чтобы разрабатывать новые подходы, мы применим наше понимание глубоких Q-сетей к миру финансового трейдинга для решения реальных проблем. Хотя я не могу гарантировать, что код сделает вас миллионером на фондовом рынке или на Forex, мои намерения гораздо скромнее — продемонстрировать, как обучение с подкреплением можно расширить за пределы игр Atari и использовать в практических приложениях. С помощью OpenAI Gym мы создадим индивидуальную среду фондового рынка для максимизации..

Грубая история обучения с подкреплением (RL)
Я не историк, ни в коей мере не напрягаю воображение; хотя, я всегда преуспевал в истории в школе. История обучения с подкреплением (RL) на самом деле начинается не в информатике, а в области психологии! Вы это знали? Если нет, читайте дальше, чтобы узнать грубую, но приблизительно оптимальную (шутка инсайдеров RL) траекторию истории RL.

Вопросы по теме 'reinforcement-learning'

Ошибка: `обратные вызовы` должны быть вызываемым методом, который возвращает подкласс DefaultCallbacks, полученный ‹class 'ray.rllib.agents.callbacks.DefaultCallbacks'›
когда я запускаю некоторые коды (DDPG - Градиент глубокой детерминированной политики), возникает эта ошибка: ValueError: callbacks должен быть вызываемым методом, который возвращает подкласс DefaultCallbacks, получил ‹class...
275 просмотров
schedule 24.11.2023