Обучение с подкреплением (reinforcement learning) представляет собой способ машинного обучения, в ходе которого испытуемая система обучается, взаимодействуя с некоторой средой. Классическими приложениями данной технологии являются движение роботов, сетевое администрирование, автоматизированное наблюдение.
На ежегодной конференции Association for Uncertainty in Artificial Intelligence, которая пройдет 11-14 июля в Бельвью (США) исследователи Лаборатории информационных и принимающих решения систем (LIDS) и Лаборатории компьютерных наук и искусственного интеллекта (CSAI) Массачусетского технологического института представят новый алгоритм обучения с подкреплением, который позволяет для большого класса задач находить решение намного эффективнее, чем раньше.
На первом этапе экспериментов агенту (например, роботу, который должен научиться перемещаться в пространстве) дается надежная информация о состоянии системы в настоящий момент времени (скажем, расположение комнаты), но часть важной информации (что находится в комнате) отсутствует. Эксперимент предусматривает функцию вознаграждения, количественную меру, характеризующую прогресс агента в выполнении задания (она может быть и положительной, и отрицательной). Цель эксперимента — научить агента такому набору правил, которые максимизируют его функцию вознаграждения независимо от начального состояния системы. Предложенный исследователями алгоритм сначала строит структуры данных в виде деревьев, которые представляют разные сочетания возможных характеристик. А затем, продвигаясь по дереву, рассчитывает, какие комбинации определяют возрастание или убывание функции вознаграждения.
Исследователями также создан программный фреймворк RLPy, который значительно упрощает построение и проведение экспериментов, связанных с изучением проблем обучения с подкреплением. Это приложение также