03 июня 2013

Предложены новые высокоэффективные алгоритмы машинного обучения

Обучение с подкреплением (reinforcement learning) представляет собой способ машинного обучения, в ходе которого испытуемая система обучается, взаимодействуя с некоторой средой. Классическими приложениями данной технологии являются движение роботов, сетевое администрирование, автоматизированное наблюдение.
На ежегодной конференции Association for Uncertainty in Artificial Intelligence, которая пройдет 11-14 июля в Бельвью (США) исследователи Лаборатории информационных и принимающих решения систем (LIDS) и Лаборатории компьютерных наук и искусственного интеллекта (CSAI) Массачусетского технологического института представят новый алгоритм обучения с подкреплением, который позволяет для большого класса задач находить решение намного эффективнее, чем раньше.
На первом этапе экспериментов агенту (например, роботу, который должен научиться перемещаться в пространстве) дается надежная информация о состоянии системы в настоящий момент времени (скажем, расположение комнаты), но часть важной информации (что находится в комнате) отсутствует. Эксперимент предусматривает функцию вознаграждения, количественную меру, характеризующую прогресс агента в выполнении задания (она может быть и положительной, и отрицательной). Цель эксперимента — научить агента такому набору правил, которые максимизируют его функцию вознаграждения независимо от начального состояния системы. Предложенный исследователями алгоритм сначала строит структуры данных в виде деревьев, которые представляют разные сочетания возможных характеристик. А затем, продвигаясь по дереву, рассчитывает, какие комбинации определяют возрастание или убывание функции вознаграждения.
Исследователями также создан программный фреймворк RLPy, который значительно упрощает построение и проведение экспериментов, связанных с изучением проблем обучения с подкреплением. Это приложение также
проводит оценку производительности новых алгоритмов на разных типах задач. RLPy содержит ряд стандартных модулей для разных стандартных алгоритмов машинного обучения, разных задач, типов агентов, техник моделирования сред. RLPy и его исходные коды были выложены в интернет в апреле 2013 г.

Комментариев нет:

Отправить комментарий

Спасибо за ваш комментарий.
Он будет опубликован после проверки.