Интересная страница, посвященная проекту энтузиаста, занимающегося reinforcement learning применительно к проблеме посадки лунохода. Данный вид обучения нейросети один из самых интересных. А интересен он тем, что не требует обучающей выборки. Т.е. мы задаем критерий, заставляем нейросеть выполнять действия, удовлетворяя этот критерий и модифицируем веса в соответствии с некоторой функцией вознаграждения, которая основывается на заданном критерии. Т.е. если у нас задача аккуратно посадить луноход, при этом израсходовав минимум топлива, то соответственно это двухкритериальная проблема - 1й критерий минимальное ускорение при соприкосновении лунохода с землей и второй - минимальный расход топлива. И вот нейросеть в течение многих итераций пытается посадить луноход методом проб и ошибок.
Помнится я еще давно хотел создать робота, целевая функция которого была бы завязана не на среднеквадратическое отклонение реальных от требуемых выходов (как в классике), а на сигналы внешнего мира. Т.е., например, освещенность является целевой функцией. Тогда обучение должно проходить таким образом, чтобы робот двигался на свет. Проблема в том, что классические методы обучения здесь не подходят, т.к. нельзя посчитать (можно, но сложно) как будет зависеть целевая функция от изменения весов нейросети, следовательно нельзя вычислить требуемые поправки в весовые коэффициенты для понижения значения целевой функции. Вот тут то и заканчивается математика и начинается шаманство (эвристика).
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий