BnW — l29ah: Нейросеть с состоянием и мотивацией:…

Нейросеть с состоянием и мотивацией: https://repositorium.uni-osnabrueck.de/bitstream/urn:nbn:de:gbv:700-2008112111/2/E-Diss839_thesis.pdf Бля потратил час и не понял как это работает ваще, не говоря уже об имплементации :(

Рекомендовали: @o01eg

#LE69D7 / @l29ah / 3586 дней назад

многабукаф

#LE69D7/TGE / @ruki / 3586 дней назад

>Всего час

#LE69D7/U00 / @engineer / 3581 день назад

Ты в дебри сразу залезаешь, но впринципе понятно что делает автоор по абстракту >As a first step towards reinforcement learning, it is shown that RNN can well map and reconstruct (partially observable) Markov decision processes. In doing so, the resulting inner state of the network can be used as a basis for standard RL algorithms. This so-called hybrid RNN approach is rather simple but showed good results for a couple of applications. и по этой иллюстрации http://i.imgur.com/ywFbOqP.png RNN просто тренируют на предсказание будущего входа по нынешнему, значит она вынуждена в своём состоянии как-то кодировать важные для динамики внешнего мира переменные, уже это внутренное закодированное состояние используется как вход для обычного алгоритма обучения с подкреплением и дальше экспериментально показывается что тип работает. Перед этим он там доказывал наворочанные какие-то теоремы об универсальной аппроксимации, ну тип phd значит надо теоремы. После этого какая-то муть с привлечением теории оптимального управления, не заслуживает внимания по-моему. Чтобы лучше понимать такие вещи тебе надо почитать про обычное Q learning и про feature extraction, может про автоэнкодеры.

#LE69D7/G5J / @engineer / 3581 день назад

@engineer Вообще RNN в RL основном применяют с переборными методами типа генетических алгоритмов для обучения, конечно к этого подхода имеются недостатки (не online, много повторений), но работает хорошо https://scholar.google.ru/scholar?hl=ru&q=neuroevolution+reinforcement+learning&btnG=

#LE69D7/FQF / @engineer --> #LE69D7/G5J / 3581 день назад

@engineer А чо online норм с состоянием?

#LE69D7/GT9 / @l29ah --> #LE69D7/FQF / 3580 дней назад

@l29ah Лучшее что есть это deep q network, но оно без состояния и его тоже надо тренировать с кучей повторений. Пока что не было успешных применений RNN к RL которые бы побили какой-то бенчмарк (ну, если не считать эволюционных методов). Вообще про виды RL и разницу между ontogenetic и phylogenetic learning вот тут есть http://people.idsia.ch/~juergen/ki2009.pdf 2 страницы всего

#LE69D7/QY8 / @engineer --> #LE69D7/GT9 / 3580 дней назад

@engineer Наверное мне нужно таки осилить rl rnn целиком, а потом думать о том, как его можно расширить костылями для прокачки онлайновости наподобие человечьей (типа как человек может ниибацо онлайново делать только что-то охуенно простое, при этом планомерно заучивая это как часть сложного поведения).

#LE69D7/Z9R / @l29ah --> #LE69D7/QY8 / 3580 дней назад

@l29ah Удачи, на этом лучшие умы человечества работают. Я бы исходил из экспериментов. Рекомендую покачать сборники статей From Animals to Animats и отобрать самые интересные, прочитать, попытаться что-то воспроизвести.

#LE69D7/ZRQ / @engineer --> #LE69D7/Z9R / 3580 дней назад

BnW для ведрофона BnW на Реформале Викивач Котятки