Прорывной результат же, а почти не обсуждается.
http://arxiv.org/pdf/1312.5602v1.pdf
Демонстрируется алгоритм для решения задачи обучения с подкреплением (на основе Q-обучения, нейросети для оценки функции награды и стохастического градиентного спуска для поиска её параметров) который способен учиться играть в 7 игр на Atari, в некоторые из них - лучше человека.
Интерфейс игрового бенчмарка таков: на каждом шаге алгоритм может выбрать действие из конечного набора (аналогично нажатию кнопки на геймпаде) и получает на вход массив RGB пикселей размером 210x160 и число - счёт в игре.
Алгоритм учится взаимодействовать с игрой как чтобы максимизировать счёт, т.е. учится успешным стратегиям игры (и заодно предсказанию будущей награды в каждый момент времени). Алгоритм неизменен, но после тренировки учится играть в любую из 7 игр.
Впечатляет что алгоритм принимает на вход векторы очень высокой (~800 - входные картинки сабсэмплятся и кропаются до 84х84) размерности и учится извлекать из них представление игры (среды в которой работает алгоритм) низкой размерности (содержащее только велечины которые влияют на награду), т.е. "понимает" игру.
Также впечатляет график 3 на странице 7: алгоритм "понимает" что новый враг это возможность получить больший счёт, выпускает снаряд и чем ближе снаряд к врагу тем выше ожидаемая награда.
Алгоритм разработан в DeepMind Technologies, конторе которую Google купило недавно за 400M$ http://www.digitaltrends.com/computing/google-deepmind-artificial-intelligence/