Тут не исправить уже ничего, Господь, жги! Войти !bnw Сегодня Клубы
Привет, TbI — HRWKA! 1239.0 пользователей не могут ошибаться!
?6941
прекрасное6443
говно5904
говнорашка5512
хуита4710
anime3065
linux2651
music2633
bnw2601
рашка2565
log2354
ололо2166
дунч1821
pic1815
сталирасты1491
украина1439
быдло1437
bnw_ppl1417
дыбр1238
гімно1158

Формальная теория красоты (Шмидтхубер, http://www.idsia.ch/~juergen/creativity.html )
Пусть O(t) означает субъективного наблюдателя О в момент времени t.
Пусть H(t) означает историю предыдущих действий, чувств и наград наблюдателя до момента времени t.
О обладает каким-то адаптивным методом сжатия H(t) или её частей.
Мы обозначим субъективную мгновенную простоту или сжимаемость или регулярность или красоту B(D,O(t)) для любых данных D (но не их интересность или эстетическую ценность - смотрите ниже) как отрицательное число битов необходимое для кодирования D (видимо имеется разность длин D и его сжатого представления, прим. перев.), при данном ограниченном априорном знании наблюдателя и при его ограниченном методе сжатия.
Мы определим зависимую от времени субъективную интересность или новизну или удивлённость или эстетическую награду или эстетическую ценность или внутреннюю радость или радость как функцию I(D,O(t)) от данных D и наблюдателя O в дискретный момент времени t>0 как I(D,O(t)) = B(D,O(t)) - B(D,O(t-1)).
Эта величина описывает изменение красоты во времени, т.е. является первой производной субъективной простоты или красоты.
Когда обучающийся агент улучшает свой алгоритм сжатия, данные которые ранее были для него случайными становятся субъективно более упорядоченными и красивыми, требуя всё меньше и меньше битов для того чтобы их закодировать.
Пока этот процесс не закончился данные остаются интересными, но со временем они станут скучными несмотря на то что они останутся красивыми.
В момент времени t пусть r_i(t) = I(H(t),O(t)) обозначает мгновенную функцию веселья, радости или внутренней награды за улучшение сжатия путём открытия новых закономерностей где-то в H(t), истории действий и ощущений до момента времени t.
Пусть r_e(t) означает внешнюю награду в текущий момент времени, а функция r(t) = g(r_i(t),r_e(t)) - полную награду в данный момент времени, где g это функция которая взвешивает (определяет вклад) внутренней и внешней награды, например простая сумма: g(a,b) = a+b.
Целью агента во время t_0 является максимизация E[∑(t=t0,T,r(t))] где E это оператор математического ожидания, а Т - время смерти. (т.е. максимизация ожидаемой суммарной награды на промежутке времени от t0 до T).

#1UAFTA (3+1) / @engineer / 4126 дней назад
ipv6 ready BnW для ведрофона BnW на Реформале Викивач Котятки

Цоперайт © 2010-2016 @stiletto.