网站首页 > 文章中心 > 其它

go语言蒙特卡洛算法

作者:小编 更新时间:2023-08-16 15:48:25 浏览量:156人看过

蒙特卡洛,时序差分Temporal-Difference Learning(TD)算法

①蒙特卡洛

Monte-Carlo算法:

①将agent放入环境的任意状态

关于G值:

第一步:根据策略使agent做出动作并进入下一动作,直到到达最终状态,需要记录每一个状态的转移,得到奖励r

第二步:从最终状态回溯,一遍一遍计算G值. G 等于上一状态的G值(G')乘以一定的折扣(gamma)再加上r

G值就是从某个状态到最终状态的奖励总和

G就是V的更新目标,关于MC的更新:

两种方法:

TD是对MC的改进,即agent走到第N步就可以开始回溯更新.

蒙特卡洛算法是什么?

蒙特-卡罗方法(Monte Carlo method),也称统计模拟方法,是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法.是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法.

与它对应的是确定性算法.蒙特-卡罗方法在金融工程学,宏观经济学,计算物理学(如粒子输运计算、量子热力学计算、空气动力学计算)等领域应用广泛.

使用蒙特-卡罗方法步骤:

①..使用随机数发生器产生一个随机的分子构型.

蒙特卡洛树是什么算法

蒙特卡罗树搜索(MCTS)会逐渐的建立一颗不对称的树.可以分为四步并反复迭代:

(1)选择

对于此时存在于内存中的局面c,添加一个它的子节点.这个子节点由局面c执行招式m而得到,也就是T.

从局面T出发,双方开始随机的落子.最终得到一个结果(win/lost),以此更新T节点的胜利率.

在T模拟结束之后,它的父节点c以及其所有的祖先节点依次更新胜利率.一个节点的胜利率为这个节点所有的子节点的平均胜利率.并从T开始,一直反向传播到根节点R,所以呢路径上所有的节点的胜利率都会被更新.

蒙特卡洛算法和拉斯维加斯算法

第一段:定义:

特卡罗是一类随机方法的统称.这类方法的特点是,可以在随机采样上计算得到近似结果,随着采样的增多,得到的结果是正确结果的概率逐渐加大,但在(放弃随机采样,而采用类似全采样这样的确定性方法)获得真正的结果之前,无法知道目前得到的结果是不是真正的结果.

拉斯维加斯方法是另一类随机方法的统称.这类方法的特点是,随着采样次数的增多,得到的正确结果的概率逐渐加大,如果随机采样过程中已经找到了正确结果,该方法可以判别并报告,但在但在放弃随机采样,而采用类似全采样这样的确定性方法之前,不保证能找到任何结果(包括近似结果)

第二段:场景举例

假如筐里有100个苹果,让我每次闭眼拿1个,挑出最大的.于是我随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个......我每拿一次,留下的苹果都至少不比上次的小.拿的次数越多,挑出的苹果就越大,但我除非拿100次,否则无法肯定挑出了最大的.这个挑苹果的算法,就属于蒙特卡罗算法——尽量找好的,但不保证是最好的.

而拉斯维加斯算法,则是另一种情况.假如有一把锁,给我100把钥匙,只有1把是对的.于是我每次随机拿1把钥匙去试,打不开就再换1把.我试的次数越多,打开(最优解)的机会就越大,但在打开之前,那些错的钥匙都是没有用的.这个试钥匙的算法,就是拉斯维加斯的——尽量找最好的,但不保证能找到.

第三段:结论

蒙特卡罗算法?

:采样越多,越近似最优解;

拉斯维加斯算法:采样越多,越有机会找到最优解;

这两类随机算法之间的选择,往往受到问题的局限.如果问题要求在有限采样内,必须给出一个解,但不要求是最优解,那就要用蒙特卡罗算法.反之,如果问题要求必须给出最优解,但对采样没有限制,那就要用拉斯维加斯算法.

你也可以算出圆周率的 - 随机落点算法 - 致即将到来的圆周率日

我们知道,传说中祖冲之计算圆周率用的是"割圆术"的改进方法,可惜我们大多数现代人的脑子已经无法理解这种方法了.使用其他的复杂公式也有,但人的脑子更不容易理解,但有一个异想天开的方法你知道吗?任何人可以简单地去计算出Pi呢(下面我们都用Pi来代替圆周率n吧,好写好认,:p).

这个方法源自概率论的基础,叫做蒙特卡洛法,形象一点的话我们也可以把它称为随机落点法,我们先说说它的原理:

我们先看看下面这张图

这样,就巧妙地把计算Pi值的问题转换成计算符合上面图中条件的圆形与正方形的面积之比的计算了.

这时候,概率论可以出场发挥作用了,以及有了计算机之后,我们有的"随机数"这个武器!

假设我们随机在正方形范围内画一个点,那么这个点有可能落在圆形之中,也有可能落在圆形之外;然后我们重复这个动作,从概率论上来说,如果进行无限多次,那么落在圆形中的点的个数与所有已经画的点的个数之比,就应该是圆形的面积和正方形的面积之比.看看下面这张图是不是就好理解了?

想想当里面的点数足够多的时候,就可以覆盖满整个原型和正方形.俗话说:"以点带面",这时候就可以理解成无数多的点组成了圆形和正方形的面积.

好了,那么下面我们看看用计算机程序来实现这种方法计算圆周率的效果吧!我们这次选用Go语言(Golang)来实现这个算法,因为Go语言相对速度较快(比Python和Java等解释型语言要快得多),编写起来又比C语言更容易看懂.

这段程序的运行结果是:

神奇吧,为什么说人也可以算出来呢?假想在地上用粉笔画一个那样的正方形和圆形,然后我们随性地往里扔沙包吧!很童真的画面吧?

蒙特卡洛方法的详细过程

在控制方面,蒙特卡洛方法就是通过大量随机过程,类似于穷举法,验证控制系统的性能,主要是检验系统的鲁棒性,比方说:PID控制器参数已经整定完毕,但是被控对象的参数在某个范围内发生变化,这时,将系统的输出,比方说调整时间和超调亮在坐标图上以点的形式画出,那么如果进行100次试验,就会在图上形成一百个点,如果这些点排列相对集中,那么系统的鲁棒性就相对较好,并且,如果这些点离坐标原点的距离都很近,那么,这个PID控制器的调节时间和超调量性能也就比较好,这是我在控制领域见到的一种蒙特卡洛方法的运用,在经济领域,蒙特卡洛也有运用,可以简化过去的算法,将积分变为直接的随机试验,这样可以降低系统的运行时间,提高效率.

以上就是土嘎嘎小编为大家整理的go语言蒙特卡洛算法相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦!!

版权声明:倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本站《原创》内容,违者将追究其法律责任。本站文章内容,部分图片来源于网络,如有侵权,请联系我们修改或者删除处理。

编辑推荐

热门文章