Image from unsplash.com by Ferdinand Stöhr
前文我们讲了如何用Q-learning 和 SARSA 玩推小车上山的游戏,这篇文章我们探讨一下如何完成Carpole平衡杆的游戏。
同样的,为了方便与读者交流,所有的代码都放在了这里:
https://github.com/zht007/tensorflow-practice
1. 环境分析关于cart...
image source from unsplash.com by Daniel Cheung
之前我们介绍了Q-learning和SASAR算法的理论,这篇文章就理论结合实际用Q-learning 和SASAR算法指导智能体,完成悬崖探宝任务。
同样的,为了方便与读者交流,所有的代码都放在了这里:
https://github.com/zht007/tensorflow-practice...
image source from unsplash by Stijin te Strake
之前的文章介绍了用动态规划(DP: Dynamic Programming)求解最优MDP的理论。DP求解最优MPD有两个方法,一是策略迭代(Policy Iteration)**,另一个就是值迭代(Value Iteration)**。本篇文章就用Python编程实践这个理论。
同样的,为了方...
image source by Samuel Zeller from unsplash.com
Tensorflow中有一大堆cross_entropy损失函数用于处理分类问题,初学者往往会一脸懵逼,不知道如何选择。
tf.losses.softmax_cross_entropy
tf.losses.sparse_softmax_cross_entropy
tf.losses.sigmo...