四进制造物主_第一百一十一章炼丹

而炼丹是要时间的，七七四十九天之后，如果这丹药不能用，那么这时间就被完全浪费掉了。

所以，他跟着那帮专业炼丹的人开了大半天的会，讨论了怎样分配有限的炼丹炉。

虽然他听不懂那些高深的特征增广、小样本学习、时间序列预测、给数据驱动模型添加物理约束等理论。但作为一个通识课上学了9个学时，就被要求一个暑假里手撸一个图像识别算法的高材生，他有他自己的想法。

他要用强化学习。

“对于强化学习而言，我们的样本太少了。”哪里都要掺一脚的郑K一如既往地苦着脸说。

“少就少呗，又不是不能用。再说了，我们不是正在用老鼠造模吗？造完了样本就多了。”卢赫不以为然。

“具体思路呢？”郑K忧心忡忡地问。

“跟你们一样。特征是某时间点的基因组，标签是未来的突变位点，然后让单碱基编辑的载着相应向导RNA的CRISPR系统在那里等着，一旦突变了，就立刻给修复。把病扼杀在摇篮里。

非要说有什么不同，第一，我这是黑箱，只能发挥作用，却不知道怎么发挥作用；第二，我这基本算是端到端的、全自动的，人工干预只在定期查基因组和设计CRISPR系统，这部分工作未来也有希望自动化。

功过相抵，中规中矩。”

散会后，卢赫坐到电脑跟前，摩拳擦掌。

虽然不是专业人士，但一直跟进这方面进展的他，始终觉得那些在数年间如雨后春笋般涌现出来的大几十种方法里，强化学习最有前途。

因为这是最接近人类本能学习方式的一种。

它的原理也很简单，就是让懵懂的小人工智障在环境里学习，它的每个动作都对应一个奖励或者惩罚。

就像还在蹒跚学步的小时候的我们一样，我们看到了火，好奇心趋势我们走近，我们感受到了温暖，奖励加一；手贱去摸了一下被烫到，惩罚加一。

于是，聪明的我们就会知道，火很暖和但不能靠得太近。

只不过与人不同得是，小人工智障无法一次就学会，而是需要大量数据去支撑它在环境里反复探索，直到把自己训练成人工智能。

如果用玩超级玛丽来打比方，小人工智障在游戏的第一帧获得初始状态；

在此基础上，我们可以逼迫它往前走一步，不论前方是不是有蘑菇怪。这样它会主动做出第一个行动。

这时，它所处的环境发生了变化，获得了新的状态；

同时，根据它死没死，环境会给它一个奖励或惩罚。