M系镜像 - （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

强化学习源于心理学的行为主义，就是通过环境的给予惩罚和奖励，机器人可以学到优化策略以获得最大化的预期利益。可以应用在游戏领域、自动驾驶等。AlphaGo就算是深度强化学习。

诶强化学习和meta learning也有结合。我最近也在做meta RL. 刚刚做了一个MAML 在强化学习上的应用的project. 感觉可以交流下？😂

在这个论坛讨论学术感觉怪怪的…

favorite_bordermore_horiz

Sh

shizizhanzheng2020-02-13 23:56

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

superhlyb：↑
shizizhanzheng：↑

我是说你妹，最开始好好的一个s，怎么感觉往m发展越来越过头了2333所以说女性应该天生就有m的成分隐藏着吧
我觉得和性别没关系，就我妹自己这样而已，我现在算是看透了，狗屁抖S，她骨子里就是个sao货...抖S抖M都是实际上性瘾患者的外在表现形式罢了

lz啊，话说我看了一个朝凪的本子貌似有点理解你说的这个了，按理说你妹在遇到你之前应该都没有表现出过这两个方面的吧？遇到你了表现出了抖s的一面，实际上抖s和抖m都是释放自己，那么抖m的一面又来源于何方呢？

favorite_bordermore_horiz

电工

电工的脑残粉2020-02-14 00:21

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

superhlyb：↑
电工的脑残粉：↑

我，我居然被楼主回复了。
非常羡慕楼主能和喜欢的人玩的这么硬核(不然不是喜欢的人的话应该叫淫乱？)。
我一直以为你们都是广东或者浙江之类地方，没想到都是北方。啊对了，我才意识到闺蜜应该在我们隔壁，bupt
额...不用这么客气啊orz 只要我看的见基本都会回复的，老哥你是哪个大学？我们几个其实只有Z是广东的

感觉这个帖子一下子又有人了，可能是疫情期间大家太无聊了。
感觉z的担心是对的，你们想的这个玩法太突破了，总感觉不是那么安全(人太多？)。
其实比较感兴趣楼主在家里储备物资的经验，有没有考虑给大家介绍一下，总感觉这次疫情的影响远比我们以为的要大的多。我感觉我已经算是我们家最为警惕的了，但是和楼主比起来还是小巫见大巫。
嗯对了，我们这个有没有群啊。

favorite_bordermore_horiz

Su

superhlyb2020-02-14 01:58

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

快牛：↑
superhlyb：↑

强化学习主要搞啥的？我搞的meta learning
强化学习源于心理学的行为主义，就是通过环境的给予惩罚和奖励，机器人可以学到优化策略以获得最大化的预期利益。可以应用在游戏领域、自动驾驶等。AlphaGo就算是深度强化学习。

诶强化学习和meta learning也有结合。我最近也在做meta RL. 刚刚做了一个MAML 在强化学习上的应用的project. 感觉可以交流下？😂

在这个论坛讨论学术感觉怪怪的…

求问惩罚和奖励具体指的是啥，和普通的搞函数最优化有啥区别？

favorite_bordermore_horiz

Su

superhlyb2020-02-14 01:59

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

shizizhanzheng：↑
superhlyb：↑

我觉得和性别没关系，就我妹自己这样而已，我现在算是看透了，狗屁抖S，她骨子里就是个sao货...抖S抖M都是实际上性瘾患者的外在表现形式罢了
lz啊，话说我看了一个朝凪的本子貌似有点理解你说的这个了，按理说你妹在遇到你之前应该都没有表现出过这两个方面的吧？遇到你了表现出了抖s的一面，实际上抖s和抖m都是释放自己，那么抖m的一面又来源于何方呢？

大概一方面是她喜欢激烈的做爱。。另一方面也好奇心旺盛勇于尝试吧.....

favorite_bordermore_horiz

Su

superhlyb2020-02-14 02:07

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

电工的脑残粉：↑
superhlyb：↑

额...不用这么客气啊orz 只要我看的见基本都会回复的，老哥你是哪个大学？我们几个其实只有Z是广东的
感觉这个帖子一下子又有人了，可能是疫情期间大家太无聊了。
感觉z的担心是对的，你们想的这个玩法太突破了，总感觉不是那么安全(人太多？)。
其实比较感兴趣楼主在家里储备物资的经验，有没有考虑给大家介绍一下，总感觉这次疫情的影响远比我们以为的要大的多。我感觉我已经算是我们家最为警惕的了，但是和楼主比起来还是小巫见大巫。
嗯对了，我们这个有没有群啊。

我不配介绍。。我也不是啥生存带师，其实储存物资是个小问题，关键是信息捕捉能力要敏锐，反应迅速而且敢想敢做，毕竟你不能一直在家维持着一个庞大的物资储备对吧，不是放烂了就是隔三差五要折腾一边。不过这次也是我运气好，一听见冠状病毒+肺炎当时就炸了，其实如果没事儿，比如不存在人传人的话那我就反应过激成了个笑话了。这次幸亏我下手狠，屯了半年多的东西，这次疫情估计emmmm我也不太敢说，反正有文章建议把R0改为4.7到6.6之间，没记错的话，就很.....................

关于储存物资，肯定是罐头+干粮为主，然后唯一可能算的上经验的就是新鲜蔬果可以洗干净切成小块/片/条然后冷冻起来。。这样吧

favorite_bordermore_horiz

快牛

快牛2020-02-14 03:08

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

superhlyb：↑
快牛：↑

强化学习源于心理学的行为主义，就是通过环境的给予惩罚和奖励，机器人可以学到优化策略以获得最大化的预期利益。可以应用在游戏领域、自动驾驶等。AlphaGo就算是深度强化学习。

诶强化学习和meta learning也有结合。我最近也在做meta RL. 刚刚做了一个MAML 在强化学习上的应用的project. 感觉可以交流下？😂

在这个论坛讨论学术感觉怪怪的…
求问惩罚和奖励具体指的是啥，和普通的搞函数最优化有啥区别？

首先基本的概念：状态、动作、奖励（奖励就是一个实数）。在一个状态下，机器人执行一个动作，环境会反馈一个奖励（或惩罚），然后机器人会到达另一个状态。因此，机器人要是希望得到尽可能多的奖励，就需要对当前状态下所有的动作带来的收益有一个估计，然后选取可能的收益大的那个动作（这里的收益不仅指当前环境给的奖励，还有预期的未来收益。比如说有些动作可能即时奖励不高，但是把机器人带入的下一个状态可能有非常高的收益）。也就是说，机器人需要有一个函数，这个函数输入是当前的状态，输出是对所有动作的预期收益的估计值。如果这个函数用神经网络来模拟的话，就是所谓的深度强化学习。

与普通的学习任务不同的是，强化学习不属于监督学习（你没有标签给它），也不属于无监督学习。它需要从自己的尝试中获取经验。比如典型的Q学习的更新思想是这样的：q(s,a)=r+g*q(s',a'). 其中q(s,a) 是s状态下采取a动作的收益，s', a' 是下一个状态和下一个动作，r是当前的奖励，g是衰减因子（g越小说明越看重当前收益）。因此当你在s'状态下，你就有了对上一个状态q(s,a)的估计值。然后你就可以把这个估计值当作target，去训练机器人的神经网络。（大概就是这样子，忽略了很多细节）

其实单纯的网络训练这一块我觉得倒是和普通的深度学习差别不大，RL的主要问题是收敛太慢或者因为target也是在动态变化的所以训练过程不稳定等等一些问题，也还挺有趣的。然后rl的meta learning也是类似。就是希望网络可以在不同的任务上收敛地更快。

favorite_bordermore_horiz

Su

superhlyb2020-02-14 12:24

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

快牛：↑
superhlyb：↑

求问惩罚和奖励具体指的是啥，和普通的搞函数最优化有啥区别？
首先基本的概念：状态、动作、奖励（奖励就是一个实数）。在一个状态下，机器人执行一个动作，环境会反馈一个奖励（或惩罚），然后机器人会到达另一个状态。因此，机器人要是希望得到尽可能多的奖励，就需要对当前状态下所有的动作带来的收益有一个估计，然后选取可能的收益大的那个动作（这里的收益不仅指当前环境给的奖励，还有预期的未来收益。比如说有些动作可能即时奖励不高，但是把机器人带入的下一个状态可能有非常高的收益）。也就是说，机器人需要有一个函数，这个函数输入是当前的状态，输出是对所有动作的预期收益的估计值。如果这个函数用神经网络来模拟的话，就是所谓的深度强化学习。

与普通的学习任务不同的是，强化学习不属于监督学习（你没有标签给它），也不属于无监督学习。它需要从自己的尝试中获取经验。比如典型的Q学习的更新思想是这样的：q(s,a)=r+g*q(s',a'). 其中q(s,a) 是s状态下采取a动作的收益，s', a' 是下一个状态和下一个动作，r是当前的奖励，g是衰减因子（g越小说明越看重当前收益）。因此当你在s'状态下，你就有了对上一个状态q(s,a)的估计值。然后你就可以把这个估计值当作target，去训练机器人的神经网络。（大概就是这样子，忽略了很多细节）

其实单纯的网络训练这一块我觉得倒是和普通的深度学习差别不大，RL的主要问题是收敛太慢或者因为target也是在动态变化的所以训练过程不稳定等等一些问题，也还挺有趣的。然后rl的meta learning也是类似。就是希望网络可以在不同的任务上收敛地更快。

那相当于训练一个函数，然后比如说T=1 。T=2 。T=3...这些时刻分别有对应的最优解？越靠近最优解相当于奖励越大，然后对Σ最优化吗？我感觉可以弄进去动态规划搞一搞

favorite_bordermore_horiz

Sh

shizizhanzheng2020-02-14 14:07

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

电工的脑残粉：↑
superhlyb：↑

额...不用这么客气啊orz 只要我看的见基本都会回复的，老哥你是哪个大学？我们几个其实只有Z是广东的
感觉这个帖子一下子又有人了，可能是疫情期间大家太无聊了。
感觉z的担心是对的，你们想的这个玩法太突破了，总感觉不是那么安全(人太多？)。
其实比较感兴趣楼主在家里储备物资的经验，有没有考虑给大家介绍一下，总感觉这次疫情的影响远比我们以为的要大的多。我感觉我已经算是我们家最为警惕的了，但是和楼主比起来还是小巫见大巫。
嗯对了，我们这个有没有群啊。

玩法的话应该要先拟定剧本，然后再跟所有人沟通好，要不然沟通不好容易发生矛盾，毕竟人多也得有个先后顺序2333

favorite_bordermore_horiz

Sh

shizizhanzheng2020-02-14 14:16

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

superhlyb：↑
shizizhanzheng：↑

lz啊，话说我看了一个朝凪的本子貌似有点理解你说的这个了，按理说你妹在遇到你之前应该都没有表现出过这两个方面的吧？遇到你了表现出了抖s的一面，实际上抖s和抖m都是释放自己，那么抖m的一面又来源于何方呢？
大概一方面是她喜欢激烈的做爱。。另一方面也好奇心旺盛勇于尝试吧.....

我记得你之前说你妹只愿意在女性(z)面前屈服，面对别的男性还是要在他们之上的。然后我昨天晚上看那个本子是这样:女主本身也是倾向女权(？)的，结果别人给她下了个套，结果就是她光看着别人的录像而没有付诸实践就慢慢地屈服于男性了(而且是心理上臣服的屈服)所以我就想你妹会不会为了追求快感而出现一些别的情况，毕竟很久没打开的门一旦打开就是关不上的orz而且如果发现做抖m比做抖s更有感觉的话会不会发生倾斜呢？毕竟你们现在的情况是平衡的

(所以还是要少看点本子2333)

favorite_bordermore_horiz

Sh

shizizhanzheng2020-02-14 14:21

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

superhlyb：↑
shizizhanzheng：↑

lz啊，话说我看了一个朝凪的本子貌似有点理解你说的这个了，按理说你妹在遇到你之前应该都没有表现出过这两个方面的吧？遇到你了表现出了抖s的一面，实际上抖s和抖m都是释放自己，那么抖m的一面又来源于何方呢？
大概一方面是她喜欢激烈的做爱。。另一方面也好奇心旺盛勇于尝试吧.....

还有我之前看你妹在z面前的表现已经有些这样的倾向了(女s一般是不会愿意被别人羞辱的吧？)不光是因为性方面的快感就是心理上的快感也会增加吧(就像我看你们的帖子和坛里某些小说，就算是肉体上体会不到也可以在心理上体会到那种感觉)

favorite_bordermore_horiz

Co

coffinkun2020-02-14 15:38

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

shizizhanzheng：↑
我记得你之前说你妹只愿意在女性(z)面前屈服，面对别的男性还是要在他们之上的。然后我昨天晚上看那个本子是这样:女主本身也是倾向女权(？)的，结果别人给她下了个套，结果就是她光看着别人的录像而没有付诸实践就慢慢地屈服于男性了(而且是心理上臣服的屈服)所以我就想你妹会不会为了追求快感而出现一些别的情况，毕竟很久没打开的门一旦打开就是关不上的orz而且如果发现做抖m比做抖s更有感觉的话会不会发生倾斜呢？毕竟你们现在的情况是平衡的

(所以还是要少看点本子2333)

看过这本，其实我觉得朝凪的本子看看就好了，真要分析并不是那么回事。
最好不要直接生搬硬套到真人身上。

favorite_bordermore_horiz

Co

coffinkun2020-02-14 15:45

Re: （大概不算是晒）姑且记录下和某位半友情女s的经历吧orz

shizizhanzheng：↑
还有我之前看你妹在z面前的表现已经有些这样的倾向了(女s一般是不会愿意被别人羞辱的吧？)不光是因为性方面的快感就是心理上的快感也会增加吧(就像我看你们的帖子和坛里某些小说，就算是肉体上体会不到也可以在心理上体会到那种感觉)

你的猜想的前提“女s一般是不会愿意被别人羞辱”就不太对，并不是那么一回事。
展开来说相当麻烦，但是确实不是这样的。

favorite_bordermore_horiz