(大概不算是晒)姑且记录下和某位半友情女s的经历吧orz

superhlyb:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
deltat淦 仰望楼上的各位菊苣
我要是也会 ML 的话我也就不至于现在每天做让人绝望的打杂工作了
然而大佬可以体验满清十大酷刑
op98:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
sbsb2100楼主大大之前跟家里三个s玩过什么 怎么没见你详细讲讲
+1
快牛:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
superhlyb
快牛

诶我高考也差点去北邮… 我本科EE,现在在搞CS的强化学习方向
强化学习主要搞啥的? 我搞的meta learning
强化学习源于心理学的行为主义,就是通过环境的给予惩罚和奖励,机器人可以学到优化策略以获得最大化的预期利益。可以应用在游戏领域、自动驾驶等。AlphaGo就算是深度强化学习。

诶强化学习和meta learning也有结合。我最近也在做meta RL. 刚刚做了一个MAML 在强化学习上的应用的project. 感觉可以交流下?😂

在这个论坛讨论学术感觉怪怪的…
shizizhanzheng:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
superhlyb
shizizhanzheng

我是说你妹,最开始好好的一个s,怎么感觉往m发展越来越过头了2333所以说女性应该天生就有m的成分隐藏着吧
我觉得和性别没关系,就我妹自己这样而已,我现在算是看透了,狗屁抖S,她骨子里就是个sao货...抖S抖M都是实际上性瘾患者的外在表现形式罢了
lz啊,话说我看了一个朝凪的本子貌似有点理解你说的这个了,按理说你妹在遇到你之前应该都没有表现出过这两个方面的吧?遇到你了表现出了抖s的一面,实际上抖s和抖m都是释放自己,那么抖m的一面又来源于何方呢?
电工的脑残粉:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
superhlyb
电工的脑残粉

我,我居然被楼主回复了。
非常羡慕楼主能和喜欢的人玩的这么硬核(不然不是喜欢的人的话应该叫淫乱?)。
我一直以为你们都是广东或者浙江之类地方,没想到都是北方。啊对了,我才意识到闺蜜应该在我们隔壁,bupt
额...不用这么客气啊orz 只要我看的见基本都会回复的,老哥你是哪个大学? 我们几个其实只有Z是广东的
感觉这个帖子一下子又有人了,可能是疫情期间大家太无聊了。
感觉z的担心是对的,你们想的这个玩法太突破了,总感觉不是那么安全(人太多?)。
其实比较感兴趣楼主在家里储备物资的经验,有没有考虑给大家介绍一下,总感觉这次疫情的影响远比我们以为的要大的多。我感觉我已经算是我们家最为警惕的了,但是和楼主比起来还是小巫见大巫。
嗯对了,我们这个有没有群啊。
superhlyb:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
快牛
superhlyb

强化学习主要搞啥的? 我搞的meta learning
强化学习源于心理学的行为主义,就是通过环境的给予惩罚和奖励,机器人可以学到优化策略以获得最大化的预期利益。可以应用在游戏领域、自动驾驶等。AlphaGo就算是深度强化学习。

诶强化学习和meta learning也有结合。我最近也在做meta RL. 刚刚做了一个MAML 在强化学习上的应用的project. 感觉可以交流下?😂

在这个论坛讨论学术感觉怪怪的…
求问惩罚和奖励具体指的是啥,和普通的搞函数最优化有啥区别?
superhlyb:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
shizizhanzheng
superhlyb

我觉得和性别没关系,就我妹自己这样而已,我现在算是看透了,狗屁抖S,她骨子里就是个sao货...抖S抖M都是实际上性瘾患者的外在表现形式罢了
lz啊,话说我看了一个朝凪的本子貌似有点理解你说的这个了,按理说你妹在遇到你之前应该都没有表现出过这两个方面的吧?遇到你了表现出了抖s的一面,实际上抖s和抖m都是释放自己,那么抖m的一面又来源于何方呢?
大概一方面是她喜欢激烈的做爱。。另一方面也好奇心旺盛勇于尝试吧.....
superhlyb:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
电工的脑残粉
superhlyb

额...不用这么客气啊orz 只要我看的见基本都会回复的,老哥你是哪个大学? 我们几个其实只有Z是广东的
感觉这个帖子一下子又有人了,可能是疫情期间大家太无聊了。
感觉z的担心是对的,你们想的这个玩法太突破了,总感觉不是那么安全(人太多?)。
其实比较感兴趣楼主在家里储备物资的经验,有没有考虑给大家介绍一下,总感觉这次疫情的影响远比我们以为的要大的多。我感觉我已经算是我们家最为警惕的了,但是和楼主比起来还是小巫见大巫。
嗯对了,我们这个有没有群啊。
我不配介绍。。我也不是啥生存带师,其实储存物资是个小问题,关键是信息捕捉能力要敏锐,反应迅速而且敢想敢做,毕竟你不能一直在家维持着一个庞大的物资储备对吧,不是放烂了就是隔三差五要折腾一边。不过这次也是我运气好,一听见冠状病毒+肺炎当时就炸了,其实如果没事儿,比如不存在人传人的话那我就反应过激成了个笑话了。这次幸亏我下手狠,屯了半年多的东西,这次疫情估计emmmm我也不太敢说,反正有文章建议把R0改为4.7到6.6之间,没记错的话,就很.....................

关于储存物资,肯定是罐头+干粮为主,然后唯一可能算的上经验的就是新鲜蔬果可以洗干净切成小块/片/条 然后冷冻起来。。这样吧
快牛:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
superhlyb
快牛

强化学习源于心理学的行为主义,就是通过环境的给予惩罚和奖励,机器人可以学到优化策略以获得最大化的预期利益。可以应用在游戏领域、自动驾驶等。AlphaGo就算是深度强化学习。

诶强化学习和meta learning也有结合。我最近也在做meta RL. 刚刚做了一个MAML 在强化学习上的应用的project. 感觉可以交流下?😂

在这个论坛讨论学术感觉怪怪的…
求问惩罚和奖励具体指的是啥,和普通的搞函数最优化有啥区别?
首先基本的概念:状态、动作、奖励(奖励就是一个实数)。在一个状态下,机器人执行一个动作,环境会反馈一个奖励(或惩罚),然后机器人会到达另一个状态。因此,机器人要是希望得到尽可能多的奖励,就需要对当前状态下所有的动作带来的收益有一个估计,然后选取可能的收益大的那个动作(这里的收益不仅指当前环境给的奖励,还有预期的未来收益。比如说有些动作可能即时奖励不高,但是把机器人带入的下一个状态可能有非常高的收益)。也就是说,机器人需要有一个函数,这个函数输入是当前的状态,输出是对所有动作的预期收益的估计值。如果这个函数用神经网络来模拟的话,就是所谓的深度强化学习。

与普通的学习任务不同的是,强化学习不属于监督学习(你没有标签给它),也不属于无监督学习。它需要从自己的尝试中获取经验。比如典型的Q学习的更新思想是这样的:q(s,a)=r+g*q(s',a'). 其中q(s,a) 是s状态下采取a动作的收益,s', a' 是下一个状态和下一个动作,r是当前的奖励,g是衰减因子(g越小说明越看重当前收益)。因此当你在s'状态下,你就有了对上一个状态q(s,a)的估计值。然后你就可以把这个估计值当作target,去训练机器人的神经网络。(大概就是这样子,忽略了很多细节)

其实单纯的网络训练这一块我觉得倒是和普通的深度学习差别不大,RL的主要问题是收敛太慢或者因为target也是在动态变化的所以训练过程不稳定等等一些问题,也还挺有趣的。然后rl的meta learning也是类似。就是希望网络可以在不同的任务上收敛地更快。
superhlyb:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
快牛
superhlyb

求问惩罚和奖励具体指的是啥,和普通的搞函数最优化有啥区别?
首先基本的概念:状态、动作、奖励(奖励就是一个实数)。在一个状态下,机器人执行一个动作,环境会反馈一个奖励(或惩罚),然后机器人会到达另一个状态。因此,机器人要是希望得到尽可能多的奖励,就需要对当前状态下所有的动作带来的收益有一个估计,然后选取可能的收益大的那个动作(这里的收益不仅指当前环境给的奖励,还有预期的未来收益。比如说有些动作可能即时奖励不高,但是把机器人带入的下一个状态可能有非常高的收益)。也就是说,机器人需要有一个函数,这个函数输入是当前的状态,输出是对所有动作的预期收益的估计值。如果这个函数用神经网络来模拟的话,就是所谓的深度强化学习。

与普通的学习任务不同的是,强化学习不属于监督学习(你没有标签给它),也不属于无监督学习。它需要从自己的尝试中获取经验。比如典型的Q学习的更新思想是这样的:q(s,a)=r+g*q(s',a'). 其中q(s,a) 是s状态下采取a动作的收益,s', a' 是下一个状态和下一个动作,r是当前的奖励,g是衰减因子(g越小说明越看重当前收益)。因此当你在s'状态下,你就有了对上一个状态q(s,a)的估计值。然后你就可以把这个估计值当作target,去训练机器人的神经网络。(大概就是这样子,忽略了很多细节)

其实单纯的网络训练这一块我觉得倒是和普通的深度学习差别不大,RL的主要问题是收敛太慢或者因为target也是在动态变化的所以训练过程不稳定等等一些问题,也还挺有趣的。然后rl的meta learning也是类似。就是希望网络可以在不同的任务上收敛地更快。
那相当于训练一个函数,然后比如说T=1 。T=2 。T=3...这些时刻分别有对应的最优解? 越靠近最优解相当于奖励越大,然后对Σ最优化吗? 我感觉可以弄进去动态规划搞一搞
shizizhanzheng:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
电工的脑残粉
superhlyb

额...不用这么客气啊orz 只要我看的见基本都会回复的,老哥你是哪个大学? 我们几个其实只有Z是广东的
感觉这个帖子一下子又有人了,可能是疫情期间大家太无聊了。
感觉z的担心是对的,你们想的这个玩法太突破了,总感觉不是那么安全(人太多?)。
其实比较感兴趣楼主在家里储备物资的经验,有没有考虑给大家介绍一下,总感觉这次疫情的影响远比我们以为的要大的多。我感觉我已经算是我们家最为警惕的了,但是和楼主比起来还是小巫见大巫。
嗯对了,我们这个有没有群啊。
玩法的话应该要先拟定剧本,然后再跟所有人沟通好,要不然沟通不好容易发生矛盾,毕竟人多也得有个先后顺序2333
shizizhanzheng:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
superhlyb
shizizhanzheng

lz啊,话说我看了一个朝凪的本子貌似有点理解你说的这个了,按理说你妹在遇到你之前应该都没有表现出过这两个方面的吧?遇到你了表现出了抖s的一面,实际上抖s和抖m都是释放自己,那么抖m的一面又来源于何方呢?
大概一方面是她喜欢激烈的做爱。。另一方面也好奇心旺盛勇于尝试吧.....
我记得你之前说你妹只愿意在女性(z)面前屈服,面对别的男性还是要在他们之上的。然后我昨天晚上看那个本子是这样:女主本身也是倾向女权(?)的,结果别人给她下了个套,结果就是她光看着别人的录像而没有付诸实践就慢慢地屈服于男性了(而且是心理上臣服的屈服)所以我就想你妹会不会为了追求快感而出现一些别的情况,毕竟很久没打开的门一旦打开就是关不上的orz而且如果发现做抖m比做抖s更有感觉的话会不会发生倾斜呢?毕竟你们现在的情况是平衡的

(所以还是要少看点本子2333)
shizizhanzheng:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
superhlyb
shizizhanzheng

lz啊,话说我看了一个朝凪的本子貌似有点理解你说的这个了,按理说你妹在遇到你之前应该都没有表现出过这两个方面的吧?遇到你了表现出了抖s的一面,实际上抖s和抖m都是释放自己,那么抖m的一面又来源于何方呢?
大概一方面是她喜欢激烈的做爱。。另一方面也好奇心旺盛勇于尝试吧.....
还有我之前看你妹在z面前的表现已经有些这样的倾向了(女s一般是不会愿意被别人羞辱的吧?)不光是因为性方面的快感就是心理上的快感也会增加吧(就像我看你们的帖子和坛里某些小说,就算是肉体上体会不到也可以在心理上体会到那种感觉)
coffinkun:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
shizizhanzheng
我记得你之前说你妹只愿意在女性(z)面前屈服,面对别的男性还是要在他们之上的。然后我昨天晚上看那个本子是这样:女主本身也是倾向女权(?)的,结果别人给她下了个套,结果就是她光看着别人的录像而没有付诸实践就慢慢地屈服于男性了(而且是心理上臣服的屈服)所以我就想你妹会不会为了追求快感而出现一些别的情况,毕竟很久没打开的门一旦打开就是关不上的orz而且如果发现做抖m比做抖s更有感觉的话会不会发生倾斜呢?毕竟你们现在的情况是平衡的

(所以还是要少看点本子2333)
看过这本,其实我觉得朝凪的本子看看就好了,真要分析并不是那么回事。
最好不要直接生搬硬套到真人身上。
coffinkun:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
shizizhanzheng
还有我之前看你妹在z面前的表现已经有些这样的倾向了(女s一般是不会愿意被别人羞辱的吧?)不光是因为性方面的快感就是心理上的快感也会增加吧(就像我看你们的帖子和坛里某些小说,就算是肉体上体会不到也可以在心理上体会到那种感觉)
你的猜想的前提“女s一般是不会愿意被别人羞辱”就不太对,并不是那么一回事。
展开来说相当麻烦,但是确实不是这样的。
superhlyb:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
shizizhanzheng
电工的脑残粉

感觉这个帖子一下子又有人了,可能是疫情期间大家太无聊了。
感觉z的担心是对的,你们想的这个玩法太突破了,总感觉不是那么安全(人太多?)。
其实比较感兴趣楼主在家里储备物资的经验,有没有考虑给大家介绍一下,总感觉这次疫情的影响远比我们以为的要大的多。我感觉我已经算是我们家最为警惕的了,但是和楼主比起来还是小巫见大巫。
嗯对了,我们这个有没有群啊。
玩法的话应该要先拟定剧本,然后再跟所有人沟通好,要不然沟通不好容易发生矛盾,毕竟人多也得有个先后顺序2333
这个必须的
superhlyb:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
shizizhanzheng
superhlyb

大概一方面是她喜欢激烈的做爱。。另一方面也好奇心旺盛勇于尝试吧.....
我记得你之前说你妹只愿意在女性(z)面前屈服,面对别的男性还是要在他们之上的。然后我昨天晚上看那个本子是这样:女主本身也是倾向女权(?)的,结果别人给她下了个套,结果就是她光看着别人的录像而没有付诸实践就慢慢地屈服于男性了(而且是心理上臣服的屈服)所以我就想你妹会不会为了追求快感而出现一些别的情况,毕竟很久没打开的门一旦打开就是关不上的orz而且如果发现做抖m比做抖s更有感觉的话会不会发生倾斜呢?毕竟你们现在的情况是平衡的

(所以还是要少看点本子2333)
早就不是了,我妹早就做了她男朋友的M,就是那种,两个人并没有确定sm的关系,那个男的貌似也不是圈里人,但是他们做爱基本都比较激烈而且伴随着侮辱..殴打啥的
superhlyb:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
coffinkun
shizizhanzheng
还有我之前看你妹在z面前的表现已经有些这样的倾向了(女s一般是不会愿意被别人羞辱的吧?)不光是因为性方面的快感就是心理上的快感也会增加吧(就像我看你们的帖子和坛里某些小说,就算是肉体上体会不到也可以在心理上体会到那种感觉)
你的猜想的前提“女s一般是不会愿意被别人羞辱”就不太对,并不是那么一回事。
展开来说相当麻烦,但是确实不是这样的。
大佬出现了!活捉
shizizhanzheng:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
superhlyb
shizizhanzheng

我记得你之前说你妹只愿意在女性(z)面前屈服,面对别的男性还是要在他们之上的。然后我昨天晚上看那个本子是这样:女主本身也是倾向女权(?)的,结果别人给她下了个套,结果就是她光看着别人的录像而没有付诸实践就慢慢地屈服于男性了(而且是心理上臣服的屈服)所以我就想你妹会不会为了追求快感而出现一些别的情况,毕竟很久没打开的门一旦打开就是关不上的orz而且如果发现做抖m比做抖s更有感觉的话会不会发生倾斜呢?毕竟你们现在的情况是平衡的

(所以还是要少看点本子2333)
早就不是了,我妹早就做了她男朋友的M,就是那种,两个人并没有确定sm的关系,那个男的貌似也不是圈里人,但是他们做爱基本都比较激烈而且伴随着侮辱..殴打啥的
卧槽啥玩意?做爱还殴打???(当然打屁♂股不算233)那你妹这变化有点极端哈orz那你妹现在面对你的时候还是s对吧,就算你当初发现她偶尔流露出m的一面也会很快s回去,在面对她男朋友的时候又是完全m的一面(估计这男的肯定也有s倾向),那么在面对其他人的时候呢?我就有点好奇了(包括老师的儿子和你们以后玩play的时候会用到的工具人)按照你的说法在玩这种play的时候你是要做最底层的m吧?如果同时又有别的m的话,你妹会把自己处于s还是m的位置呢?还有闺蜜,在闺蜜当s之前我好像看不出来你妹和闺蜜之间哪个攻哪个受(觉得闺蜜更倾向主动的一方),给这么多年的闺蜜当m,还是挺有意思(除非她们早就是这种关系)
快牛:Re: (大概不算是晒)姑且记录下和某位半友情女s的经历吧orz
superhlyb
快牛

首先基本的概念:状态、动作、奖励(奖励就是一个实数)。在一个状态下,机器人执行一个动作,环境会反馈一个奖励(或惩罚),然后机器人会到达另一个状态。因此,机器人要是希望得到尽可能多的奖励,就需要对当前状态下所有的动作带来的收益有一个估计,然后选取可能的收益大的那个动作(这里的收益不仅指当前环境给的奖励,还有预期的未来收益。比如说有些动作可能即时奖励不高,但是把机器人带入的下一个状态可能有非常高的收益)。也就是说,机器人需要有一个函数,这个函数输入是当前的状态,输出是对所有动作的预期收益的估计值。如果这个函数用神经网络来模拟的话,就是所谓的深度强化学习。

与普通的学习任务不同的是,强化学习不属于监督学习(你没有标签给它),也不属于无监督学习。它需要从自己的尝试中获取经验。比如典型的Q学习的更新思想是这样的:q(s,a)=r+g*q(s',a'). 其中q(s,a) 是s状态下采取a动作的收益,s', a' 是下一个状态和下一个动作,r是当前的奖励,g是衰减因子(g越小说明越看重当前收益)。因此当你在s'状态下,你就有了对上一个状态q(s,a)的估计值。然后你就可以把这个估计值当作target,去训练机器人的神经网络。(大概就是这样子,忽略了很多细节)

其实单纯的网络训练这一块我觉得倒是和普通的深度学习差别不大,RL的主要问题是收敛太慢或者因为target也是在动态变化的所以训练过程不稳定等等一些问题,也还挺有趣的。然后rl的meta learning也是类似。就是希望网络可以在不同的任务上收敛地更快。
那相当于训练一个函数,然后比如说T=1 。T=2 。T=3...这些时刻分别有对应的最优解? 越靠近最优解相当于奖励越大,然后对Σ最优化吗? 我感觉可以弄进去动态规划搞一搞
有点点偏差……并不是对于不同的时刻有最优解,而是对于不同的状态有最优的动作选择(时刻不是很重要,大部分RL问题都是马尔可夫问题,即下一个状态和环境给的奖励都取决于当前状态和我采取的行动,与之前的状态无关)。如果你的选择越接近最优的话,回合结束的时候积累的总奖励就会越大。你的目标就是找到一个策略,可以使得总奖励尽可能地大。Dynamic programming确实算一种方法,但是有两个问题: 第一个问题是环境可能是未知而且随机的,如果不知道环境的状态转移矩阵的话,DP就不太好做;第二个问题是状态的描述参数可能是连续的实数,因此状态可能有无穷多。你要是有兴趣的话,可以去gym看一下(https://gym.openai.com/)。这是一个python库,里面给了不少的RL的环境描述。