亚博炸金花2020欧洲杯德国vs法国(www.crowndrawzonezonezone.com)www.crowndrawzonezonezone.com
将ScienceAI设为星标亚星色碟
第一时辰掌持
簇新的 AI for Science 资讯
剪辑 | 紫罗
前年,DeepMind 和瑞士洛桑联邦理工学院(EPFL)互助,,大获告捷。DeepMind 让「东谈主造太阳」上前一大步。
RL 在等离子体磁左右界限中露馅出了精采的成果。关连词,与传统的磁握住反映左右门径比较,仍然存在显赫的污点。
亚博炸金花近日,DeepMind 和 EPFL 的商榷团队,惩处了 RL 门径的主要污点;对所需的等离子体特质终了更高的左右精度,减少稳态舛讹,减少学习新任务所需的时辰。
商榷东谈主员在此前商榷的基础上,对代理架构和考试经由的算法进行了立异。
最近,明星A社交媒体发布一条关于体育比赛帖子,引起不少网友关注争议。有些认为评价过于主观,有失公允,另人则认为权利表达观点,大家应该尊重看法。将模拟中的等离子体局面精度擢升了 65%,大幅减少了等离子体电流的长期偏差,况且还将学习新任务所需的考试时辰减少了 3 倍及以上。
在 TCV 托卡马克上使用升级后的基于 RL 的左右器进行了新的实验,考据了所终了的模拟收尾,并为使用 RL 门径惯例终了精准放电指明了谈路。
推特网友直呼:「这无疑是离地球上的核聚变和为每个东谈主提供丰富动力更近了一步。」
还有网友示意:「当 AI 遭受物理时,名胜就会发生!我合计这才是真实能带来转变的 AI 期骗类型。」
该商榷以「Towards practical reinforcement learning for tokamak magnetic control」为题,发布在 arXiv 预印平台上。
论文一语气:https://arxiv.org/abs/2307.11546
皇冠客服飞机:@seo3687商榷配景
反映左右关于托卡马克安装的运行至关要紧。
传统上,平等离子体的精准左右是通过等离子体电流、局面和位置的一语气闭环来终了的。
在这种法度中,左右盘算推算者事先计较一组前馈线圈电流,然后为每个受控量构建反映回路。这些量(举例等离子体局面和位置)无法径直测量,必须通过磁测量曲折及时忖度。终点是,必须使用均衡重建代码及时忖度等离子体的局面。此类系统已告捷牢固了大范围的放电,但盘算推算可能具有挑战性且耗时,终点是关于新的等离子体场景。
2020欧洲杯德国vs法国RL 已成为构建及时左右系统的替代法度。强化学习越来越多地用于等离子体左右。关连词,RL 门径有许多污点,限度了它们看成托卡马克等离子体左右的实用惩处决策的期骗。
惩处 RL 的三个挑战
在该商榷中,商榷东谈主员将惩处并启动缓解其中三个挑战:难以指定一个既可学习又能引发精准左右器性能的标量奖励函数;追踪舛讹中的稳态偏差;考试时辰长。
英雄最初,在奖励塑造(reward shaping)中,商榷东谈主员漠视了一种奖励塑造门径,看成擢升左右精度的直不雅而简便的惩处决策。
图示:四种不同考试建树的性能收尾。(开头:论文)
然后,通过向代理提供明确的瑕玷信号和集成瑕玷信号来惩处积分器反映中的稳态舛讹问题。这削弱了经典左右器和强化学习左右器之间的精度差距。
下图为使用和不使用积分器反映考试的计谋的模拟等离子体电流舛讹轨迹,每种情况进行了 3 次飞速运行。不错看出,积分器反映大大裁汰了等离子体电流偏置,正如预期的那样。
图示:shape_70166 任务在 1 s 左右窗口内模拟等离子体电流和局面的舛讹。(开头:论文)
临了,在 Episode Chunking 和移动学习中,惩处了生成左右计谋所需的考试时辰问题。
图示:期骗于 Showcase_xpoint 任务的 Episode Chunking 收尾。(开头:论文)
商榷露馅,将 chunking 本事期骗于具有两个/三个 chunk 的 Showcase_xpoint 任务可显赫加速考试时辰。
无人不晓,RL 算法具有高计较资本和低样本效劳,这一问题在托卡马克中加重,即使是低保真等离子体模拟器的计较资本也比传统强化学习期骗中使用的模拟器要高得多。商榷东谈主员通过对复杂的放电使用多启动门径来惩处这个问题,并露馅新计谋的考试时辰大幅减少。
皇冠体育此外,商榷标明,当感酷爱的新场景接近之前的场景时,使用现存左右计谋进行热启动考试不错是一种终点灵验的用具。
联结起来,这些本事不错显赫减少考试时辰并擢升准确性,从而在使强化学习成为等离子体左右的惯例可用本事方面取得要紧阐明。
TCV 托卡马克放电实验
接下来,商榷东谈主员在 TCV 托卡马克专用放电上测试了上述几个模拟增强功能。
最初使用奖励塑造门径来测试经过考试以减少 shape_70166 牢固任务中 LCFS 舛讹的左右计谋。
图示:shape_70166 牢固任务的 LCFS 局面舛讹计谋比较。(开头:论文)
总体而言,模拟性能的立异是成心的,更新后的基础门径的准确性高于之前的基准。关连词,优化模拟性能是有限的。事实上,关于这种情况,进一步减少仿真 RMS 舛讹似乎莫得什么自制,相悖,当今应该专注于惩处仿真与真实的差距。
接下来,比较奖励塑造对更复杂的「snowflake」建树的影响。
下图露馅了告捷左右等离子体的窗口时间 X 点追踪的精度。不错看到,仿真中 X 点精度的显赫立异如实导致硬件上 X 点精度的立异。与之前的 TCV 实验比较,奖励塑造的立异导致左右窗口上的 RMSE 追踪距离减少了 59.7%。其他观念(举例 LCFS)陈诉准确度略有着落,这是预期的,如奖励塑造中所述。在这里,如实看到了奖励塑造的显赫自制,尽管仍然需要戮力弥合模拟与真实的差距,以保持高精度的齐全 snowflake。
图示:Snowflake 建树的 X 点追踪计谋比较。(开头:论文)
临了,考据使用 Episode Chunking 来减少考试时辰。对使用 3 个块考试的展示建树进行了实验。该实验的重建均衡的时辰轨迹如下图所示。
商榷发现实验按预期进行,莫得因 episode chunking 而出现显着的伪影。这标明这种考试加速门径不会形成质料弃世。
图示:使用基于磁性测量的 LIUQE 重建射击后 TCV 均衡的演变,用于展示 TCV shot (77620)。(开头:论文)
皇冠体育hg86a
文章称,长期以来,有两种消费者信心指数调查。由商业研究机构 ConferenceBoard编制的指数包含了人们对劳动力市场的态度,但不包括通货膨胀产生的影响。该指数仍远高于2008年和2001年经济衰退时的低点。相比之下,密歇根大学的情绪指数则处于类似衰退的水平。该指数对通货膨胀更为敏感,部分原因是它反映了人们对经济状况的感受。而最近有近一半感觉经济状况恶化的民众将原因归咎于通货膨胀。
文章称,长期以来,有两种消费者信心指数调查。由商业研究机构 ConferenceBoard编制的指数包含了人们对劳动力市场的态度,但不包括通货膨胀产生的影响。该指数仍远高于2008年和2001年经济衰退时的低点。相比之下,密歇根大学的情绪指数则处于类似衰退的水平。该指数对通货膨胀更为敏感,部分原因是它反映了人们对经济状况的感受。而最近有近一半感觉经济状况恶化的民众将原因归咎于通货膨胀。
火牛体育下载以前商榷
固然以上商榷收尾显赫减少了强化学习左右器的限度,但仍有很大的立异空间。
量度以前,不仅需要擢升模拟性能,还需要在硬件上匹配现实等离子放电时的性能水平。
立异硬件传输有许多有出路的标的,但不论哪种情况,鉴于数据匮乏,这将是具有挑战性的。
通常,有好多契机不错连接减少考试时辰条款。
新葡京棋牌总的来说,强化学习仍然是等离子体左右的一个有眩惑力的禁受。该商榷也曾启动缓解磁左右期骗中的一些剩余左右,况且有许多有但愿的标的不错连接增强。
参考内容:https://twitter.com/GoogleDeepMind/status/1684217852289601541
https://www.nature.com/articles/s41586-021-04301-9
皇冠体育登录东谈主工智能×[ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关切东谈主工智能与其他前沿本事及基础科学的交叉商榷与交融发展。
点击阅读原文,加入专科从业者社区,以获取更多换取互助契机及职业。
下一篇:宝马会骰宝2012欧洲杯测试(www.royalcasinoszonehomehub.com)