• 相关博文
  • 最新资讯
加载中...
  • 在调查过基于模型的强化学习方法后,我们得到这些结论

    强化学习系统的决策方式有两种。基于模型的方法中,系统通过世界预测模型提问“如果执行了x会发生什么”,从而选出最佳的x方案。在无模型的方法中,建模步骤被完全跳过,直接跳至控制策略学习。尽管实际中,这两种方法的界限可能会非常模糊,但用以粗略划分算法的可能性空间还是很有指导意义的。

    2020.01.13 0
  • 300多局点,数据接入量超过2TB/S,华为用AI优化数据中台 | BDTC 2019

    数据中台承载着华为的运营商大数据分析业务,在全球建有300多个局点,单局点最大1000+服务器,数据接入量超过2TB/S。数据中台应用spark支持批计算任务,使用yarn做spark的资源管理器。yarn虽然提供了配置参数接口,但是各局点的应用数据对容器的规格、数量有不同的需求,依赖专家配置费时、费力,且不一定最优。因此,提出应用强化学习算法,针对不同业务,学习、尝试,并最终选择spark运行时的最佳参数。该方法不仅可以用作spark运行时的最佳参数选择,对于其它需要配置运行时参数的系统仍然适用。

    2020.01.07 0
  • 被追捧为“圣杯”的深度强化学习已走进死胡同

    近年来,深度强化学习成为一个被业界和学术界追捧的热门技术,社区甚至将它视为金光闪闪的通向 AGI 的圣杯,大多数人都看好它未来发展的巨大潜力。但是,深度强化学习的本质是什么?人们对它的期望是否理智呢?现在,在一片追捧声中,终于有人开始质疑深度强化学习的真实作用。

    2020.01.06 0
  • ​基于强化学习的自动交易系统研究与发展综述

    近年来,强化学习在电子游戏、棋类、决策控制领域取得了巨大进展,也带动着金融交易系统的迅速发展,金融交易问题已经成为强化学习领域的研究热点,特别是股票、外汇和期货等方面具有广泛的应用需求和学术研究意义。本文以金融领域常用的强化学习模型的发展为脉络,对交易系统、自适应算法、交易策略等方面的诸多研究成果进行了综述。最后讨论了强化学习在金融领域应用中存在的困难和挑战,并对今后强化学习交易系统发展趋势进行展望。

    2020.01.03 0
  • 不止Markov决策过程,全景式分析强化学习研究内容

    强化学习作为通用人工智能的希望,吸引了很多人工智能爱好者学习和研究。Markov决策过程是最知名的强化学习模型,强化学习教程也常以Markov决策过程作为起点。但是,强化学习并不只有Markov决策过程这一种模型。本文全景式地分析强化学习的研究内容,展示Markov决策过程以外的广阔天地。

    2019.12.03 0
  • 推荐系统中的前沿技术研究与落地:深度学习、AutoML与强化学习 | AI ProCon 2019...

    推荐系统与深度学习、强化学习、AutoML 等新技术将碰撞出什么样的火花?推荐系统用上这些技术之后便“如虎添翼”还是会被其所累?新技术与推荐算法的结合还有哪些新的可能和方向?在2019 AI开发者大会上,来自华为诺亚方舟实验室推荐与搜索项目组资深研究员唐睿明在推荐系统技术分论坛上,为观众分享了华为在这些新技术与推荐系统结合探索中的最新成果。

  • OpenAI机械手单手轻松解魔方,背靠强化学习+新技术ADR

    10月15日,人工智能研究机构OpenAI发布了一条机械手单手解魔方的视频。这个自学式的类人机器人手臂名为 Dactyl,不仅可以单手解魔方,甚至能在外加各种干扰,比如“蒙眼”,用布娃娃长颈鹿干扰下继续完成任务。这次,这套机械手系统使用的是此前用于 OpenFive 同样的强化学习代码,加上一项名为 Automatic Domain Randomization (ADR,自动化域随机)的新技术,这套系统可以处理之前未见过的场景,再次证明了强化学习的强大学习能力。

    2019.10.18 0
  • 今日头条首次改进DQN网络,解决推荐中的在线广告投放问题

    本文主要介绍今日头条推出的强化学习应用在推荐的最新论文[1],首次改进DQN网络解决推荐中的在线广告投放问题。

    2019.10.10
  • DeepMind悄咪咪开源三大新框架,深度强化学习落地希望再现

    最近,DeepMind 又默默开源了三种 DRL 框架:OpenSpiel、SpriteWorld 和 bsuite,用于简化 DRL 应用。

    2019.09.18
  • “爱装X”开源组织:“教科书级”AI知识树究竟长什么样?

    这份人工智能知识树 v1.0 是整理了从零到一的学习内容,主要包括统计机器学习、深度学习、时间序列、机器视觉、图嵌入/图的表示学习、自然语言处理、强化学习、推荐系统、处理/特征工程、模型评估/模型调优、最优化以及其它学习笔记十二部分内容。

  • ICLR 2019最佳论文揭晓!NLP深度学习、神经网络压缩夺魁 | 技术头条

    ICLR 是深度学习领域的顶级会议,素有深度学习顶会 “无冕之王” 之称。今年的 ICLR 大会将于5月6日到5月9日在美国新奥尔良市举行,大会采用 OpenReview 的公开双盲评审机制,共接收了 1578 篇论文:其中 oral 论文  24 篇 (约占 1.5%),poster 论文共 476 篇 (占30.2%)。在这些录用的论文中,深度学习、强化学习和生成对抗网络 GANs 是最热门的三大研究方向。

  • 一文详解随机神经网络结构搜索 (SNAS)

    本文作者对NAS任务中强化学习的效率进行了深入思考,从理论上给出了NAS中强化学习收敛慢的原因。作者进一步重新建模了NAS问题,提出了一个更高效的方法,随机神经网络结构搜索(Stochastic NAS, SNAS)。