第102章 速成

    接下来的两周,左城把自己关在办公室里,几乎没有出过门。
    韩露来敲门问过两次,左城只说了一句“在忙,別打扰“。陈浩也来敲过一次,被左城以同样的话打发走了。整个公司都知道,左城在搞一个重要的东西,但没人知道是什么。
    於颖推荐的学习资料他全部认真过了一遍。sutton的强化学习导论是理论基础,mnih的dqn论文是方法论,再加上几篇关於深度强化学习在资源调度领域的最新研究,他花了五天时间就建立了一个完整的知识框架。
    这个速度放在学术界是不可想像的。一个没有任何ai背景的人,五天读完强化学习的核心论文?但左城有科技树。智能星网调度系统这枚融合叶片给了他直觉般的理解力,很多概念別人需要反覆推敲才能想通,他看一遍就能抓住本质。
    技术增幅的效果也在持续发挥作用。所有和ai相关的学习效率提升百分之二十,这意味著他的学习速度比普通人快了不止一个量级。
    第七天,左城开始在纸上设计算法框架。
    深度强化学习的核心思路很简单:让一个智能体在环境中不断试错,通过奖惩机制学习最优策略。应用到星间链路调度上,就是让ai模型在仿真环境中不断尝试不同的频谱分配方案,找到频谱利用率最高的那一个。
    但设计容易,实现难。状態空间怎么定义?动作空间怎么设计?奖励函数怎么构造?每一个选择都会影响最终的效果。
    左城拿出智能星网调度系统的叶片描述,仔细研读。
    叶片提供的关键参数帮了大忙。状態空间应该包含链路质量、卫星位置、频谱占用率三个维度;动作空间应该设计为连续型,而不是离散型,因为频谱分配的粒度越细,优化空间越大;奖励函数应该以频谱利用率为主,加上链路稳定性的惩罚项。
    左城把这些参数整理成一份技术文档,交给了唐旭。
    “按照这个框架搭仿真环境。“左城说,“状態空间三维,动作空间连续,奖励函数用这个公式。“
    唐旭接过文档,看了一会儿,表情从困惑变成了震惊。
    “左总,这个框架很专业。你在哪学的?“
    “这几天自学的。“左城说,“別问怎么学的,按框架做就行。“
    唐旭没有再追问。他知道左城的学习能力远超常人,从通信到物联网到现在的ai,每次都能在最短时间內掌握核心知识。这种能力他解释不了,只能归结为天赋。
    三天后,仿真环境搭好了。唐旭报告说环境跑通了,状態空间和动作空间的定义完全按照左城的框架,奖励函数也实现了。
    “好,下一步是训练模型。“左城说,“gpu伺服器到位了吗?“
    “到了,韩露加急採购了四块rtx2080ti,昨天刚装好。“
    “四块够用吗?“
    “480颗卫星的仿真环境,四块gpu跑一个dqn模型大概需要三天。“唐旭说,“如果要跑多个模型对比,可能需要一周。“
    “一周太久了。“左城说,“我给你一个训练参数配置,学习率设为0.0003,批次大小256,经验回放池大小100万,目標网络更新频率每1000步。用这个配置跑,应该能把训练时间压缩到两天。“
    唐旭记下了参数,有些疑惑:“这些参数你是怎么確定的?“
    “试出来的。“左城说。他当然不能说这些参数是叶片描述里直接给出的。
    唐旭走后,左城打开系统面板看了一眼。万物互联枝干上的叶片数量又有了变化,从十五枚增长到了十六枚,新长出的一枚叫“神经网络架构搜索“。这枚叶片的能力是自动搜索最优的神经网络结构,减少人工调参的环节。
    来得正好。左城把nas的思路融入了算法设计中,在训练脚本里加了一个自动架构搜索模块。这样一来,模型不仅能学会最优调度策略,还能自动找到最適合自己的网络结构。
    技术增幅x1.2的效果在这件事上体现得淋漓尽致。同样的训练任务,如果没有增幅,可能需要五天才能收敛;加上增幅,两天就够了。这就是科技树的威力,看似只是百分之二十的提升,但放在关键节点上,省下来的时间就是命。
    左城合上笔记本电脑,走到窗边。夜色已深,科技园区的灯火稀疏,只有几栋办公楼还亮著灯。他知道其中一盏灯下面,唐旭正在跑训练。
    他给於颖发了条消息:“空空,谢谢你的论文推荐。强化学习的框架我已经搭好了,正在训练模型。“
    於颖回覆:“你真学了?才两周?“
    “別小看你哥。“
    “我没小看你,我是觉得太不可思议了。“於颖发了一个震惊的表情,“我博一的师姐学了半年强化学习才勉强入门,你两周就搭好框架了?“
    左城笑了笑,没有回覆。他不能告诉於颖,自己有科技树在背后加持。在別人眼里,他是天才;但只有他自己知道,天才背后是一棵看不见的科技树。
    两天后,唐旭兴冲冲地跑进左城的办公室。
    “左总!模型收敛了!频谱利用率百分之七十六!“
    百分之七十六。加上技术增幅百分之二十的效果,最终利用率將达到百分之九十一,远超百分之八十的设计目標。
    左城深吸一口气,但面上保持著冷静:“跑过全量仿真了吗?“
    “正在跑,预计今天下午出结果。“
    “好,跑完告诉我。“
    唐旭走后,左城靠在椅背上,嘴角微微上扬。ai方向的第一步迈出去了。402没有ai团队?没关係,他一个人就是一支ai团队。
    至少在这个阶段,他一个人就够了。但等到ai枝干真正激活的那一天,402需要一个真正的ai团队来支撑。
本站所有小说均来源于会员自主上传,如侵犯你的权益请联系我们,我们会尽快删除。

腐文书,免费小说,免费全本小说,好看的小说,热门小说,小说阅读网
版权所有 https://www.fuwenshu1.com All Rights Reserved, 联系邮箱:ad#taorouwen.com