网络波动不给出款处理方法 【AI简报20220513】高通推出下一代机器人解决方案、英特尔推出新款芯片Gaudi2
嵌入式AI
原文:
随着5G扩展至智能手机以外的众多领域,高通技术公司积极利用5G拓展和变革机器人行业。在一年一度的高通5G峰会上,公司推出高通机器人RB6平台和高通RB5自主移动机器人(AMR)参考设计,扩展其具备前沿5G和边缘AI技术的机器人解决方案路线图。高通技术公司最新的先进边缘AI机器人解决方案将支持打造更高效、更自主、更先进的机器人。上述解决方案将助力推动众多商业领域的创新,包括AMR、配送机器人、高度自动化制造机器人、协作机器人、城市空中移动(UAM)飞行器、工业无人机基础设施和自主安防解决方案等。
上述全新解决方案融合了增强的高通AI引擎和5G功能,将支持包括以下范例在内的前沿应用并赋能创新,助力打造更智能、更安全的机器人和环境:
面向在众多行业用例中计划采用地面机器人的终端厂商和机器人制造商,高通机器人RB6平台和高通RB5 AMR参考设计将助力推动行业应用的演进,覆盖政务应用、物流、医疗、零售、仓储、农业、建筑和表计行业等。上述全新解决方案将加速行业数字化转型,并成为工业4.0的关键推动因素。
高通技术公司业务拓展高级总监兼自主机器人、无人机和智能设备负责人Dev Singh表示:“基于高通技术公司领先机器人解决方案业务的成功增长与强劲势头,我们解决方案路线图的扩展将带来增强的AI和5G技术,在机器人、无人机和智能设备领域支持更智能、更安全、更先进的创新。我们利用5G连接和顶级边缘AI技术推动机器人创新,这将改变人们思考和应对挑战的方式,并满足行业在数字经济时代不断演变的期待。”
2. 挑战英伟达市场!英特尔推出新款人工智能芯片,性能顶A100芯片2倍
原文:
5月10日晚间,在英特尔On产业创新峰会(Intel )上,英特尔公司推出了一款用于深度学习训练的名为的新芯片,专注于人工智能计算。英特尔今年加大了对NVDIA主导的人工智能芯片市场的竞争力度。
是以色列人工智能芯片初创公司 Labs 的第二代处理器。它采用了台积电7纳米制程工艺,制程从上一代的16纳米跃升7纳米,带来了元器件数量的显著提升,张量核心从10个增加到24个, 显存从32GB HBM2升级到96GB HBM2E, 高速缓存SRAM从24MB翻倍到48MB。这款芯片以的高能效架构为基础,面向数据中心的计算机视觉和自然语言应用。
2019年底,英特尔以20亿美元收购了 Labs公司。该公司是一家为数据中心提供可编程深度学习加速器的厂商。近年来,人工智能芯片初创公司获得巨额投资,因为人工智能计算是数据中心增长最快的领域。
3. 迈向模仿人脑的光电芯片
原文:
人类的大脑由860亿个神经元组成,这些神经元通过神经网络连接在一起,可以完成非凡的计算能力。这是如何做到的?
IEEE 最近与科罗拉多州博尔德国家标准与技术研究所的物理学家 进行了交谈,他的工作可能会为这个问题带来一些启发。正在寻求一种计算方法,这种方法可以为高级形式的人工智能提供动力,即所谓的尖峰神经网络,与目前广泛使用的人工神经网络相比,它更接近于模拟大脑的工作方式。如今,主流范式使用运行在数字计算机上的软件来创建具有多层神经元的人工神经网络。事实证明,这些“深层”人工神经网络非常成功,但它们需要巨大的计算资源和能量才能运行。这些能源需求正在迅速增长:尤其是,训练深层神经网络所涉及的计算变得不可持续。
长期以来,研究人员一直被这样一种前景所吸引,即创造出更能反映生物神经元网络中发生的事情的人工神经网络。当一个神经元接受来自多个其他神经元的信号时,它可能会达到一个激活阈值水平,导致它“激发”,这意味着它会产生一个输出信号尖峰,然后发送到其他神经元,可能会诱导其中一些神经元也被激发。
4. 存内计算并不满足于现有的算力
原文:
存内计算技术打破了冯诺依曼架构的限制,冲破了内存墙,为半导体产业带来了新的创新。但你可能会问,存内计算的应用场景到底有哪些呢?
边缘计算的下一步
边缘计算可以说是众多存内计算技术与公司走的第一步,存内计算凭借其低功耗的特性,可穿戴等端侧设备可以说是为该技术量身定制的。在其架构的优越性之下,存内计算又比一众传统边缘AI芯片有着更加可观的算力。所以,对于智能手表、智能眼镜这类对功耗需求高,又有一定AI计算需求的应用来说,存内计算芯片无疑是不二之选。
不过如今的MCU已经将功耗降到了极低的水准,部分也能完成一些简单的AI运算,如果仅仅是在语音识别、事件检测这些应用上来竞争的话,即便这些存内计算有优势,可能在实际使用过程中,除了续航之外,用户的切身感知到的变化会比较小。
但边缘计算并不只局限于此,还有图像处理这一老大难亟待解决,这一应用相比上述那些又有着更高的算力要求。国内领先的存内计算公司知存科技近日透露,他们正在打造算力更强的下一代存内计算芯片就是面向超清视频处理的,根据其给出的演示所示,该芯片主要针对AI插帧、AI超分辨率、AI视频降噪和AI高动态分辨率,这些在边缘端感知更加明显的AI应用。
而以上这些AI应用,也仅仅只是存内计算往智能手机等消费级边缘端走的下一步,边缘AI芯片的终极目标都是自动驾驶。如若能做到更高的算力,存内计算芯片就有机会冲进汽车市场,与自动驾驶芯片的玩家硬碰硬。
超越GPU的算力
既然存内计算已经证实了自己在边缘端的算力优势,那有没有机会与GPU这类算力猛禽一决高下呢?我们以波动仿真为例,波动仿真在许多应用中都有普及,比如医学影像、石油勘探、减轻地震灾害以及国防系统等。然而大部分应用在使用波动仿真时,都要用到超级计算机对波动方程多重求解。虽然这类应用不像可穿戴一样,对于成本和体积要求不高,但对于速度和能耗还是比较重视的。
目前主导的波动仿真解决方案还是CPU和GPU,但由于本身的并行性缺失,即便是高端的CPU运行再小的问题,也需要大量时间才能完成计算。而GPU凭借其巨大的内存带宽优势,无疑拥有着更高的速度。即便如此,在实际应用中,波动仿真是一个极端的数据移动过程,GPU依然会遇到瓶颈,即便几百GB/s的内存带宽没法免受影响,最终导致用于数据移动的功耗甚至高于计算的功耗。
而存内计算可以减少处理器之间的数据移动,因为它消除了片外与片内存储之间的数据移动,但存内之间的数据移动依然是一大问题。埃克森美孚的研究人员就想出了Wave-PIM这种存内计算方案,利用超大规模集成电路常用的H树架构,来减少内存区块之间数据移动的延迟。他们以900GB/s带宽的16GB HBM2内存进行模拟,得出了52.(FP32)的成绩,超过了Tesla V100 GPU。这证明了存内计算芯片,即使是在服务器级和HPC级的应用上,也有着独到的优势。
不过如今GPU内存带宽已经随着HBM3和英伟达的H100芯片做到了3TB/s,而业界目前在内存带宽上占优的存内计算方案,法国公司UPMEM的DDR4 PIM,也只做到了2.5TB/s。哪怕存内计算有着功耗上的巨大优势,但性能上要想进一步超越GPU,还是需要更先进的内存技术和更多的架构创新。好在如今越来越多的公司开始走上存内计算的商业化尝试,存储厂商们虽然还没有确定走这一方向,但存内计算与其发展技术并无冲突,而且从生产创新和投资方向来看,他们已经开始布局这一技术了,未来高性能计算上很有可能出现存储厂商与GPU厂商互卷的情况。
AI热点
5. 「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发
原文:
论文地址:
假如使用单一序列模型就能解决所有任务,是再好不过的事情,因为这种模型减少了不必要的麻烦。不过这需要增加训练数据的数量和多样性,此外,这种通用模型随着数据的扩充和模型的扩展,性能还会提高。从历史上看,更擅长利用计算的通用模型最终也会超过特定于专门领域的模型。
今日,受大规模语言建模的启发, 应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身()特点。
Gato 可以玩雅达利游戏、给图片输出字幕、和别人聊天、用机械臂堆叠积木等等。此外,Gato 还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token。
6. 今年的谷歌I/O大会超「硬」,还展示了下一代AI模型
原文:
2022 年的谷歌 I/O 大会,观众席终于又坐满了人,虽然其中大多数是谷歌自己的员工。
「去年我们分享了计算机科学的最新发展,而我们的目标一直是让全世界的信息变得让全人类都能访问,」谷歌 CEO 桑达尔 · 皮查伊( )开场说道。
今天的大会上,谷歌展示的也大多是人们都可以用到的,即将实装且免费的应用。
如今机器学习工具已经让这一愿景很大程度上成为现实。谷歌翻译中实用化的机器学习模型已经可以不需要双语对应的语料库即可自行学习新语言。
翻译系统是人工智能最经典的任务之一,谷歌的机器翻译在多年发展过程中一直保持领先,还催生出了像 预训练模型这样的重要 AI 技术。在 I/O 大会上,谷歌宣布自家的翻译系统新增了 24 种新的语言,其中包括一些小众的美洲原住民语言,覆盖共计 3 亿人。
7. 谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成
原文:
「我把饮料撒了,你能帮我一下吗?」这是我们日常生活中再正常不过的一句求助语。听到这句话,你的家人或朋友往往会不假思索地递给你一块抹布、几张纸巾或直接帮你清理掉。
但如果换成机器人,事情就没有那么简单了。它需要理解「饮料撒了」、「帮我一下」是什么意思,以及到底要怎么帮。这对于平时只能听懂简单指令(如移动到 (x,y),抓取可乐瓶)的机器人来说确实有些困难。
为了让机器人听懂,你可以把上面那句话分解成几个简单的指令,但这一过程的繁琐可能会让你放弃使用机器人。为了消除这种尴尬,我们需要给机器人安装一个聪明的大脑。
深度学习领域的研究表明,拥有优秀语言理解能力的大型语言模型(如 GPT-3, PaLM 等)有望充当这个大脑。对于同样一句话(我把饮料撒了,你能帮我一下吗?),大模型们给出的回应可能是:「可以试试用吸尘器」或「你想让我去找个清理工具吗?」
可以看出,大型语言模型可以理解稍微复杂一些的高级指令,不过它们给出的回答并不总是可行的(比如机器人可能没办法拿取吸尘器或屋子里没有吸尘器)。要想将二者更好地结合,大模型还需要了解机器人的技能范围以及周围的环境限制。
8. 上换头术升级:浙大新模型,GAN出一头秀发
原文:
虽然能令人置信地换脸,但没法同样换好头发。现在浙大与瑞典研究者都扩宽思路,用GAN或CNN来另外生成逼真的虚拟发丝。
技术面世的2010年间末叶,正好赶上了川普时代。
无数搓手打算用来好好恶搞大总统一下的玩梗人,在实操中遇到了一个不大不小的障碍:
各家类软件,可以给图像换上金毛闯王的橙脸,但那头不羁的金发实在让AI都生成不出令人置信的替代品。
其实这是老问题遇到了新挑战。如何栩栩如生地复现人像模特的头发,这是一个自希腊-罗马时代的雕像师开始就很觉棘手的难题。
人脑袋平均有大概根头发丝,并且因为颜色和折射率的不同,在超过一定的长度后,即使在计算机时代也只能用复杂物理模型进行模拟,来进行图像移动和重组。
目前,只有自20世纪末以来的传统CGI技术可以做到这一点。
当下的技术还是不太能解决这个问题。数年来,也只发布一个仅仅能捕捉短发的「头部全体毛发」模型,发部还是僵硬的。这还是一款在业内领先的软件包。
最近,DFL的合作伙伴做出了语义分割模型,能使用户在输出图像中包括到耳部和头发的图形细节呈现。
这两套软件包都来自2017年的源代码,在当时颇受争议。
就算现在模型要呈现的头发图像非常短,输出结果的质量往往也很差,头像好像是叠加上去的一样,不像是浑然一体的图像一部分。
9. Yolo框架大改 | 消耗极低的目标检测新框架
原文:
1.前言
在过去的十年中,深度神经网络(DNNs)在各种应用中表现出显著的性能。当我们试图解决更艰难和最新的问题时,对计算和电力资源的需求增加已经成为不可避免的。
(SNNs)作为第三代神经网络,由于其事件驱动(event-)和低功率特性,引起了广泛的兴趣。
然而,SNN很难训练,主要是因为它们的神经元复杂的动力学和不可微的尖峰操作。此外,它们的应用仅限于相对简单的任务,如图像分类。
在今天的分享中,作者研究了SNN在一个更具挑战性的回归问题(即对象检测)。通过深入分析,引入了两种新的方法:-wise 和 with ,这两种方法都为深度SNN提供了快速的信息传输。因此,提出了第一个基于尖峰的目标检测模型,称为-YOLO。
2.新框架贡献
尽管SNN有很多好处,但目前仅能处理相对简单的任务,由于神经元复杂的动态性以及不可导的操作,暂时没有一个可扩展的训练方法。DNN-to-SNN是近期广泛的SNN训练方法,该方法将目标DNN转化成SNN的中间DNN网络进行训练,然后转成SNN并复用其训练的参数,在小数据集分类上能达到不错的性能,但是在大数据集上分类结果不太理想
论文打算使用DNN-to-SNN转化方法将SNN应用到更复杂的目标检测领域中,图片分类只需要选择分类就好,而目标检测则需要神经网络进行高度准确的数字预测,难很多。在深入分析后,论文实现YOLO的转换主要面临以下两个问题:
来自韩国的比较冷门或者前沿一点的文章,研究方向是脉冲神经网络( )与YOLO算法的融合,发现韩国人特别擅长对YOLO,SSD等算法进行魔改啊。
重磅闲聊
10. 被Linux之父骂醒?英伟达破天荒开源GPU内核驱动,网友:活久见
原文:
「英伟达是我们遇到的硬件厂商中最麻烦的一个。」这是 Linux 内核总设计师 Linus 十年前说过的一句原话。
当时,Linus 正在芬兰赫尔辛基阿尔托大学举办的学生和开发者研讨大会上接受采访。在会上,一位现场观众称其买过一款搭载了集成显卡以及 独立显卡的笔记本电脑,但是在 Linux 下通过 技术进行独立显卡与集成显卡之间的切换却得不到驱动的支持( 是英伟达开发的双显卡切换技术,它可以实现笔记本电脑中独立显卡与主板内置显卡之间无缝、自动、实时的切换),并就此询问 Linus 的想法。就是在这种语境下,Linus 说出了上面那句话,然后转向摄像机镜头竖起了中指并爆了粗口。
作为开源操作系统 Linux 之父,Linus 一直是开源的忠实拥护者,他一直希望英伟达能够开源他们的驱动。如今,这一天真的来了。
刚刚,英伟达宣布,他们开源了自己的 GPU 内核驱动模块,此事在开发者社区引起轰动。
这次开源使用双 GPL/MIT 许可,从 R515 驱动程序版本开始。开发者们可以在 上的 Open GPU repo 中找到这些内核模块的源代码:
英伟达表示,此次开源将大幅提升用户在 Linux 系统中使用英伟达 GPU 的体验,可使其更紧密地与操作系统集成,有利于开发人员的调试、集成和反馈。对于 Linux 发行版提供商,开源的内核模块增加了易用性,还改善了开箱即用的用户体验,以签署和分发 GPU 驱动程序。 和 SUSE 能够立即将这些开源的内核模块与 和 SUSE Linux 打包在一起。
开发人员可以跟踪代码路径,了解内核事件调度如何与他们的工作负载交互,以便更快地进行根源调试。此外,企业软件开发人员现在可以将该驱动无缝集成到为他们的项目定制的 Linux 内核中。这将进一步提高 GPU 驱动的质量和安全性,并得到 Linux 终端用户社区的反馈。
