上周,平头哥以产品命名猜想为话题预告本周将发布重磅新品。2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋发布了阿里的首款AI芯片含光800,该芯片是一款云端AI芯片,也是全球最高性能的AI推理芯片。含光800主要应用于视觉场景,已经在阿里巴巴集团内多个场景大规模应用,其它企业可以通过阿里云获得含光NPU的算力。

阿里巴巴集团首席技术官兼阿里云智能总裁张建锋

据悉,含光为上古三大神剑之一,该剑含而不露,光而不耀,正如含光800带来的无形却强劲的算力。

含光800为何能打破记录?

根据张建锋的说法,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。

含光800不仅Resnet50的成绩打破记录,从设计到商用的速度也很快。张建锋表示,平头哥用大概一年半的时间实现了含光800从设计到商用。平头哥用7个月完成了前端设计,之后用3个月就成功流片。仅成立一年的平头哥半导体为何这么快就能设计出云端AI芯片?

要知道,芯片作为典型的长周期产品,想加速芯片的商用,在硬件和软件方面都需要有很强的实力,特别是在AI时代,软硬一体化的重要性更加突显。平头哥就得益于阿里在软硬件方面的积累,算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果;硬件方面,阿里巴巴此前已在服务器、FPGA以及存储等领域拥有多年研发经验,此外,平头哥团队在体系结构、编译技术等领域拥有深厚的技术储备。

含光800性能的突破得益于软硬件的协同创新,芯片架构方面,含光800采用创新的架构,针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了I/O需求和数据的搬移。NPU同时深度优化了卷积,矩阵乘,向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,把AI运算的性能和能效都推向极致。

其中,性能的提升必须解决内存墙问题。所谓的内存墙,是指采用采用冯诺依曼结构的处理器,存储和运算处理分离,当进行深度神经网络处理时,算力得到了提升,但大量读写运行操作会受到带宽限制,芯片的整体性能提升也同时受到限制。

平头哥的做法是通过自研架构大幅减少对内存的访问,在保证性能的情况下,把芯片功耗降到最低水平。具体而言,含光800会根据神经网络推理运算特征,设计特定的硬件、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。

3个月发3款芯片新品,阿里“硬”了

阿里首款AI芯片发布之后,其从云端到终端的产品布局已经十分明确。这些产品也都密集在最近几个月发布,今年7月的阿里云上海峰会上,阿里巴巴集团副总裁戚肖宁发布了高性能RISC-V架构处理器玄铁910。玄铁910集成16个核心,主频2.5GHz,采用12级乱序流水线,最大支持8MB二级缓存,搭载AI增强的向量计算引擎,可用在人工智能加速器、网络通信和自动驾驶等领域。现场公布的数据显示,玄铁910较业界主流芯片性能提高40%,较标准指令性能高出20%。

8月,平头哥又发布SoC芯片平台“无剑”,无剑平台由SoC架构、处理器、各类IP、操作系统、软件驱动和开发工具等模块构成,面向AIoT提供的集芯片架构、基础软件、算法与开发工具于一体的整体解决方案。根据官方的说法,无剑能够帮助芯片设计企业将设计成本降低50%,设计周期压缩50%。

需要指出,7月发布的玄铁910是基础单元处理器IP,无剑是芯片设计平台,所以含光800是阿里的首款AI芯片。这也意味着,阿里的C-Sky系列、玄铁系列AIoT终端芯片IP,一站式芯片设计平台无剑,以及最新发布的云端AI芯片构建了阿里端云一体的芯片生态,平头哥端云一体全栈芯片产品家族雏形已现。

更值得关注的是,端侧的7款C-Sky系列嵌入式CPU IP核已得到大规模量产验证,授权客户超100家,累计销售超十亿颗,应用于机器视觉、工业控制、车载终端、移动通信和信息安全等领域。

RISC-V架构的玄铁处理器以及无剑SoC平台也已有客户,包括人工智能企业云天励飞、老牌芯片公司炬芯科技等。

含光800也已经实现了大规模应用,应用于阿里巴巴集团内多个场景,例如视频图像识别/分类/搜索、城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。同时,阿里云作为全球前三的云服务提供商,含光的能力将通过云服务对外提供。张建锋现场宣布,基于含光800的AI云服务也正式上线。

另外,在生态建设方面,平头哥还将成立芯片开放社区。

不仅如此,平头哥还在研发用于阿里云神龙服务器的SoC专用芯片。未来,阿里还将进一步完善产品形态,推出包括云端AI训练芯片和终端AI推理芯片,满足更多场景的算力需。

自研AI芯片的终极目的是什么?

阿里从云端到终端AI芯片的布局已经明确,并且也已经有不少客户,这是否意味未来阿里不仅不需要购买芯片,还可能替代其它芯片公司?答案是否定的。在这一轮的AI浪潮中,我们看到无论是国外的谷歌、Amazon、Facebook还是国内的阿里,这些强于软件的科技巨头们都在积极研发AI芯片。

至于其中的原因,Cadence首席执行官、华登国际创始人陈立武此前接受采访时表示:“科技巨头积极布局AI是因为他们不希望落后,因为他们都有大量的数据。当然,科技公司开始做芯片并不意味着传统的芯片厂商会被取代,科技公司希望在一些应用上用自主研发的芯片来提升效率。”

事实也确实如此,就拿阿里来说,其业务横跨电商、金融、物流、云计算、大数据、全球化等场景,用户规模庞大,对算力的需求更高,挑战也更大。传统CPU、GPU和FPGA难以满足所有需求,并且面临成本和功耗挑战。定制化的ASIC芯片能够实现更高的性能同时兼具更低功耗,因此科技巨头们基于对自身业务和需求的了解,纷纷开始自主研发AI芯片,希望在保持领先性的同时,降低整体计算成本。

从全球范围看,谷歌TPU是全球科技企业从软变硬的代表。此次含光800的发布及商用,表明阿里的优势也不再只是在软件领域,在AI芯片的加持下,未来阿里的优势也将是软硬一体的优势。

为了实现这一目标,阿里几年前就开始了布局。2017年云栖大会上,阿里成立达摩院,这是阿里在全球多点设立的科研机构,立足基础科学、颠覆性技术和应用技术的研究。达摩院由全球建设的自主研究中心、高校联合实验室,全球开放研究计划三大部分组成,涵盖量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、下一代人机交互、芯片技术、传感器技术、嵌入式系统等,涵盖机器智能、智联网、金融科技等多个产业领域。

平头哥得到达摩院和阿里云的软实力加持,基于达摩院的算法能力,才能打破了算法和硬件之间的鸿沟,基于阿里云飞天云平台的优势,得以快速形成了端云一体芯片生态。

如今,阿里自主研发芯片的目标也已经部分达成。根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。

显然,平头哥的目的并非是卖芯片,平头哥还会延续了母体阿里巴巴集团“让天下没有难做生意”的愿景,开辟了全新的商业模式,即平头哥模式(以无剑平台为核心),为企业提供普惠算力。

另据介绍,针对AIoT市场有强应用驱动和场景碎片化等特点,芯片公司按照传统的方式设计芯片很难去适应未来的需求,平头哥希望通过端云一体芯片生态为各行业提供普惠算力。

张建锋说:“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光800是平头哥的万里长征第一步,我们还有很长的路要走。”

小结

作为科技巨头,阿里此前更加擅长软件,并且拥有大量的数据。在正在到来的以数据为中心的时代,能够借助AI更快挖掘出数据的价值将成为科技巨头们继续保持领先优势的关键之一。因此,无论是国外还是国内,科技巨头们纷纷开始投入巨大的资源进入技术、资金、人才都非常密集的芯片产业,阿里首款AI芯片的推出,意味着阿里已经不再只擅长软件,在其广泛的应用场景需求的支撑下,阿里将能够实现硬件的快速迭代的完善,在云端和终端进一步释放出软硬结合的优势。

声明:本站所有文章或资源,均来自互联网分享。本站不参与制作或存储,内容仅用于互联网爱好者学习和研究,如不慎侵犯了您的权利,请及时联系站长处理删除。敬请谅解!