浅谈AI跑分机制，苏黎世ETHZ测试软件解读

2018-12-27 14:14 来源：互联网我来投稿撤稿纠错

智能手机技术正迎来摩尔定律的发展瓶颈，移动处理器的性能增长越来越慢，但用户对计算能力的需求增速却并未减缓，甚至在人工智能、大数据、物联网等兴起后，对计算能力、计算功耗和计算成本反而有了新的要求。目前单纯的CPU或GPU性能已经无法满足新型运算的需求，而随着移动AI时代的到来，AI芯片也成为突破摩尔定律的希望，但AI芯片的性能有多强，目前的评判标准也大不相同。

以往说到对一款芯片的性能评判，最简单粗暴的方式就是借助于跑分软件，例如知名的GeekBench、3DMark、安兔兔、鲁大师等，这些性能测试软件在曾经的CPU+GPU协作时代闻名遐迩，一度成为对性能评估的直观工具。但是面对AI芯片复杂而不断迭代的运算模型和跳出传统框架的算力逻辑，使得传统测试软件对AI芯片的测试方法追赶已显得力不从心。

例如近期联发科推出的全新Helio P90单系统SoC解决方案，这款芯片在AI方面为用户展现了极强的算力，凭借APU 2.0的运算加速，该芯片的综合跑分数据高达25645分，一举超过了高通骁龙855平台的22082分，大胜同级别的其他竞争对手，引起业界震动。而随着跑分数据的公布，一个很少为人知的专用AI跑分软件ETHZ AIBenchmark(也被称之为苏黎世跑分)也浮出了水面。

这款针对AI芯片的跑分软件由有着“欧陆第一名校”之称的苏黎世联邦理工学院研发，该校所属的人工智能实验室在全球机器视觉、深度学习和机械工程等方面都有着深厚的积累，培养出了无数人工智能领域的人才。而这款AI跑分软件也是其在针对性测试领域的集大成之作，因为对AI的综合能力有一个准确的判断受到了业内的认可，包括华为P20、iPhone X等同样锁定AI的手机均非常看中这款测试软件的得分表现。

相比于传统的跑分测试软件，苏黎世联邦理工学院研发的这款AIBenchmark在对AI的评测上可以说是与众不同。例如为了确定智能手机是否功能强大，且能否以快速运行最新的深度神经网络来执行基于AI的任务，它就提供了8大项的核心测试环节：

MobileNet-V1神经网络的目标识别/分类

对象识别/初始分类-V3神经网络

人脸识别

图像去模糊

基于CPU、NPU、DSP的VG-19神经网络图像超分辨率

仅在CPU上的SRGAN神经网络的图像超分辨率

语义图像分割

照片增强

相比于传统的跑分测试软件来说，这8大测试环节基本上已经可以覆盖到目前大部分的AI实践运算，例如AI物体识别(测试1/2/3)、AI影像分类(测试7)、AI图像增强(测试4/5/6/8)等，而它为了完整发挥平台的AI算力，它不只支持Android神经网络API，也可以支持芯片厂商定制的程序，以充分调动芯片厂商CPU、GPU、ISP等多个硬件进行协同处理。

例如在针对联发科P90的AI算力测试部分，苏黎世的跑分机制就将其分为了三组，第一组(测试1，2，3项目)中，将使用完全由Android神经网络API(NNAPI)支持的CNN模型，测试会对移动设备进行硬件加速，主要测试的部分围绕着视觉感知来进行，包括常见的目标识别、目标分类和人脸识别等抽象级图形部分。但为达到这一环节的测试需要芯片组有每秒10到100G的MACs(每秒乘累加次数)的运算能力，基本上目前大部分的设备都可以完成这一部分的操作。

第二组(测试7)真要针对的是图形语言分割部分。与第一组的图像分类相比，这部分主要是获得像素级图像理解以方便后期的分割动作，这项测试意味着每个像素必须被独立归类，例如行人、家具、道路，天空，植被等，此外还必须进行图形的主题深度估计和运算估计，这部分基本上要求到50到500G MACs的运算能力，考虑一般低性能的设备很难实现快速准确的分割设计，所以这部门对算力其实已经有了很高的要求。

第三组(测试4、5、6、8)则是使用CNN结构(Convolutional Neural Network，卷积神经网络技术，即基于深度学习)的端到端的超分辨率算法SRCNN(Super-Resolution)进行的图形像素化部分，主要测试的部分包括图形去模糊、多元化的图像超分辨率和图形增强，目前传统的手动编码框架对物体识别的精度基本上都没有超过74%，而2012年引入的深度神经网络(DNNS)则将这一准确率提高到84%，不过在微软、Google等企业的推动下，这部分的准确率已经高达96%，不仅远超出人类的辨别能力，而且也大幅改善了AI的实用能力。

不过由于这个部分中ResNet架构和CNN将会发挥重大的作用，由于涉及到图片的重构、模拟、训练和补充，不仅需要消耗极大量的浮点运算和视觉还原(涉及在GPU或特制AI加速器上运行神经网络)，还对设备在CPU、GPU、NPU(APU)等提出了相当大的协作处理能力，通常要求每秒高达200-5000 GMACs的运算能力，如果不是定位高端芯片或设备基本很难完成这一项，而联发科P90最终也以其高达1127 GMACs的算力，在这一领域取得第一的优异成绩。从ETHZ苏黎世AI Benchmark的工作机制来看，目前国产AI跑分软件在AI层面似乎就显得初级了些，这些跑分软件目前大部分都仅使用了Inception V3，ResNet 34，VGG16(测试2、3、5)这三项神经网络的测试指标，而这三项指标虽然也能判别AI识别图像的能力，但还只能停在浮点运算或者是智能识图方面，且基本上都是通过算法和统计和评估AI时，测试框架非常单一，对于AI芯片今后能作为广泛用途的项目测试或是较新的算法则根本没有涉足，所以目前市面上常见的传统AI跑分测试软件其实很难客观的对AI芯片做出正确评价。

虽然ETHZ苏黎世跑分软件并不是第一个测试AI性能的应用，但就目前来看它确实是最全面的的AI评分软件。它不仅能够把AI性能测试细分为9个部分进行检测，大家熟知的智能识图仅仅只是其中一项，其他的还包括人脸，图像降噪，画面分割等项目均包含在内，不仅实现了对主流AI应用的测试，还进一步深入到对AI未来技术框架的能力探索评估中。当然更具意义的是，此前人工智能开发主要由PC和服务器上使用，很少考虑智能手机操作环境中的需求，而ETHZ苏黎世跑分显然有助于智能手机厂商对AI的不断优化。

所以从ETHZ苏黎世跑分软件中我们也发现，联发科Helio P90确实有其亮点所在，得益于独特的AI专核和APU 2.0加速引擎，这款芯片实现了前所未有的AI算力突破，高达25645分的成绩不仅位居第一，而且也实现了对其竞争对手高通的反击。另外根据数据显示，联发科P90的AI 算力高达 1127GMACs(每秒可操作11270亿次定点乘累加次数)，而例如骁龙845的成绩大约是每秒600 GMAC、麒麟970的数值大概是450 GMAC左右，所以联发科P90在AI领域实际上已经走到了行业前列。

从目前联发科专注AI的策略来看，这个思路是对的。更关键的是，联发科正在以AI体验作为重心点，基于Helio P90的AI算力推出了3D人体姿态识别与追踪、AI焦点直播、AI人像留色、AI降噪夜拍等一系列让用户能感知到的应用特性，以用户体验取代了传统的跑分和参数，不仅颠覆了智能手机市场的游戏规则，也让联发科在新高端的品牌转型之路上站稳了脚跟。

本文参考内容：

arXiv网站上发表的题为《PIRM智能手机感知图像增强挑战》的论文，2018年10月2日出版。

thome网站名为《物体侦测物(Object Detection) + 影像标题(Image Captioning)》的著作，署名作者I code so I am，2017年12月22日发表。

本文亦参考了Facebook AI 研究院(FAIR)开源的目标检测平台Detectron的工作流程和方式。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: ai技术; ai智能

汇聚中国AI顶尖力量云天励飞参与华为AI大模型联合创新

2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队

标签：

ai技术
用友大易：迈入AI招聘2.0时代，让人力资源回归本质

这几个月来，以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后，AI仿佛已经沉寂了很久，ChatGPT的横空出世就如同一束耀眼的光芒，让AI这个名词重回C位。过去在AI1.0时代，主要通过训练模型来实现图像识别、声音识别、语言处理等特

标签：

ai技术
新发布的PaaS2.0，能否助力涂鸦智能再起飞？

文：互联网江湖作者：志刚2023年的IoT需要一个新故事。6月29日，涂鸦智能在开发者大会上，发布了企业级战略PaaS2.0，希望通过一个平台+四大开发服务，建立起IoT生态。对于这场发布会，市场的态度是积极的。美东时间6月29日收盘，涂鸦智能美股股价上涨5.6%，来到1.87美元/股。近日股价稳定

标签：

ai技术
大模型难掩AI制药的悲伤：越过山丘，无人等候

美团曾经的二号人物王慧文对标OpenAI的创业项目光年之外，以20亿卖给美团，再度引发市场对大模型的热议。

标签：

ai技术
拾起王慧文的AI梦，美团冲向“光年之外”？

2020年底，王慧文在朋友圈写下这句话时，外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是，一个曾经多次创业，正值壮年的互联网老将心中的创业热情是难以熄灭的。

标签：

ai技术

体验了下钉钉AI助理，真羡慕现在的“打工人”...

对于万千打工人来说，AI不会替代我们，反而会成为工作中重要的帮手

标签：

钉钉
历时400多天，国产大模型全面赶超GPT-4？

赶超GPT-4的阶段性升级，可以看作是国产大模型有序迭代部署、不断拉近差距的标志，切莫像手机跑分那样，在过度营销的作用下，沦为被群嘲的对象。

标签：

大模型
微博COO王巍：微博已接入阿里云通义大模型，是通义最早一批外部客户

5月9日，记者获悉，微博已接入阿里云通义大模型，提升内容生产效率和社区活跃度。微博不仅是阿里云最早一批上云客户，也是阿里云通义大模型的最早客户。微博COO、新浪移动CEO王巍表示，AIGC发展速度远超想象，包括通义2.5在内，已涌现出不少大模型能力超越GPT4。同时他指出，大模型开源势不可挡。“阿里
通义灵码推出企业版，底座模型CodeQwen1.5登顶权威榜单

5月9日阿里云AI峰会，通义灵码宣布推出企业版，满足企业用户的定制化需求，帮助企业提升研发效率。通义灵码是国内用户规模第一的智能编码助手，基于SOTA水准的通义千问代码模型CodeQwen1.5研发，插件下载量已超350万。通义灵码熟练掌握Java、Python、Go、JavaScript、Type

标签：

通义千问
通义千问APP更名为通义APP，免费开放通义全栈能力

5月9日消息，通义大模型品牌升级，“通义千问APP”更名为“通义APP”，集成通义大模型全栈能力，免费为所有用户提供服务。通义APP以性能媲美GPT-4Turbo的基模为底座，并把通义实验室前沿的文生图、智能编码、文档解析、音视频理解、视觉生成等能力“Allinone”，成为每个人的全能AI助手。通

标签：

通义千问
阿里云发布通义千问2.5，性能全面赶超GPT-4 Turbo

5月9日消息，阿里云正式发布通义千问2.5，模型性能全面赶超GPT-4Turbo，成为地表最强中文大模型。同时，通义千问最新开源的1100亿参数模型在多个基准测评收获最佳成绩，超越Meta的Llama-3-70B，成为开源领域最强大模型。相比通义千问2.1版本，通义千问2.5的理解能力、逻辑推理、指

标签：

通义千问

通义大模型通过阿里云服务企业超9万，开源模型下载超700万

5月9日消息，阿里云公布最新数据，通义大模型通过阿里云服务企业超9万，通义开源模型累计下载量突破700万。通义落地应用进程加速，现已进入PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域，成为最受中国企业欢迎的大模型。阿里云AI峰会现场，小米旗下的人工智能助手“小爱同学”已与阿里

标签：

通义千问
阿里云发布通义千问2.5，中文能力地表最强

通义大模型发布一周年之际，迎来重要的历史性时刻。5月9日，阿里云正式发布通义千问2.5，模型性能全面赶超GPT-4Turbo，成为地表最强中文大模型。同时，通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Llama-3-70B，成为开源领域最强大模型。历经一年多追赶，国产大模型终于进入

标签：

通义千问
AI PC，到底谁的梦想、谁的红利？

世界上第一台通用计算机是1946年诞生的埃尼阿克，世界上第一台便携电脑是1981年诞生的“奥斯本1号”，世界上第一部智能手机是1993年诞生的IBMSimon。它们之间看起来毫无关系，但却暗含一种关于创新的微妙潜规则——随着时间推移，产品创新对设备本身的改动越来越小，对设备能力的拓展越来越大。说人话
蓝色光标瞄准千亿，AI为何成战略胜负手？

文/崔大宝当今商业界，人工智能（AI）无疑是不可或缺的话题，更是“新质生产力”的代表。2023刚一开年，由AI主导的这场史无前例的大变革，就以摧枯拉朽之势，推动“AI+”成为后十几年的发展主线，并以AGI底层技术力量，塑新千行百业，改变甚至颠覆现有的竞争格局。投射到万亿营销市场，从BATH的通用大模

加载更多

浅谈AI跑分机制，苏黎世ETHZ测试软件解读

相关文章

汇聚中国AI顶尖力量云天励飞参与华为AI大模型联合创新

用友大易：迈入AI招聘2.0时代，让人力资源回归本质

新发布的PaaS2.0，能否助力涂鸦智能再起飞？

大模型难掩AI制药的悲伤：越过山丘，无人等候

拾起王慧文的AI梦，美团冲向“光年之外”？

体验了下钉钉AI助理，真羡慕现在的“打工人”...

历时400多天，国产大模型全面赶超GPT-4？

微博COO王巍：微博已接入阿里云通义大模型，是通义最早一批外部客户

通义灵码推出企业版，底座模型CodeQwen1.5登顶权威榜单

通义千问APP更名为通义APP，免费开放通义全栈能力

阿里云发布通义千问2.5，性能全面赶超GPT-4 Turbo

通义大模型通过阿里云服务企业超9万，开源模型下载超700万

阿里云发布通义千问2.5，中文能力地表最强

AI PC，到底谁的梦想、谁的红利？

蓝色光标瞄准千亿，AI为何成战略胜负手？

热门排行

编辑推荐