2018年7月,在国际权威计算机视觉竞赛PASCAL VOC comp4目标检测竞赛中,Yi+ AI团队获得了目标检测单模型第一名,超越了现有排行榜中的微软研究院、谷歌 、阿里达摩院、Face++等国内外众多知名公司,以精度90.7%的成绩打破了世界记录,成为世界第一家总成绩突破90%计算机视觉企业。同时在Pascal VOC “comp3”中,首次突破80%,刷新世界纪录。
Pascal VOC comp4是众多国内外企业物体检测团队证明自己实力的地方,此次Yi+力压群雄,取得了90.7%的成绩,比第二名的阿里达摩院高了1.5个百分点,在物体检测领域,1.5个百分点意味着需要比对方“多”检测正确6000多个框,同时值得注意的是,此次Yi+AI团队使用的是难度更高的单模型,而第二名的方法是多模型融合。
PASCAL VOC可谓视觉识别类竞赛的鼻祖,包含了物体分类、目标检测、图像分割等任务。PASCAL VOC对计算机视觉的发展具有深远而巨大的影响,后续的ImageNet竞赛的任务设置就基本沿用了它的设定。此前,微软、英特尔、CMU、Facebook、UC Berkeley等国际顶尖研发团队先后在这个排行榜上刷新纪录。
Yi+AI的负责人表示,在此次Pascal VOC comp4竞赛中,Yi+AI团队使用的方法叫做FXRCNN,其中“X”,代表“多元”的意思,意味着Yi+AI使用的结构不仅仅是高准确率的模型,同时也适用多元场景,包括移植到移动端(通过更改Backbone和Head),实现图像分割(增加Mask分支),实现人体关键点(增加Key point分支),实现人脸检测(增加Face分支)。
Yi+提交的深度学习模型,虽然采用了Faster RCNN的基本结构,但有很多不同之处:1)采用ResNeXt作为基础网络,结合FPN实现多尺度特征融合,2)在后处理阶段,采用SoftNMS和多框投票融合;3)通过Yi+海量数据进行预训练;4)多尺度训练,进一步加强数据增强。
近年来Yi+不断加大对人工智能、大数据等新技术的研发和应用,本次提交的模型,是Yi+多年来技术积累的结果,是通过不断的攻克实际问题的结果,是Yi+内部模型不断优化的结果,Yi+ AI的FXRCNN在速度,内存,精度,应用范围等多维度进行了全面的优化。
在人工智能领域,目标检测技术应用广泛,是Yi+AI场景落地的关键性技术之一。Yi+将目标检测技术应用在图像搜索引擎和图片视频结构化引擎中,Yi+图像搜索引擎可检测类目超100类,覆盖服饰、3C商超、家居、日用品、交通工具等;Yi+图片视频结构化引擎则采用目前业界最领先的基于深度学习的通用目标检测算法,支持超过300类常用物体的目标检测、识别,可实现对视频和图像中的场景、人、车辆、物体(轮廓)检测、识别、分割、跟踪;可识别近10,000种物品,400种场景。
目前Yi+AI已将目标检测技术应用在多个使用场景中,包括“智能硬件”、“营销”、“新零售”、“智慧城市”等解决方案,具体则应用在场景广告平台、新零售平台、大屏AI助手、智慧安防、智慧交通、智慧社区等多项领域之中。
下一步,Yi+将结合现有技术优势继续深耕智慧城市、新零售、智能营销、智能硬件等多个领域,让计算机看懂世界,用科技提供人工智能服务,帮助人们看见非凡,see different。
Yi+获得阿里巴巴等B轮融资。服务了众多500强客户。团队成员大多来自顶尖企业与高校,如哥伦比亚大学、帝国理工、耶鲁、普林斯顿、普渡大学、新加坡国大、南洋理工、清华、北大等及微软、IBM、英特尔、阿里巴巴、腾讯、百度、华为等企业。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
瑞芯微电子股份有限公司(以下简称“瑞芯微”)正式发布新一代机器视觉方案RV1106及RV1103,两颗芯片在NPU、ISP、视频编码、音频处理等性能均有显著升级,具有高集成度、高性价比、低待机功耗的特点。RV1106及RV1103为普惠型方案,旨在助力更多行业伙伴高效实现机器视觉产品的研发及落地。
目前我国确实有了较强的产业基础,但产业尤其是高端装备制造业,在基础领域与国际先进水平相比还有巨大的差距。“我国目前做了很多应用创新,但同时也忽视基础领域的发展,在基础的材料、元器件、管理理念、人才培养上都存在痛点,这也包括传感器;接下来我国应该夯实实体产业、加快转型升级,政府应加强基础研究的扶持和引
近日,人工智能学术与产业界的权威年度盛会“MEET2022智能未来大会”召开,会上公布年度人工智能领航企业、人工智能创业领袖等榜单。其中,影谱科技创始人姬晓晨女士入选2021年度人工智能创业领袖,成为唯一上榜的女性企业家,同时上榜的还有商汤、旷视、依图、第四范式、地平线等企业领袖。
日前,由知名科技媒体量子位主办,聚焦人工智能学术与产业界的年度盛会“MEET2022智能未来大会”召开。本届大会以「因为看见,所以相信」为主题,共有数十位领军企业高管、专家学者出席
近日,OpenAI宣布推出其最新旗舰生成式AI模型GPT-4o。相较于GPT-4Trubo,GPT-4o速度更快、价格也更便宜据悉,ChatGPT可以读取人类的情绪,但读取过程有一点困难。OpenAI,是一家位于美国旧金山的人工智能研究公司,现由营利性公司OpenAILP及非营利性母公司OpenAI
随着人工智能技术的飞速发展,大语言模型(LargeLanguageModels,LLMs)在各行各业的应用日益广泛,尤其是在软件开发、数据分析、客户服务等领域。蘑菇云创客空间[445期开放夜]就以“ChatGPT、Gemini、通义千问等一众大语言模型,哪家更适合您”这样的主题,开展了一次深度的大语
赶超GPT-4的阶段性升级,可以看作是国产大模型有序迭代部署、不断拉近差距的标志,切莫像手机跑分那样,在过度营销的作用下,沦为被群嘲的对象。
5月9日,记者获悉,微博已接入阿里云通义大模型,提升内容生产效率和社区活跃度。微博不仅是阿里云最早一批上云客户,也是阿里云通义大模型的最早客户。微博COO、新浪移动CEO王巍表示,AIGC发展速度远超想象,包括通义2.5在内,已涌现出不少大模型能力超越GPT4。同时他指出,大模型开源势不可挡。“阿里
5月9日阿里云AI峰会,通义灵码宣布推出企业版,满足企业用户的定制化需求,帮助企业提升研发效率。通义灵码是国内用户规模第一的智能编码助手,基于SOTA水准的通义千问代码模型CodeQwen1.5研发,插件下载量已超350万。通义灵码熟练掌握Java、Python、Go、JavaScript、Type
5月9日消息,通义大模型品牌升级,“通义千问APP”更名为“通义APP”,集成通义大模型全栈能力,免费为所有用户提供服务。通义APP以性能媲美GPT-4Turbo的基模为底座,并把通义实验室前沿的文生图、智能编码、文档解析、音视频理解、视觉生成等能力“Allinone”,成为每个人的全能AI助手。通
5月9日消息,阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4Turbo,成为地表最强中文大模型。同时,通义千问最新开源的1100亿参数模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,成为开源领域最强大模型。相比通义千问2.1版本,通义千问2.5的理解能力、逻辑推理、指
5月9日消息,阿里云公布最新数据,通义大模型通过阿里云服务企业超9万,通义开源模型累计下载量突破700万。通义落地应用进程加速,现已进入PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域,成为最受中国企业欢迎的大模型。阿里云AI峰会现场,小米旗下的人工智能助手“小爱同学”已与阿里
通义大模型发布一周年之际,迎来重要的历史性时刻。5月9日,阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4Turbo,成为地表最强中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Llama-3-70B,成为开源领域最强大模型。历经一年多追赶,国产大模型终于进入