日前,云从科技的自然场景OCR(文字识别)技术在ICDAR数据集上取得了多项最佳成绩,特别对于东亚语言部分,该文本检测框架的表现尤为出色,在多个子测试集上(包括中文)都获得了第一。ICDAR是当前OCR技术领域全球最具影响力的数据集,具有OCR领域奥斯卡之称。
云从科技提出的Pixel-Anchor框架在两个具有挑战性的自然场景文本检测测试集——ICDAR2015以及ICDAR2017 MLT中,分别在检测准确率和检测效率两个综合维度上获得了至今为止最好的结果(FMeasure,一种检出率和精确度的加权,具体见图Table 1-Table 3)。该框架在满足生产环境实时性要求的基础上获得了很高的检测准确率,该成果可进一步应用于计算机视觉、人工智能技术。同时,阿里巴巴、南京大学与南京理工大学、商汤科技、旷视科技也在榜单中体现出良好的成绩,表明中国继续在国际上引领OCR领域的研究。
OCR(Optical Character Recognition)是指对输入图像进行分析识别处理,获取图像中文字信息的过程,具有广泛的应用场景。而自然场景中的OCR 技术不需要针对特殊场景进行定制,可以识别任意场景图片中的文字。
和面对高质量文档图像的传统OCR相比,自然场景OCR跳出了对输入图像的质量和场景束缚,能够在更宽泛的领域中获取应用,引起了学术界以及工业界的极大关注。
但相较于传统OCR,自然场景OCR中的各种商品、布景或自然场景图片中的文本检测与识别面临着复杂背景干扰、文字的模糊与退化、不可预测的光照、字体的多样性、垂直文本、倾斜文本等众多挑战。
计算机视觉基础技术
应用前景广泛
OCR是计算机视觉领域的经典问题,长久以来,一直受到学术界和工业界的持续关注。在工业界,Google、Microsoft、Amazon等大型互联网公司,以及云从科技等人工智能创业公司,都在OCR技术上耕耘多年。随着技术不断成熟,OCR也开始在互联网及其他行业逐步上线使用,应用范围也从文档识别扩展到车牌识别,图片广告过滤,场景理解,商品识别,街景定位,票据识别等广泛的领域。
据悉,目前Pixel-Anchor框架已在云从科技的证件票据识别系统和图片广告过滤系统中上线,每天处理图片近千万张,自动反馈疑似违规图片准确率达96%以上;同时将证件处理和图文审核风险发现时间从“小时”降低到“秒”级。数据显示,2018年云从科技累计处理25亿证件数据、屏蔽了400万条恶意推广,有效提高业务流程效率及净化营销环境。
除OCR以外,包含人体姿态、跨镜追踪、车辆结构化、语音识别等智能感知的核心技术闭环已经在云从科技内部获得建立,比如安防大数据系统与智能商业运营平台应用“跨镜追踪(ReID)”技术,无需人脸也可以追踪目标。“逃犯克星”张学友的部分成果,就有“跨镜追踪”技术的参与。另外,云从科技也在浸入式大数据风控系统、AI-IoT物联网应用等场景中引入了智能感知技术。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
虽然我国汽车芯片行业还处在发展初期,但已经迸发出无限潜力。一方面,智能汽车的发展不断带动需求增长;另一方面,政策引导下,汽车芯片企业持续抢占高地。对此,在7月5日-7日举办的2023年中国汽车论坛上,中国汽车工业协会副秘书长李邵华就做出表示,“中国将成为未来汽车芯片发展的集聚地”。车规芯片行业近日的
2023世界人工智能大会将于7月6日至8日在上海举办。云天励飞将在大会上展示自主设计开发的新一代边缘计算芯片DeepEdge10系列SoC芯片,并公布“天书”大模型的最新动态。欢迎莅临上海世博展览馆H1-C801展台参观交流!同时,云天励飞也将与中国电子、中国信通院、华为等合作伙伴,在WAIC的舞台
近日,酷学院智能产品发布会在深圳闪亮登场。近200位现场观众和近万人次在线观看,共同见证了这一激动人心的时刻。发布会上,酷学院引领大家探索企业培训学习和人才发展领域的新高度,并揭幕其全新的产品智能升级和突破。酷学院产品负责人徐晨通过形象生动、逻辑严谨的讲述,揭晓了全新的智能企业培训和人才发展平台,以
随着人工智能技术的快速发展,各行各业都受到了深刻影响,特别是中小学人工智能教育的普及,已经成为当今不可忽视的重要课程。ChatGPT等人工智能技术的出现,让我们看到了人工智能将成为未来推动科技跨越发展、生产力整体跃升的重要驱动力量之一。在这个背景下,中小学教育已经将人工智能作为重要学习内容,并将科技
在大模型代表的新一轮技术浪潮下,智能化转型已然是毋庸置疑的趋势,科技大厂们纷纷给出了智能化的“道法术”,大大小小的企业也开始更新认知,想要从创新中挖掘出驱动增长的新质生产力。但现实和智能化的美好愿景之间,仍然横亘着一片鲜有人涉足的“荒海”,脚下还没有坚实的路。3月23日在天津举办的昇腾AI开发者创享
©自象限原创作者丨罗辑、苏奕编辑丨程心2024年开年,科技圈没有什么比Sora的出现更让人兴奋。如同ChatGPT在2023年初带来的LLM创业潮,Sora的发布也同样将视频生成模型推到了风口浪尖。科技巨头猛推产品,创业公司则乘风而上。3月13日,AI视频大模型公司爱诗科技完成亿元级人民币A1轮融资
当为科学技术巡游一方的神,行至人工智能的篇章,中国公司的2023年报里,写着AIGC的前世今生。翻开科技进步的编年史,每一次技术革命都有这样一条铁律:技术革命的最大受益者,通常不是率先做出突破的开疆派,而是率先将其发扬光大的技术流。靠着工业革命超越日不落的美利坚,把同样的故事,转载到了50年代的半导
3月22日,由天津蜜度文修智能科技有限公司主办的智能校对大模型文修2.0智臻发布会在津举行。发布会以“大模型赋能‘人工智能+办公’体验升级”为主题,邀请语言智能领域专家,以及各大媒体机构和合作伙伴,围绕大模型技术、应用落地发展、标准化进程进行分享交流。发布会上还发布了智能校对大模型文修2.0。天津市
3月22日消息,阿里通义千问重磅升级,向所有人免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用。即日起,所有金融、法律、科研、医疗、教育等领域的专业人士,都可通过通义千问网站和APP快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文
关注卢松松,会经常给你分享一些我的经验和观点。马斯克是真男人啊,不仅SpaceX发射基地可以随意参观、连设计图纸都公开了。SpaceX刚刚发射完没几天,连他的AI大模型Grok-1也正式开源了。Grok-1是当前世界上参数最大的、开源大语言模型。296GB的大小,3140亿参数,远超OpenAIGP
大型政企寻求“智能化配方”,谁是“偏方”,谁是“验方”?