语言是人类进行沟通交流的表达方式,其储存着丰富的文化信息,传承着民族血脉,也支撑着文明的发展与演进。然而,一些少数民族语言、方言却正在无声无息地消失,与之密切相连的地域文化、历史文化也正面临濒危风险。
“大约平均两周就会有一种语言消亡“,联合国教科文组织的这一调查数据让人触目惊心,且世界上正在使用的约6,000种语言,至少有43%面临濒危[1]。而在中国,也有25种语言使用人口已不足千人[2]。
抢救濒危少数民族语言对保持汉语的丰富性、多元性,保护文化记忆、文化基因意义重大。因此,中国早在2015年就启动了语言资源保护工程,借助田野调查,建立起庞大的口语语料库,保存了原始声音文件和国际音标标注等丰富素材。
[1] 如欲了解更多详情请访问:https://www.un.org/zh/observances/mother-language-day%20
[2]如欲了解更多详情请访问:https://epaper.gmw.cn/zhdsb/html/2022-01/19/nw.D110000zhdsb_20220119_1-06.htm
然而,仅仅依靠这些单语数据,研究者难以获知其背后所传达的语义,无法有效开展相关学习与研究,更罔论留存这些少数民族濒危语言与背后地方文化的生命力。
人工智能技术为复活这些语言,挖掘多元文化价值,传承璀璨的历史文化,提供了新思路和新手段。2022年国际母语日也将“利用技术促进多语言学习:挑战与机遇”作为主题,指出了技术对推进多语言教育以及文化传承与保护的作用。
百度飞桨深度学习平台携手英特尔,基于第三代英特尔® 至强® 可扩展处理器进行深度优化,通过完善的模型压缩方法和量化加速技术,支持全自动生成大规模“汉语-少数民族语言”双向词典,对用技术帮助保护濒危少数民族语言,推动民族互通互融,做出了积极探索,展现了“科技向善”的现实意义和历史价值。
采用百度飞桨深度学习平台,全自动构建大规模双向词典
构建双向词典项目,采用了规模大、范围广、语种多、内容丰富的濒危语言博物馆馆藏源语料库,语料全部来自于田野调查与实地采集。
通过分析,项目研发人员选取了中国少数民族语言中的独龙、尔苏、嘉绒、撒拉这四种数据较为丰富的语言作为实验对象。
为基于百度飞桨实现对齐算法,项目团队首先开发了民间故事汉语数据集。开发过程中,充分利用飞桨PaddleOCR开发套件识别精度高、推理速度快等特性,对跨度8年的《故事会》杂志扫描样本进行数据化处理,构建出规模达950万字的文本数据集,也是全球首个民间故事汉语数据库,且具有很强的口语化风格,适合与少数民族语言语料进行对齐。
然后,实施低资源词向量训练,应对四个少数民族语料句子数量普遍不足五千条的挑战,以及《故事会》语料小于二十万条句子的问题,为下游的双语对齐提供了强有力的支持。
继之,依据拓扑特征,对两种语言的词向量进行旋转和对齐,实施双语词典自动化抽取,最终导出了独龙、尔苏、嘉绒、撒拉这四种语言和汉语的双向词典。
目前,这四部双向词典已在中国社科院民族学和人类学研究所志愿者的协助下,进行了内部评测,仅发现含有少量误差。这一可喜成果,验证了基于百度飞桨深度学习平台,智能生成大规模汉语-少数民族语言词典的可行性和便捷性,展现了人工智能对于应对语言濒危日益严峻挑战的高效性和高价值。
英特尔与百度飞桨软硬协同优化,用智能探索文化保护新路
双向词典项目依托飞桨深度学习技术,高效实现了濒危语言词典的自动化生成,极大减轻了语保工作者的负担。而其背后是英特尔所提供的英特尔® 至强® 可扩展平台具备的强劲算力和多种优化措施,为飞桨平台高效支撑项目运作提供了基础能力和量化加速。
业界尽知,人工智能应用不仅需要高算力作为支撑,而且源于大多数深度学习模型使用32位浮点精度(FP32)构建,复杂度高,模型参数量大,限制了其在一些场景和设备进行部署,需要实施软硬结合优化,才能突破性能瓶颈,高效承载诸如上文双向词典生成等多类应用。
针对上述问题,英特尔携手百度飞桨,基于第三代英特尔® 至强® 可扩展处理器、英特尔® oneAPI工具套件等软硬件组合,在为飞桨平台提供充裕算力的同时,也对整个深度学习流程实施全方位优化,帮助加速各类应用开发和量化部署。
第三代英特尔® 至强® 可扩展处理器依托出色的微架构,发挥多核心、多线程和大容量高速缓存等特性,很好地满足了飞桨平台对通用算力的苛刻需求,同时加持以其内置的英特尔® AVX-512提供的增强矢量处理能力,提升AI 推理和训练效率,为图像分类、自然语言处理、语音识别、语音翻译等广泛的应用开发和部署提供稳健基石。而最新一代的第四代英特尔® 至强® 可扩展处理器更内置一系列加速器,包括全新的AI加速器——英特尔®高级矩阵扩展(英特尔®AMX),覆盖包括训练和微调在内的更多深度学习使用场景,可以为不断变化且要求日益增高的应用提供更为可观的计算性能。
为满足模型快速“瘦身”之需,百度飞桨打造了PaddleSlim深度学习模型压缩工具库,以及为用户提供灵活的压缩策略,而英特尔® 至强® 可扩展处理器内置的AI加速技术--英特尔® 深度学习加速(英特尔® DL Boost),可通过矢量神经网络指令(VNNI)充分提高计算资源和缓存的利用率,减少潜在的带宽瓶颈,为INT8等低精度计算提供优化支持,显著加速AI 推理。由此,帮助飞桨PaddleSlim所支持的量化训练和静态离线量化方法,更好地适用于计算机视觉(CV)和自然语言处理 (NLP)等模型优化过程,这无疑也为双向词典AI方案的开发提供了便利,同时提高了项目运作效率。
同时为激活 VNNI 加速功能,百度飞桨深度学习平台在量化方案实施中还广泛使用英特尔® oneAPI 工具套件,如英特尔® oneAPI 深度神经网络库 (Intel® oneAPI Deep Neural Network Library,英特尔® oneDNN)。借助其统一、简化的编程模型,飞桨用户得以在CPU、GPU和FPGA等不同的架构上方便地调用通用接口来使用平台内置的AI加速技术,而无需担心平台兼容问题。
得益于英特尔® 至强® 可扩展平台与多项优化工具的支持,百度飞桨深度学习平台实现了深度优化,并不断丰富模型资源及应用开发套件,为用户提供了优异的模型及硬件加速体验。而双向词典项目在推动少数民族语言保护领域展现的神奇魔力,就是其典型案例。
“十四五”规划把“强化重要文化和自然遗产、非物质文化遗产系统性保护、推动中华优秀传统文化创造性转化、创新性发展”,作为提高社会文明程度的重要举措;今年的工作报告也强调了“传承中华优秀传统文化,满足人民日益增长的精神文化需求”,对铸就文化新辉煌的重要作用。
英特尔携手百度飞桨践行“科技向善”,优化开源平台,促进濒危语言保护,不仅延续和发扬了语言背后蕴含的文化、知识遗产及其价值,更探索出智能技术赋能的新路;也是英特尔继用人工智能助力长城修缮,通过计算、存储、网络全栈优化解决方案帮助云冈石窟文物保护等,持续展现创新技术对挖掘与传承璀璨历史文化、实现创新创造的新动能的又一成功实践,有助于在让历史智慧照进未来,让宝贵文化遗产丰富人们精神世界的同时,进一步加速人工智能的拓展应用,助力拥抱数字化浪潮,创造更美好的生活。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
2025年10月25日,2025世界青年科学家峰会之人工智能(AI)融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办,中国投资协会能源投资专业委员会、温港院士科创中心承办,中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持,以“瓯江论道-AI赋能绿色发展”为主题,
个人创业需要启动成本低、无需庞大团队、可快速验证、能利用个人技能或资源。这里分享适合个人创业的十个机会一.AI内容优化与本地化服务·做什么:帮助企业或个人利用AI工具(如GPT-4,Midjourney)优化内容生产流程。例如,为跨境电商撰写多语言产品描述,为小红书博主生成爆款文案,为小公司制作营销
百度AI团队今日正式推出PaddleOCR3.1版本,以突破性的多语言组合识别(MultilingualCompositionPerception,MCP)技术为核心,彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别,为全球化企业、跨境业务及多元文化场
导航网站的崛起:从信息过载到精准触达随着全球AI工具数量爆发式增长(2025年已超数万款),用户面临前所未有的选择困境。传统搜索引擎的“关键词-链接”模式难以应对工具筛选的场景需求,垂直化、场景化的AI导航网站应运而生。这类平台通过聚合、评测、分类与推荐四重机制,将分散的工具资源整合为结构化入口。例
当微信公众号文章中出现一个人的名字,它会自动变成蓝色链接,点击即可查看AI生成的“个人简历”——这一微信新功能让不少用户感到被“扒光”在互联网上。近日,微信新上线的“AI搜索”功能陷入隐私泄露争议漩涡。多位网友在社交平台反映,当微信公众号推文中出现本人姓名时,名字会自动变为蓝色超链接,点击即可浏览由
凌晨两点,小王合上笔记本,揉了揉酸胀的眼睛。花了一个月写出来的10万字短剧剧本躺在硬盘里,要真正把它拍成剧,得找演员、租场地、请摄像、做后期……粗算下来少说要几十万,他只能把剧本继续锁在抽屉里。不过,现在小王的剧本可以“见光”了。2026年3月19日,字节跳动旗下的小云雀AI正式上线了短剧Agent
你一定遇到过这样的场景:明明刚和AI助手聊了半个小时的项目细节,退出会话后重新打开,它却像个失忆患者一样,连你上一轮说过什么背景信息都忘得一干二净,你又得从头把需求讲一遍。这种“聊完就忘”的体验,让无数使用AI智能体的用户深感头疼。为了解决这一普遍困扰,腾讯云在4月3日正式推出了名为“龙虾”的记忆服
4月3日凌晨,谷歌DeepMind悄然甩出一枚重磅炸弹——全新一代开源大模型Gemma4正式发布,以极其宽松的Apache2.0协议向全球开发者免费开放。这是自2025年3月发布Gemma3以来,谷歌时隔整整一年的重大迭代。本次发布的Gemma4包含四个不同规格的版本:E2B(有效20亿参数)、E4
AI龙虾也会生病。别怕,大部分病不是什么绝症,自己在家就能治。我养OpenClaw一年多,总结出五种最常见的毛病,附上我的“土方子”,希望对你有用。病一:不吃食(完全不执行任何任务)症状:你给了指令,它没反应,日志里一片空白。就像龙虾趴在塘底不动弹,碰它也不理。病因:通常是进程卡死了,或者依赖服务没
养过真龙虾的人都知道,投喂是个技术活。喂少了,龙虾饿得互相残杀;喂多了,剩饵坏水,整塘发病。OpenClaw这个AI龙虾也一样——你给它安排的任务太少,它会“闲得发慌”,反应迟钝;你一次塞给它太多复杂任务,它会“消化不良”,要么报错要么干一半就卡住。每天该喂几次?我的经验是:每天喂两次,早上一次简单
养过真龙虾的人都知道,苗种的好坏直接决定收成。养AI龙虾也一样——OpenClaw有不同版本,有的稳定但功能少,有的功能多但爱“闹脾气”。新手该怎么选?我用自己的踩坑经历告诉你。版本怎么选?OpenClaw目前主要有三个分支:稳定版(Stable)、测试版(Beta)和社区魔改版(Community
我第一次听说OpenClaw,是在一个技术群里。有人发了一串代码,说“这个AI龙虾特别好养,会自己找食吃”。我好奇点进去,结果对着终端发了一小时呆——连环境都没搭起来。后来我才明白,养AI龙虾跟养真龙虾一样,新手入门得先做足功课。第一问:我的电脑跑得动吗?很多人以为AI龙虾就是个聊天机器人,打开网页
4月2日,字节跳动旗下火山引擎在武汉举行的AI创新巡展上宣布,Seedance2.0API正式面向企业用户开启公测。同时,火山引擎总裁谭待在会上披露,截至今年3月,豆包大模型日均Token使用量已突破120万亿,在过去三个月内增长一倍,比2024年5月发布时增长1000倍。Seedance2.0:从
养AI小龙虾的路上,坑不少。有人被代装服务骗了钱,有人电脑中了毒,有人收到天价账单,还有人发现AI“失控”了,开始乱删文件。如果你也遇到这些糟心事,别慌。下面这份“养虾应急包”,告诉你第一时间该做什么。场景一:代装被骗,钱打水漂了花了300块找人远程装OpenClaw,结果对方收了钱就拉黑,或者装了
把AI智能体请进电脑,就像把家里所有的钥匙交给了一个陌生人。它能帮你打扫房间、整理文件,但万一它“起了坏心”,或者被坏人利用了,你的家就不再安全了。这不是危言耸听。国家互联网应急中心已经发布风险提示,指出OpenClaw的默认配置“极为脆弱”,攻击者一旦得手,能轻易获取系统控制权。微软安全团队也警告