开发框架与基础硬件携手，AI的社会价值在文化领域深度彰显

2023-01-13 13:14 来源：A5专栏我来投稿撤稿纠错

　阿里云优惠券先领券再下单

语言是人类进行沟通交流的表达方式，其储存着丰富的文化信息，传承着民族血脉，也支撑着文明的发展与演进。然而，一些少数民族语言、方言却正在无声无息地消失，与之密切相连的地域文化、历史文化也正面临濒危风险。

“大约平均两周就会有一种语言消亡“，联合国教科文组织的这一调查数据让人触目惊心，且世界上正在使用的约6,000种语言，至少有43%面临濒危[1]。而在中国，也有25种语言使用人口已不足千人[2]。

抢救濒危少数民族语言对保持汉语的丰富性、多元性，保护文化记忆、文化基因意义重大。因此，中国早在2015年就启动了语言资源保护工程，借助田野调查，建立起庞大的口语语料库，保存了原始声音文件和国际音标标注等丰富素材。

[1] 如欲了解更多详情请访问：https://www.un.org/zh/observances/mother-language-day%20

[2]如欲了解更多详情请访问：https://epaper.gmw.cn/zhdsb/html/2022-01/19/nw.D110000zhdsb_20220119_1-06.htm

然而，仅仅依靠这些单语数据，研究者难以获知其背后所传达的语义，无法有效开展相关学习与研究，更罔论留存这些少数民族濒危语言与背后地方文化的生命力。

人工智能技术为复活这些语言，挖掘多元文化价值，传承璀璨的历史文化，提供了新思路和新手段。2022年国际母语日也将“利用技术促进多语言学习：挑战与机遇”作为主题，指出了技术对推进多语言教育以及文化传承与保护的作用。

百度飞桨深度学习平台携手英特尔，基于第三代英特尔® 至强® 可扩展处理器进行深度优化，通过完善的模型压缩方法和量化加速技术，支持全自动生成大规模“汉语-少数民族语言”双向词典，对用技术帮助保护濒危少数民族语言，推动民族互通互融，做出了积极探索，展现了“科技向善”的现实意义和历史价值。

采用百度飞桨深度学习平台，全自动构建大规模双向词典

构建双向词典项目，采用了规模大、范围广、语种多、内容丰富的濒危语言博物馆馆藏源语料库，语料全部来自于田野调查与实地采集。

通过分析，项目研发人员选取了中国少数民族语言中的独龙、尔苏、嘉绒、撒拉这四种数据较为丰富的语言作为实验对象。

为基于百度飞桨实现对齐算法，项目团队首先开发了民间故事汉语数据集。开发过程中，充分利用飞桨PaddleOCR开发套件识别精度高、推理速度快等特性，对跨度8年的《故事会》杂志扫描样本进行数据化处理，构建出规模达950万字的文本数据集，也是全球首个民间故事汉语数据库，且具有很强的口语化风格，适合与少数民族语言语料进行对齐。

然后，实施低资源词向量训练，应对四个少数民族语料句子数量普遍不足五千条的挑战，以及《故事会》语料小于二十万条句子的问题，为下游的双语对齐提供了强有力的支持。

继之，依据拓扑特征，对两种语言的词向量进行旋转和对齐，实施双语词典自动化抽取，最终导出了独龙、尔苏、嘉绒、撒拉这四种语言和汉语的双向词典。

目前，这四部双向词典已在中国社科院民族学和人类学研究所志愿者的协助下，进行了内部评测，仅发现含有少量误差。这一可喜成果，验证了基于百度飞桨深度学习平台，智能生成大规模汉语-少数民族语言词典的可行性和便捷性，展现了人工智能对于应对语言濒危日益严峻挑战的高效性和高价值。

英特尔与百度飞桨软硬协同优化，用智能探索文化保护新路

双向词典项目依托飞桨深度学习技术，高效实现了濒危语言词典的自动化生成，极大减轻了语保工作者的负担。而其背后是英特尔所提供的英特尔® 至强® 可扩展平台具备的强劲算力和多种优化措施，为飞桨平台高效支撑项目运作提供了基础能力和量化加速。

业界尽知，人工智能应用不仅需要高算力作为支撑，而且源于大多数深度学习模型使用32位浮点精度（FP32）构建，复杂度高，模型参数量大，限制了其在一些场景和设备进行部署，需要实施软硬结合优化，才能突破性能瓶颈，高效承载诸如上文双向词典生成等多类应用。

针对上述问题，英特尔携手百度飞桨，基于第三代英特尔® 至强® 可扩展处理器、英特尔® oneAPI工具套件等软硬件组合，在为飞桨平台提供充裕算力的同时，也对整个深度学习流程实施全方位优化，帮助加速各类应用开发和量化部署。

第三代英特尔® 至强® 可扩展处理器依托出色的微架构，发挥多核心、多线程和大容量高速缓存等特性，很好地满足了飞桨平台对通用算力的苛刻需求，同时加持以其内置的英特尔® AVX-512提供的增强矢量处理能力，提升AI 推理和训练效率，为图像分类、自然语言处理、语音识别、语音翻译等广泛的应用开发和部署提供稳健基石。而最新一代的第四代英特尔® 至强® 可扩展处理器更内置一系列加速器，包括全新的AI加速器——英特尔®高级矩阵扩展（英特尔®AMX），覆盖包括训练和微调在内的更多深度学习使用场景，可以为不断变化且要求日益增高的应用提供更为可观的计算性能。

为满足模型快速“瘦身”之需，百度飞桨打造了PaddleSlim深度学习模型压缩工具库，以及为用户提供灵活的压缩策略，而英特尔® 至强® 可扩展处理器内置的AI加速技术--英特尔® 深度学习加速（英特尔® DL Boost），可通过矢量神经网络指令（VNNI）充分提高计算资源和缓存的利用率，减少潜在的带宽瓶颈，为INT8等低精度计算提供优化支持，显著加速AI 推理。由此，帮助飞桨PaddleSlim所支持的量化训练和静态离线量化方法，更好地适用于计算机视觉（CV）和自然语言处理（NLP）等模型优化过程，这无疑也为双向词典AI方案的开发提供了便利，同时提高了项目运作效率。

同时为激活 VNNI 加速功能，百度飞桨深度学习平台在量化方案实施中还广泛使用英特尔® oneAPI 工具套件，如英特尔® oneAPI 深度神经网络库 (Intel® oneAPI Deep Neural Network Library，英特尔® oneDNN)。借助其统一、简化的编程模型，飞桨用户得以在CPU、GPU和FPGA等不同的架构上方便地调用通用接口来使用平台内置的AI加速技术，而无需担心平台兼容问题。

得益于英特尔® 至强® 可扩展平台与多项优化工具的支持，百度飞桨深度学习平台实现了深度优化，并不断丰富模型资源及应用开发套件，为用户提供了优异的模型及硬件加速体验。而双向词典项目在推动少数民族语言保护领域展现的神奇魔力，就是其典型案例。

“十四五”规划把“强化重要文化和自然遗产、非物质文化遗产系统性保护、推动中华优秀传统文化创造性转化、创新性发展”，作为提高社会文明程度的重要举措；今年的工作报告也强调了“传承中华优秀传统文化，满足人民日益增长的精神文化需求”，对铸就文化新辉煌的重要作用。

英特尔携手百度飞桨践行“科技向善”，优化开源平台，促进濒危语言保护，不仅延续和发扬了语言背后蕴含的文化、知识遗产及其价值，更探索出智能技术赋能的新路；也是英特尔继用人工智能助力长城修缮，通过计算、存储、网络全栈优化解决方案帮助云冈石窟文物保护等，持续展现创新技术对挖掘与传承璀璨历史文化、实现创新创造的新动能的又一成功实践，有助于在让历史智慧照进未来，让宝贵文化遗产丰富人们精神世界的同时，进一步加速人工智能的拓展应用，助力拥抱数字化浪潮，创造更美好的生活。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: ai技术

瓯江论道：AI赋能绿色发展

2025年10月25日，2025世界青年科学家峰会之人工智能（AI）融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办，中国投资协会能源投资专业委员会、温港院士科创中心承办，中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持，以“瓯江论道-AI赋能绿色发展”为主题，

标签：

ai技术
王通：未来个人创业的十个机会

个人创业需要启动成本低、无需庞大团队、可快速验证、能利用个人技能或资源。这里分享适合个人创业的十个机会一.AI内容优化与本地化服务·做什么：帮助企业或个人利用AI工具（如GPT-4,Midjourney）优化内容生产流程。例如，为跨境电商撰写多语言产品描述，为小红书博主生成爆款文案，为小公司制作营销

标签：

创业机会

ai技术
百度智能云PaddleOCR 3.1正式发布：关键能力支持MCP

百度AI团队今日正式推出PaddleOCR3.1版本，以突破性的多语言组合识别（MultilingualCompositionPerception,MCP）技术为核心，彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别，为全球化企业、跨境业务及多元文化场

标签：

ai智能

ai技术
AI工具导航网站，未来的发展前景怎么样？

导航网站的崛起：从信息过载到精准触达随着全球AI工具数量爆发式增长（2025年已超数万款），用户面临前所未有的选择困境。传统搜索引擎的“关键词-链接”模式难以应对工具筛选的场景需求，垂直化、场景化的AI导航网站应运而生。这类平台通过聚合、评测、分类与推荐四重机制，将分散的工具资源整合为结构化入口。例

标签：

ai技术

导航网站
微信AI搜索被指“强行开盒”：名字成了数据入口，腾讯回应“仅用公开信息”

当微信公众号文章中出现一个人的名字，它会自动变成蓝色链接，点击即可查看AI生成的“个人简历”——这一微信新功能让不少用户感到被“扒光”在互联网上。近日，微信新上线的“AI搜索”功能陷入隐私泄露争议漩涡。多位网友在社交平台反映，当微信公众号推文中出现本人姓名时，名字会自动变为蓝色超链接，点击即可浏览由

标签：

ai技术

ai搜索

GDPS2025赛场直击！开普勒大黄蜂助力华理斩获搬运赛项桂冠

12月12日-14日，2025全球开发者先锋大会暨国际具身智能技能大赛（GDPS2025）于上海张江科学会堂举行，大会以具身智能竞技为核心，融合了技术比拼、产业展示与科普体验，为全球观众呈现出具身智能的现在与未来。上海开普勒机器人有限公司（以下简称"开普勒机器人"）携明星产品K2"大黄蜂"亮相，并参

标签：

GDPS

2025
弈动 Dynamic·数智跃迁博弈无界｜2025TechWorld智慧安全大会在京召开

在数字化与智能化深度交织的时代浪潮中，安全的边界不断延展，技术的演进正引领产业迈向新一轮变革。10月24日，以“弈动Dynamic·数智跃迁博弈无界”为主题的2025TechWorld智慧安全大会在北京盛大召开。来自国家部委、院士学者、高校科研机构和企业的权威专家与业界精英齐聚北京，共议AI安全、数

标签：

弈动
瓯江论道：AI赋能绿色发展

2025年10月25日，2025世界青年科学家峰会之人工智能（AI）融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办，中国投资协会能源投资专业委员会、温港院士科创中心承办，中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持，以“瓯江论道-AI赋能绿色发展”为主题，

标签：

ai技术
AI云“分野”：阿里云们“卖铲”，火山引擎奇袭“MaaS”

AI云“分野”：阿里云们“卖铲”，火山引擎奇袭“MaaS”

标签：

阿里巴巴
未来5年，中国AI的“大洗牌”和“内循环”

我觉得我们AI的目标是：从芯片设计到软件生态，全链路自主开发，建立可控的世界级AI体系。所以这是俺对未来5年中国AI圈的展望和判断。(1)2026年，英伟达造车、国产开车26年国产芯片会在推理和垂直场景上发力。以DeepSeek为代表，大多数AI大模型会以软件弥补硬件不足，所以训练和推理分开，训练就
H20芯片开卖即叫停，英伟达如何解围？

文/道哥在深陷“后门”风波、接受网信办问询之后，英伟达的“特供版”H20芯片，又有了新消息。近日，美国科技媒体《TheInformation》援引知情人士消息称，英伟达已悄然向其关键供应商——包括负责封装的安靠科技、供应高带宽内存的三星电子、以及承担后端处理的富士康发出指令，要求暂停所有与H20AI

标签：

英伟达

真正的「国产英伟达」来了

文/二风来源/节点财经一场关于“中国芯”的IPO审议，正把投资者们的目光锁定在上交所。根据上交所发布的公告，上市审核委员会已定于9月26日审议摩尔线程的科创板首发申请。作为中国半导体自主化浪潮中最受瞩目的“考生”之一，包括其创始人显赫的英伟达背景、高达80亿元人民币的募资雄心，以及在国产GPU领域取

标签：

英伟达
AI视频生成赛道“分野”：小厂重产品，大厂重生态

AI视频生成赛道“分野”：小厂重产品，大厂重生态

标签：

腾讯

阿里巴巴

快手
数据库进入“内存自由”时代！阿里云PolarDB发布全球首个CXL数据库服务器

技术的进步永无止境，继创下TPC-C性能&性价比双冠之后，阿里云PolarDB云原生数据库再度实现关键突破。9月24日杭州云栖大会上，阿里云宣布推出全球首款基于CXL（ComputeExpressLink）2.0Switch技术的PolarDB数据库专用服务器。在原有RDMA网络的基础上，Polar
为AI时代云服务器量身定制阿里云操作系统Alinux 4重磅发布

2025年9月24日，在杭州举办的云栖大会上，阿里云正式发布全新一代服务器操作系统AlibabaCloudLinux4（简称Alinux4）。Alinux4基于Linux6.6内核打造，是首个全面遵循龙蜥社区“开源生态合作倡议”规范的商业发行版。它不仅兼容主流开源社区生态，更针对阿里云最新9代ECS