构建开放域智能问答系统是人工智能研究领域的一项重要前沿课题。近日,由搜狗搜索联合中国中文信息学会共同举办的“CIPS-SOGOU问答比赛”,正式启动了“非事实类问答子任务”。搜狗搜索将公开百万级真实用户问答数据集,为参赛者提供一展身手的舞台,从而促进学术界及业界交流,提升智能问答领域的研究水平,推动智能问答系统更加广泛地面向公众提供信息服务。
“CIPS-SOGOU问答比赛”,是国内首档基于大规模真实用户问答数据集的问答评测任务。大赛根据问题类型将比赛任务分为“事实类问答子任务”和“非事实类问答子任务”,分别对应事实类问题和非事实类问题。去年9月,该大赛伴随着“事实类问答子任务”的启动已正式开赛。
而于近日启动的“非事实类问答子任务”,无疑又为大赛注入新机,将赛事推向高潮。相较于“事实类问题”,“非事实类问题”包括更广泛的问答内容形式,包括列举(list)、定义(definition)、方式(how)、原因(why)、假设(hypothetical)等等。
根据赛制,基于搜狗搜索提供的问题,以及相对应的若干候选答案篇章,参赛者需设计算法从候选篇章中抽取合适的词语、短语或句子,形成一段正确、完整、简洁的文本,作为*,以正确、完整、简洁地回答该问题,答案文本长度限定在500字内。
针对大赛中的每个问题,参赛者只需提供一个*。“非事实类问答子任务”将针对该*与标准答案计算ROUGE-L和BLEU值,再以测试集上两个指标的平均值作为最终指标。此次比赛将在2018年11月CIPS年会上举行颁奖仪式,授予获胜者奖金和荣誉证书。

(图:CIPS-SOGOU问答比赛任务说明)
值得期待的是,此次“非事实类问答子任务”中,搜狗搜索将公开百万级真实用户问答数据集。包含10万个非事实型问题, 代表了最真实广泛的网民信息需求;以及100万个对应问题的候选篇章及答案标注 (每个问题对应给出10个候选答案篇章),候选篇章都是从搜索引擎检索真实网页结果中抽取的文本。
实际上,搜狗搜索在此次任务中提供百万级真实用户数据集,除了促使大赛正常开展外,更有意义的是,此举为构建开放域智能问答系统的研究提供了刚需的数据支撑,有助于促进智能问答领域技术的发展和应用,从而推动智能问答系统更加广泛地面向公众提供信息服务,让用户更加便捷地获取信息和知识。
作为国内第二大搜索引擎,搜狗搜索凭借自身数据优势及在人工智能领域研究的持续大力投入,已经在智能问答领域处于领先地位,率先实现了“直接为用户提供答案”。搜狗搜索已上线的“立知”智能问答系统,就是其研发的面向未来的搜索。该系统能够理解用户搜索意图,并直接提供答案。目前,“立知”智能问答系统在事实性问题、分析类问题、观点类问题、数字类问题、隐式问题等方面,都能为用户直接返回精确答案。
现在,作为智能问答领域的带路党,搜狗搜索开放技术能力,向学界及业界提供百万级真实用户问答数据集,助力行业向“非事实性问答”领域研究开拓,促进智能问答领域的学术交流。有兴趣进行技术切磋,提升研究水平的高校师生及业内研究人员,均可通过“搜狗实验室”官网 提交报名信息参赛。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
3个月之前,搜狗地图正式下线。3个月之后,搜狗搜索App停服。现在的搜狗除了输入法能拿得上台面,其他业务好像都没什么声音。搜狗发布公告:搜狗搜索独立的App于8月8日下线了
针对搜狗人脸搜索产品的原理、精确度、主要用途等相关问题,搜狗方面昨日表示需要经过内部沟通再作出回应。但搜狗截至目前仍未有进一步的回应。
搜狗搜索业务合并进腾讯看点后,“信息流+搜索”三足鼎立之势已成,看上去战争难以避免。信息流+通用搜索大战,正是过去两年,字节跳动大动作入局搜索后,与百度燃起熊熊战火的直接原因。
摘要续航、性能和AI,这三件原本互相打架的事,正在一台轻薄本里慢慢和解。我上一次正经用一台Windows笔记本,已经是上学期间,很多年前的事了。记忆还停留在上学那会儿,为了打游戏,我背着一台又厚又沉的「游戏本」在宿舍和教室之间来回,包带勒在肩膀上,键盘下方烫手,电池撑不过两节课,离了插座基本等于半残
痛点引入与概述(Introduction)只要你是一名国内开发者,一定经历过这样的抓狂瞬间:·在各种代理间反复横跳,只为了让claude命令能执行超过10秒不报ConnectionTimedOut;·好不容易注册的Claude账号,下一次claudecommit时直接提示Youraccounthas
随着大型语言模型在研发、产品与业务中渗透得越来越深,技术团队面对的现实不再是“要不要用”,而是“怎么高效、稳定、合规地调用几十上百种模型”。直接逐一申请各家官方的APIKey,管理成本高、切换成本更高,而模型供应不稳定、账单零散又缺乏企业级管控的痛点,让API聚合平台和API中转站成为技术栈中不可或
二手手机回收看似简单,实际涉及价格评估、设备检测、物流交接、隐私安全、付款结算、争议处理等多个环节。对用户来说,最担心的往往不是“旧手机能不能卖”,而是“价格是否合理”“寄出去是否安全”“检测后会不会变价”“手机隐私会不会泄露”“如果不满意能不能退回”。合肥曦诺传媒有限公司作为一家面向全国客户提供二
当你的团队开始把ClaudeCode和Codex当作日常编程搭档时,一个被反复低估的难题会浮出水面:这些工具的模型配置不像玩具Demo那样一键切换,真正落到生产环境,你会撞上API兼容性、Token消耗追踪、多账号权限管理这些实打实的工程问题。不少团队卡在“能调通”到“能管好”之间的鸿沟里——接口地
文/郭静来源/节点财经据TheInformation报道,DeepSeek已完成首轮外部融资,募资总额超500亿元人民币(约74亿美元),估值达到500亿美元。如果消息属实,这将是国产大模型乃至整个中国AI行业迄今为止最大的一笔单轮融资。互联网、制造业、老牌资本、国家队,一样不缺——梁文锋亲自坐庄,
“PC正在被重新定义,这次重塑的意义堪比当年手机向智能手机的变革。”6月1日,英伟达CEO黄仁勋在COMPUTEX2026(台北国际电脑展)上进行了一场近2小时的主题演讲。在演讲中,他从口袋里掏出了一块面向个人AI电脑的超级芯片—RTXSpark,宣告智能体AI(AgenticAI)时代已全面到来。
团队启动了一项关键的代码库现代化项目,目标是将遗留的Python服务迁移至更健壮的架构,并利用前沿模型进行全量代码审计与重构。评估了多个选项后,我们决定采用ClaudeCode,看中的是ClaudeOpus4.8在SWE-bench上展现出的顶尖推理能力以及其超长上下文处理窗口,理论上非常适合处理我
每到节假日出行,买火车票就成了不少人头疼的事。高铁票用什么平台买比较靠谱?哪个平台抢票成功率更高?支付方便吗?出票快不快?怎么买才划算?这些问题几乎每个坐火车的人都遇到过。从实际使用体验来看,市面上几个主流平台各有特点,但从功能完整度和省钱力度上,同程旅行近期的表现值得关注。一、抢票成功率,取决于平
大模型的能力已经渗透到日常开发、产品迭代和业务决策的每个环节,但一个越来越尖锐的问题也随之浮现:当团队开始重度使用多个模型、多种工具时,AI费用如何做到既透明又可控?传统的「一个模型配一把Key」方案,在面对ClaudeCode、Codex、Cursor、Cline等不同接入协议、不同消耗特征的工作