10 月 1 日(周三),德国维基媒体协会(Wikimedia Deutschland)宣布推出一个新数据库,该数据库将让人工智能模型能更便捷地获取维基百科的海量知识资源。
这个项目名为 “维基数据嵌入项目”(Wikidata Embedding Project),其核心是对维基百科及其姊妹平台上的现有数据(包含近 1.2 亿条条目)应用基于向量的语义搜索技术 —— 这种技术可帮助计算机理解词汇的含义及词汇间的关联。

该项目还新增了对 “模型上下文协议”(Model Context Protocol,简称 MCP)的支持。MCP 是一套帮助人工智能系统与数据源进行交互的标准,结合这一标准后,大型语言模型(LLMs)可通过自然语言查询更轻松地获取相关数据。
此次项目由维基媒体德国分部牵头,联合神经搜索公司 Jina.AI 与 IBM 旗下实时训练数据公司 DataStax 共同开展。
多年来,维基数据(Wikidata)一直为维基媒体旗下平台提供机器可读数据,但此前的工具仅支持关键词搜索和 SPARQL 查询(一种专业查询语言)。而新系统将与 “检索增强生成”(Retrieval-Augmented Generation,简称 RAG)系统更好地兼容 ——RAG 系统能让人工智能模型调取外部信息,这为开发者提供了机会,使其模型可基于经维基百科编辑审核验证的知识构建。
此外,新数据库对数据的结构化处理还能提供关键的语义上下文。例如,在数据库中查询 “科学家”(scientist)一词,不仅会生成著名核科学家名单及曾任职于贝尔实验室(Bell Labs)的科学家名单,还会包含 “科学家” 一词的多语言翻译、经维基媒体审核通过的科学家工作场景图片,以及对 “研究者”(researcher)、“学者”(scholar)等相关概念的延伸关联。
目前,该数据库可在 Toolforge 平台上公开访问。维基数据还计划于 10 月 9 日为感兴趣的开发者举办一场线上研讨会。
当下,人工智能开发者正迫切寻找可用于模型微调的高质量数据源,此次新项目的推出恰逢其时。尽管训练系统本身已变得更加复杂(通常是复杂的训练环境,而非简单数据集),但它们仍需经过严格筛选的优质数据才能高效运行。对于要求高准确性的应用场景,对可靠数据的需求尤为迫切:尽管有些人可能对维基百科持轻视态度,但相较于 “通用网络爬虫”(Common Crawl,一种从互联网上大规模抓取网页的数据集)这类包罗万象的数据集,维基百科的数据具有更强的事实导向性。
在某些情况下,对高质量数据的追求可能会给人工智能实验室带来高昂成本。今年 8 月,人工智能公司 Anthropic 就提出与一群作者达成诉讼和解 —— 这些作者的作品被 Anthropic 用作训练材料,Anthropic 同意支付 15 亿美元以了结所有侵权索赔。
维基数据人工智能项目经理菲利普・萨德(Philippe Saadé)在接受媒体采访时强调,该项目独立于主流人工智能实验室及大型科技公司。萨德对记者表示:“此次‘嵌入项目’的推出表明,强大的人工智能技术未必只能由少数几家公司掌控。它可以是开放的、协作式的,其构建目的应是服务于所有人。”
专题:专题|2024年度A股董秘数据报告:1144位董秘年薪超百万 占比超21% 董秘作为连接投资者与上市公司的“桥梁”,在上市公司资本运作中发挥着关键作用。商天信息网财经《2024年度A股董秘数据报...
汇通财经APP讯——周一(7月21日)亚市早盘,全球外汇市场被一则来自东京的政治地震惊醒。当亚洲其他市场还在晨光中苏醒时,日元却已开启“避险狂飙”模式——这场由日本参议院选举引发的金融海啸,正在把美国...
这些增量政策措施,将实实在在地发挥激励作用,引导金融机构满足实体经济有效融资需求。业内专家表示,通过降准等手段保持流动性充裕,可以为金融机构提供足够资源,推动其更大力度服务好实体经济;利率水平下行、结...
黄金最新行情趋势分析: 7月17日,黄金消息面解析:周四(北京时间7月17日)现货黄金交投于3348.88美元/盎司附近,金价周三在报道称美国总统特朗普计划解雇美联储主席鲍威尔后急升,但在特朗普予以否...
7月18日,近期,美国政坛和金融市场掀起的波澜,再次将人们的目光聚焦在一个关键问题上:美联储的独立性是否正遭受前所未有的威胁?全球多家金融机构,包括国际交易平台FXGT,对此表达了深切关注。他们表示,...
“生意我可以不做,但是非黑白,我必须要说清楚。”“我生意可以不做,但官司一定要打。”西贝创始人贾国龙在“预制菜风波”中的这番表态,充满“西北汉子”的血性,也略带企业家的悲情。问题在于,官司打得赢吗?公...