新项目助力人工智能更便捷获取维基百科数据

花花2025-10-01债务科普21

10 月 1 日(周三),德国维基媒体协会(Wikimedia Deutschland)宣布推出一个新数据库,该数据库将让人工智能模型能更便捷地获取维基百科的海量知识资源。

这个项目名为 “维基数据嵌入项目”(Wikidata Embedding Project),其核心是对维基百科及其姊妹平台上的现有数据(包含近 1.2 亿条条目)应用基于向量的语义搜索技术 —— 这种技术可帮助计算机理解词汇的含义及词汇间的关联。

新项目助力人工智能更便捷获取维基百科数据

该项目还新增了对 “模型上下文协议”(Model Context Protocol,简称 MCP)的支持。MCP 是一套帮助人工智能系统与数据源进行交互的标准,结合这一标准后,大型语言模型(LLMs)可通过自然语言查询更轻松地获取相关数据。

此次项目由维基媒体德国分部牵头,联合神经搜索公司 Jina.AI 与 IBM 旗下实时训练数据公司 DataStax 共同开展。

多年来,维基数据(Wikidata)一直为维基媒体旗下平台提供机器可读数据,但此前的工具仅支持关键词搜索和 SPARQL 查询(一种专业查询语言)。而新系统将与 “检索增强生成”(Retrieval-Augmented Generation,简称 RAG)系统更好地兼容 ——RAG 系统能让人工智能模型调取外部信息,这为开发者提供了机会,使其模型可基于经维基百科编辑审核验证的知识构建。

此外,新数据库对数据的结构化处理还能提供关键的语义上下文。例如,在数据库中查询 “科学家”(scientist)一词,不仅会生成著名核科学家名单及曾任职于贝尔实验室(Bell Labs)的科学家名单,还会包含 “科学家” 一词的多语言翻译、经维基媒体审核通过的科学家工作场景图片,以及对 “研究者”(researcher)、“学者”(scholar)等相关概念的延伸关联。

目前,该数据库可在 Toolforge 平台上公开访问。维基数据还计划于 10 月 9 日为感兴趣的开发者举办一场线上研讨会。

当下,人工智能开发者正迫切寻找可用于模型微调的高质量数据源,此次新项目的推出恰逢其时。尽管训练系统本身已变得更加复杂(通常是复杂的训练环境,而非简单数据集),但它们仍需经过严格筛选的优质数据才能高效运行。对于要求高准确性的应用场景,对可靠数据的需求尤为迫切:尽管有些人可能对维基百科持轻视态度,但相较于 “通用网络爬虫”(Common Crawl,一种从互联网上大规模抓取网页的数据集)这类包罗万象的数据集,维基百科的数据具有更强的事实导向性。

在某些情况下,对高质量数据的追求可能会给人工智能实验室带来高昂成本。今年 8 月,人工智能公司 Anthropic 就提出与一群作者达成诉讼和解 —— 这些作者的作品被 Anthropic 用作训练材料,Anthropic 同意支付 15 亿美元以了结所有侵权索赔。

维基数据人工智能项目经理菲利普・萨德(Philippe Saadé)在接受媒体采访时强调,该项目独立于主流人工智能实验室及大型科技公司。萨德对记者表示:“此次‘嵌入项目’的推出表明,强大的人工智能技术未必只能由少数几家公司掌控。它可以是开放的、协作式的,其构建目的应是服务于所有人。”

相关文章

美元下挫,黄金却未迎来爆发,背后隐藏哪些玄机?

美元下挫,黄金却未迎来爆发,背后隐藏哪些玄机?

周五(5月16日),现货黄金价格从4月10日以来的最低点3120美元区域回升,但在亚洲交易时段未能延续涨势,吸引了部分卖盘。美中贸易谈判结果缓解了市场对全球经济衰退的担忧,继续削弱避险黄金的需求。然而...

要和好了?特朗普称赞马斯克“80%是个超级天才” 呼吁其回归共和党

要和好了?特朗普称赞马斯克“80%是个超级天才” 呼吁其回归共和党

财联社9月4日讯(编辑 刘蕊)在今年早些时候,美国总统特朗普和特斯拉CEO马斯克公开决裂后,如今两人的关系似乎看到了修复的希望。 美东时间周二(9月2日),特朗普在接受采访时表示,他认为马斯克仍然有“...

尾盘:纳指与标普指数创盘中新高 市场关注科技股财报

尾盘:纳指与标普指数创盘中新高 市场关注科技股财报

北京时间7月22日凌晨,美股周一尾盘维持涨势,纳指与标普500创盘中新高。投资者密切关注贸易局势最新动态,同时等待本周科技巨头财报季拉开帷幕。特斯拉和谷歌母公司Alphabet将在本周发布财报。 道...

AI近期狂飙,盘点下全市场的人工智能主题基金

AI近期狂飙,盘点下全市场的人工智能主题基金

最近人工智能板块的表现极为抢眼:一方面以“易中天胜”为代表的海外(全球)AI产业链在4月初创出调整新低之后便开始持续上涨了4个多月,最近几天更是连续大幅上涨;而另一方面以寒武纪为代表的国产AI产业链在...

福特CEO警告:美国缺少实现AI雄心所需要的劳动力

福特CEO警告:美国缺少实现AI雄心所需要的劳动力

福特汽车CEO吉姆·法利警告称,如果缺乏关键员工来支持基础设施建设,美国就无法实现其人工智能的登月目标。 到2033年,人工智能市场预计将膨胀到4.8万亿美元,但法利警告说,美国忽视了建设和维持数据中...

险资长期投资试点即将再扩容:中邮保险资产、国寿资产等正积极争取三期试点资格

险资长期投资试点即将再扩容:中邮保险资产、国寿资产等正积极争取三期试点资格

推动中长期资金入市是促进资本市场稳健发展的重要举措之一。近日,金融监管总局局长李云泽在国新办新闻发布会上宣布,未来将进一步扩大保险资金长期投资改革试点范围,近期拟再批复600亿元。 据财联社记者获悉,...