10 月 1 日(周三),德国维基媒体协会(Wikimedia Deutschland)宣布推出一个新数据库,该数据库将让人工智能模型能更便捷地获取维基百科的海量知识资源。
这个项目名为 “维基数据嵌入项目”(Wikidata Embedding Project),其核心是对维基百科及其姊妹平台上的现有数据(包含近 1.2 亿条条目)应用基于向量的语义搜索技术 —— 这种技术可帮助计算机理解词汇的含义及词汇间的关联。

该项目还新增了对 “模型上下文协议”(Model Context Protocol,简称 MCP)的支持。MCP 是一套帮助人工智能系统与数据源进行交互的标准,结合这一标准后,大型语言模型(LLMs)可通过自然语言查询更轻松地获取相关数据。
此次项目由维基媒体德国分部牵头,联合神经搜索公司 Jina.AI 与 IBM 旗下实时训练数据公司 DataStax 共同开展。
多年来,维基数据(Wikidata)一直为维基媒体旗下平台提供机器可读数据,但此前的工具仅支持关键词搜索和 SPARQL 查询(一种专业查询语言)。而新系统将与 “检索增强生成”(Retrieval-Augmented Generation,简称 RAG)系统更好地兼容 ——RAG 系统能让人工智能模型调取外部信息,这为开发者提供了机会,使其模型可基于经维基百科编辑审核验证的知识构建。
此外,新数据库对数据的结构化处理还能提供关键的语义上下文。例如,在数据库中查询 “科学家”(scientist)一词,不仅会生成著名核科学家名单及曾任职于贝尔实验室(Bell Labs)的科学家名单,还会包含 “科学家” 一词的多语言翻译、经维基媒体审核通过的科学家工作场景图片,以及对 “研究者”(researcher)、“学者”(scholar)等相关概念的延伸关联。
目前,该数据库可在 Toolforge 平台上公开访问。维基数据还计划于 10 月 9 日为感兴趣的开发者举办一场线上研讨会。
当下,人工智能开发者正迫切寻找可用于模型微调的高质量数据源,此次新项目的推出恰逢其时。尽管训练系统本身已变得更加复杂(通常是复杂的训练环境,而非简单数据集),但它们仍需经过严格筛选的优质数据才能高效运行。对于要求高准确性的应用场景,对可靠数据的需求尤为迫切:尽管有些人可能对维基百科持轻视态度,但相较于 “通用网络爬虫”(Common Crawl,一种从互联网上大规模抓取网页的数据集)这类包罗万象的数据集,维基百科的数据具有更强的事实导向性。
在某些情况下,对高质量数据的追求可能会给人工智能实验室带来高昂成本。今年 8 月,人工智能公司 Anthropic 就提出与一群作者达成诉讼和解 —— 这些作者的作品被 Anthropic 用作训练材料,Anthropic 同意支付 15 亿美元以了结所有侵权索赔。
维基数据人工智能项目经理菲利普・萨德(Philippe Saadé)在接受媒体采访时强调,该项目独立于主流人工智能实验室及大型科技公司。萨德对记者表示:“此次‘嵌入项目’的推出表明,强大的人工智能技术未必只能由少数几家公司掌控。它可以是开放的、协作式的,其构建目的应是服务于所有人。”
周末,比特币持续下挫。 截至北京时间2月1日6:30左右, 比特币跌破79000美元关口, 报78130美元/枚, 跌至2025年4月以来的最低水平。 以太坊、SOL、狗狗币等跌超10%。 CoinG...
8月29日,新余十万起家投资管理有限公司(以下简称“十万起家”)注销私募基金管理人登记。至此,月内已有93家私募基金管理人注销登记,其中“主动离场”的私募基金管理人占比达67%,私募基金行业洗牌仍在继...
记者 若晖 【导读】驰援市场!股票ETF单日资金净流入近90亿元 受海外市场大幅波动影响,近段时间,上证指数跌破4100点,在4050点附近徘徊。在这一关键时刻,有“逆市风向标”之称的股票ETF再次驰...
DoNews 在华润等竞争对手们的冲击下,百威的高端优势已然开始松动。 结合2月底百威亚太所发布的财报显示,2024年百威亚太营收62.46亿美元,同比下滑8.9%;净利润为7.5亿美元,同比下滑14...
作 者丨周炎炎 余纪昕 编 辑丨肖嘉 近期,首批26只新型浮动费率基金申报一周后火速获批面世。新费率机制下,基金公司和基金经理将告别“旱涝保收”模式,转向与基民“同甘共苦”,必须从关注自身短期利益转向...
1月20日晚,康欣新材发布公告,称拟通过受让股权加增资方式使用现金39,168万元取得无锡宇邦半导体科技有限公司(下称“宇邦半导体”、“标的公司”)51%股权。本次交易完成后,宇邦半导体会成为公司控股...