10 月 1 日(周三),德国维基媒体协会(Wikimedia Deutschland)宣布推出一个新数据库,该数据库将让人工智能模型能更便捷地获取维基百科的海量知识资源。
这个项目名为 “维基数据嵌入项目”(Wikidata Embedding Project),其核心是对维基百科及其姊妹平台上的现有数据(包含近 1.2 亿条条目)应用基于向量的语义搜索技术 —— 这种技术可帮助计算机理解词汇的含义及词汇间的关联。

该项目还新增了对 “模型上下文协议”(Model Context Protocol,简称 MCP)的支持。MCP 是一套帮助人工智能系统与数据源进行交互的标准,结合这一标准后,大型语言模型(LLMs)可通过自然语言查询更轻松地获取相关数据。
此次项目由维基媒体德国分部牵头,联合神经搜索公司 Jina.AI 与 IBM 旗下实时训练数据公司 DataStax 共同开展。
多年来,维基数据(Wikidata)一直为维基媒体旗下平台提供机器可读数据,但此前的工具仅支持关键词搜索和 SPARQL 查询(一种专业查询语言)。而新系统将与 “检索增强生成”(Retrieval-Augmented Generation,简称 RAG)系统更好地兼容 ——RAG 系统能让人工智能模型调取外部信息,这为开发者提供了机会,使其模型可基于经维基百科编辑审核验证的知识构建。
此外,新数据库对数据的结构化处理还能提供关键的语义上下文。例如,在数据库中查询 “科学家”(scientist)一词,不仅会生成著名核科学家名单及曾任职于贝尔实验室(Bell Labs)的科学家名单,还会包含 “科学家” 一词的多语言翻译、经维基媒体审核通过的科学家工作场景图片,以及对 “研究者”(researcher)、“学者”(scholar)等相关概念的延伸关联。
目前,该数据库可在 Toolforge 平台上公开访问。维基数据还计划于 10 月 9 日为感兴趣的开发者举办一场线上研讨会。
当下,人工智能开发者正迫切寻找可用于模型微调的高质量数据源,此次新项目的推出恰逢其时。尽管训练系统本身已变得更加复杂(通常是复杂的训练环境,而非简单数据集),但它们仍需经过严格筛选的优质数据才能高效运行。对于要求高准确性的应用场景,对可靠数据的需求尤为迫切:尽管有些人可能对维基百科持轻视态度,但相较于 “通用网络爬虫”(Common Crawl,一种从互联网上大规模抓取网页的数据集)这类包罗万象的数据集,维基百科的数据具有更强的事实导向性。
在某些情况下,对高质量数据的追求可能会给人工智能实验室带来高昂成本。今年 8 月,人工智能公司 Anthropic 就提出与一群作者达成诉讼和解 —— 这些作者的作品被 Anthropic 用作训练材料,Anthropic 同意支付 15 亿美元以了结所有侵权索赔。
维基数据人工智能项目经理菲利普・萨德(Philippe Saadé)在接受媒体采访时强调,该项目独立于主流人工智能实验室及大型科技公司。萨德对记者表示:“此次‘嵌入项目’的推出表明,强大的人工智能技术未必只能由少数几家公司掌控。它可以是开放的、协作式的,其构建目的应是服务于所有人。”
4月28日,中国贸促会举行4月例行新闻发布会,发言人赵萍回答记者提问。 有记者提问,近期,应中国贸促会邀请,美国英伟达公司总裁兼首席执行官黄仁勋访华,并表示希望继续与中国合作,中国贸促会对此有何评论?...
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 《科创板日报》7月13日讯(记者 徐赐豪 高梦阳) “上个周末平均一天赚了800多”。7月11日,饿了么杭州骑手小丽(化名)向...
盖世汽车讯 据知情人士透露,特斯拉软件工程副总裁David Lau已向公司内部宣布即将离职。 作为少数几位与特斯拉首席执行官埃隆·马斯克共同推广公司产品的高管之一,David Lau在特斯拉任职已有近...
据新华社北京4月12日电 联合国人道主义事务协调厅在11日公开的一封信中说,由于资金遭遇“残酷削减”,尤其是美国政府大幅叫停对外援助,这一机构将裁员20%,即500多名工作人员。 据法新社报道,联合国...
股指: 昨日,A股市场低位反弹,Wind全A上涨0.85%,成交额1.15万亿元。中证1000指数上涨1.31%,中证500指数上涨0.61%,沪深300指数上涨0.29%,上证50指数上涨0.41...
LG电子印度子公司是第二家在印度上市的韩国大型企业。 韩国LG电子旗下印度子公司周二在孟买证券交易所(BSE)挂牌首日大涨50%,开盘价1715卢比,远高于发行价1140卢比。本次首次公开募股(IP...