什么是OneKE?
OneKE是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架,具备中英文双语、多领域多任务的泛化知识抽取能力,并提供了完善的工具链支持。OneKE以开源形式贡献给OpenKG开放知识图谱社区。
大语言模型目前已显著提升了人工智能系统处理世界知识的能力,然而,以大语言模型为代表的生成式人工智能依然存在推理能力不足、事实知识匮乏、生成结果不稳定等问题,这些都极大的阻碍了大语言模型的产业化落地。 为克服上述问题,加速推进可控生成式人工智能的产业落地,依托校企战略合作框架,蚂蚁集团和浙江大学成立知识图谱联合实验室,以期通过联合技术攻坚构建大语言模型与知识图谱双向增强的可控生成技术范式,围绕大模型增强的知识图谱构建、知识增强的可控生成、领域常识世界图谱等课题展开全方位合作。
基于非结构化文档的知识构建一直是知识图谱大规模落地的关键难题之一,因为真实世界的信息高度碎片化、非结构化,大语言模型在处理信息抽取任务时仍因抽取内容与自然语言表述之间的巨大差异导致效果不佳,自然语言文本信息表达中因隐式、长距离上下文关联存在较多的歧义、多义、隐喻等,给知识抽取任务带来较大的挑战。针对上述问题,蚂蚁集团与浙江大学依托多年积累的知识图谱与自然语言处理技术,联合构建和升级蚂蚁百灵大模型在知识抽取领域的能力,并发布中英双语大模型知识抽取框架OneKE,同时开源基于LLaMA2全参数微调的版本。测评指标显示,OneKE在多个全监督及零样本实体/关系/事件抽取任务上取得了相对较好的效果。
统一知识抽取框架有比较广阔的应用场景,可大幅降低领域知识图谱的构建成本。通过从海量的数据中萃取结构化知识,构建高质量知识图谱并建立知识要素间的逻辑关联,可以实现可解释的推理决策,也可用于增强大模型缓解幻觉并提升稳定性,加速大模型垂直领域的落地应用。如应用在医疗领域通过知识抽取实现医生经验的知识化规则化管理,构建可控的辅助诊疗和医疗问答。应用在金融领域抽取金融指标、风险事件、因果逻辑及产业链等,实现自动的金融研报生成、风险预测、产业链分析等。应用在政务场景实现政务法规的知识化,提升政务服务的办事效率和准确决策。
如何使用OneKE?
OneKE中指令的格式采用了类JSON字符串的结构,本质上是一种字典类型的字符串,由以下三个字段构成: (1) ‘instruction’,即任务描述,以自然语言指定模型扮演的角色以及需要完成的任务; (2) ‘schema’,这是一份需提取的标签列表,明确指出了待抽取信息的关键字段,反应用户的需求,这是动态可变的; (3) ‘input’,指的是用于信息抽取的源文本。目前可通过DeepKE-LLM或OpenSPG来直接使用OneKE,高级用户可自行转换和构造指令使用OneKE。
注意:鉴于特定领域内信息抽取的复杂性和对提示的依赖程度较高,我们支持在指令中融入Schema描述和示例(Example)来提升抽取任务的效果。 由于模型规模有限,模型输出依赖于提示且不同的提示可能会产生不一致的结果,敬请谅解。