一种基于知识图谱的税务知识库系统的制作方法
税务知识:个人所得税的计算方法 #生活知识# #生活经验# #税务#
本发明涉及税务知识库技术领域,具体为一种基于知识图谱的税务知识库系统。
背景技术:
税务系统是具有共同税收目标又相互关联的各税务机构所组成的有机整体。从组织结构的角度分析,一个税务机关可以看成一个税收系统。它所属的各职能部门如基层征收机构,以及人事、票证、会计、统计和计划等就是组成税务机关系统的部分,它们共同的目标就是完成税收任务。
现有的税务知识库系统在使用过程中,存在以下问题:
1、税务领域知识结构复杂又难以构建,知识关系不容易梳理构建。
2、税务领域知识具有时效性,传统方法构建可能存在刚刚构建好就失效的情况。
3、税务领域业务知识量巨大。
4、税务领域业务知识和其他行业知识有交叉。
5、税务领域业务知识构建需要具有专业背景的人才。为此,我们提出一种基于知识图谱的税务知识库系统。
技术实现要素:
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于知识图谱的税务知识库系统。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于知识图谱的税务知识库系统,数据模块、知识模块以及测试评估模块,所述知识模块包括:知识获取模块、知识融合模块、知识计算模块、知识表示模块、知识构建模块、知识存储模块以及知识运维模块;
所述数据模块具体为:
a)作为知识获取来源,分为结构化数据,半结构化数据,非结构化数据,数据最终的结构为:实体-属性-值;
b)结构化数据,关系型数据库中相关数据;
i.业务:完税证明打印;
ii.属性:包含上游未完成业务;
iii.值:实名认证;
c)半结构化数据,为日志相关,第三方接口数据等其他数据源;
i.半结构化数据中可能只包含实体-属性,实体-值,属性-值;
ii.需要通过数据整合,第三方接口,算法预测等方式进行数据补全;
iii.非结构化数据,需要实体抽取,属性抽取,值预测,值关联等方式进行补全;
iv.实体抽取,属性抽取会在知识获取中介绍。
作为优选,所述知识获取模块具体为:
a)知识获取作为整个引擎中关键组件,主要完成信息抽,实体识别,关系抽取,属性抽取等功能;
b)税务概念抽取,知识图谱知识库构建的第一步,关键是如何从异构数据中自动抽取信息到候选的知识单元中;
c)实体抽取,采用bi.lstm.cre,模型进行抽取;
i.数据输入:税务语料,爬取的政策,税务报告,资料,书籍;
ii.输出结果:税务业务,税务政策,税务规则;
d)关系抽取,经过实体抽取,会得到一些税务业务实体,但是这些实
体都是离散的,为了得到语义信息,还需要将这些抽取到这些实体之间的关系才能将这些实体联系到一起;
i.关系抽取采用模型四种方式进行ensemble;
ii.有监督学习方法:对于已知的关系,模型为:bi-lstm;
1).输入为:实体语料;
2).输出为:关系;
iii.半监督学习方法:采用bootstrapping进行关系抽取,设定若干种子语料,找到对应的关系;
1).业务:完税证明打印;
2).属性:-包含上游未完成业务;
3).值:-实名认证;
4).找—些和他类似的关系数据,这个种子相当于模板;
iv.无监督方法:采用句法分析,依存分析得到句子的结构性分析结果,在通过关系短语进行抽取;
v.规则抽取方法:
1).设定规则词〔关系词),比如还需要,需要完成,实名认证;
2).检测到规则词,做实体抽取,抽取到相应的业务得到的关系。
作为优选,所述知识融合模块具体为:知识融合主要是将一些关联的知识图谱,知识库融合到一起的技术。
作为优选,所述知识计算模块具体为:
a).知识计算主要功能就是进行知识推理,由一个知识如何推理到另外一个知识,推理机制;
b).知识统计,通过统计推断的方式进行推理计算;
c).图计算。
作为优选,所述知识表示模块具体为:
a)符号表示法rdf三元组;
i.subject-主语;
ii.predicate-谓词;
iii.object-宾语;
iv.举例
1).主语:完税证明打印;
2).谓词:设置起始日期;
3).宾语:起始日期;
b)vsm表示法
i.基于空间向量模型的表示方法;
ii.将实体建模为列向量,关系建模为矩阵,通过实体向量和关机矩阵的象形变换,最后与尾实体进行点击操作来确定实体之间的关系;
iii.典型的方法包括基于向量的三角形法则和范数原理的-tanse模型,通过超平面转化或线性变换处理多元关系的transh、transr.,和transd.模型,通过增加一个稀疏度参数向量解决异构多元关系的·transparse·模型。
作为优选,所述知识构建模块具体为:
a).概念上下位关系生成;
b).属性识别;
c).规则建模;
d).时空建模。
作为优选,所述知识存储模块具体为:
a)知识存储即将知识三元组和向量化表示进行存储;
b)基于表结构,即将三元组存储于关系型数据库;
c)基于图结构,图数据库基于有向图,其理论基础是图论,节点、边和属性是图数据库的核心概念。
作为优选,所述知识运维模块具体为:
a).知识协同;
b).知识确认;
c).知识校正。
作为优选,所述测试评估名模块具体为:
a)准确性评估,每次模型上线会有准确率,试运行的评估报告以供参阅;
b)覆盖率评估,定期更新知识库中所有知识点的触发次数和未回答占比;
c)性能评估,定期评估当前知识库的响应和负载性能。
(三)有益效果
与现有技术相比,本发明提供了一种基于知识图谱的税务知识库系统,具备以下有益效果:
该基于知识图谱的税务知识库系统,通过设置知识获取模块、知识融合模块、知识计算模块、知识表示模块、知识构建模块、知识存储模块以及知识运维模块,达到解决税务领域知识结构复杂又难以构建,知识关系不容易梳理构建,税务领域知识具有时效性,传统方法构建可能存在刚刚构建好就失效的情况,税务领域业务知识量巨大,税务领域业务知识和其他行业知识有交叉,税务领域业务知识构建需要具有专业背景的人才等问题。
附图说明
图1为本发明的整体框架图;
图2为本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,一种基于知识图谱的税务知识库系统,数据模块、知识模块以及测试评估模块,所述知识模块包括:知识获取模块、知识融合模块、知识计算模块、知识表示模块、知识构建模块、知识存储模块以及知识运维模块;
所述数据模块具体为:
a)作为知识获取来源,分为结构化数据,半结构化数据,非结构化数据,数据最终的结构为:实体-属性-值;
b)结构化数据,关系型数据库中相关数据;
i.业务:完税证明打印;
ii.属性:包含上游未完成业务;
iii.值:实名认证;
c)半结构化数据,为日志相关,第三方接口数据等其他数据源;
i.半结构化数据中可能只包含实体-属性,实体-值,属性-值;
ii.需要通过数据整合,第三方接口,算法预测等方式进行数据补全;
iii.非结构化数据,需要实体抽取,属性抽取,值预测,值关联等方式进行补全;
iv.实体抽取,属性抽取会在知识获取中介绍。
所述知识获取模块具体为:
a)知识获取作为整个引擎中关键组件,主要完成信息抽,实体识别,关系抽取,属性抽取等功能;
b)税务概念抽取,知识图谱知识库构建的第一步,关键是如何从异构数据中自动抽取信息到候选的知识单元中;
c)实体抽取,采用bi.lstm.cre,模型进行抽取;
i.数据输入:税务语料,爬取的政策,税务报告,资料,书籍;
ii.输出结果:税务业务,税务政策,税务规则;
d)关系抽取,经过实体抽取,会得到一些税务业务实体,但是这些实
体都是离散的,为了得到语义信息,还需要将这些抽取到这些实体之间的关系才能将这些实体联系到一起;
i.关系抽取采用模型四种方式进行ensemble;
ii.有监督学习方法:对于已知的关系,模型为:bi-lstm;
1).输入为:实体语料;
2).输出为:关系;
iii.半监督学习方法:采用bootstrapping进行关系抽取,设定若干种子语料,找到对应的关系;
1).业务:完税证明打印;
2).属性:-包含上游未完成业务;
3).值:-实名认证;
4).找—些和他类似的关系数据,这个种子相当于模板;
iv.无监督方法:采用句法分析,依存分析得到句子的结构性分析结果,在通过关系短语进行抽取;
v.规则抽取方法:
1).设定规则词〔关系词),比如还需要,需要完成,实名认证;
2).检测到规则词,做实体抽取,抽取到相应的业务得到的关系。
所述知识融合模块具体为:知识融合主要是将一些关联的知识图谱,知识库融合到一起的技术。
所述知识计算模块具体为:
a).知识计算主要功能就是进行知识推理,由一个知识如何推理到另外一个知识,推理机制;
b).知识统计,通过统计推断的方式进行推理计算;
c).图计算。
所述知识表示模块具体为:
a)符号表示法rdf三元组;
i.subject-主语;
ii.predicate-谓词;
iii.object-宾语;
iv.举例
1).主语:完税证明打印;
2).谓词:设置起始日期;
3).宾语:起始日期;
b)vsm表示法
i.基于空间向量模型的表示方法;
ii.将实体建模为列向量,关系建模为矩阵,通过实体向量和关机矩阵的象形变换,最后与尾实体进行点击操作来确定实体之间的关系;
iii.典型的方法包括基于向量的三角形法则和范数原理的-tanse模型,通过超平面转化或线性变换处理多元关系的transh、transr.,和transd.模型,通过增加一个稀疏度参数向量解决异构多元关系的·transparse·模型。
所述知识构建模块具体为:
a).概念上下位关系生成;
b).属性识别;
c).规则建模;
d).时空建模。
所述知识存储模块具体为:
a)知识存储即将知识三元组和向量化表示进行存储;
b)基于表结构,即将三元组存储于关系型数据库;
c)基于图结构,图数据库基于有向图,其理论基础是图论,节点、边和属性是图数据库的核心概念。
所述知识运维模块具体为:
a).知识协同;
b).知识确认;
c).知识校正。
所述测试评估名模块具体为:
a)准确性评估,每次模型上线会有准确率,试运行的评估报告以供参阅;
b)覆盖率评估,定期更新知识库中所有知识点的触发次数和未回答占比;
c)性能评估,定期评估当前知识库的响应和负载性能。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
网址:一种基于知识图谱的税务知识库系统的制作方法 https://klqsh.com/news/view/290525
相关内容
基于知识图谱的健康养生智能知识服务系统架构设计基于气象领域知识图谱的问答系统装置及问答方法与流程
构建宠物知识图谱问答系统:Neo4j的实践与应用
税务基础知识1.ppt
关于税务方面的知识,财税知识大全
财务税务基本知识汇总
基于知识图谱的影视产业人物关系网络分析
【税务基础知识】
税务知识
健康饮食知识图谱和问答系统构建研究

