事件图谱,存储了事件之间的关联关系以及事件本身的论元信息,在形式上打通了事件与实体之间的孤岛,形成了一个可游走、可推理的全局网络通过对特定领域的非结构化文本进行挖掘以及结构化数据的组织,再辅以人工修正,可以得到一个领域性的事件图谱数据库,基于这个数据库,可进一步支撑起多个潜在应用的畅想。
本文主要围绕事件图谱应用:智能金融与情报分析中的事件应用潜在场景概述这一主题,从金融和情报两个方面出发,提出7大应用场景,供大家一起思考
一、基于事件关系网络的金融风险事件监控1、金融风险事件监控概述金融风险监测与预警,即对金融风险实施监控以及提前感知,通过提前报警的方式提示相关人员采取相应的应对措施举例来说,金融风险包括微观和宏观两个方面,微观金融风险是指金融活动的参与者如厂商、金融机构、个人投资者所面临的不确定的变化结果,如信用风险、流动性风险、资本风险;。
宏观金融风险是指各种金融制度或金融活动对整个国民经济带来的不确定的变化结果,如制度风险、外债风险和国际投机风险而放大至整个金融市场,则又可以根据具体的业务需求进一步细分在面向企业风险的智能化监控上,现在也有风控类的产品,只能在实际导致风险的事件发生后才能监控到。
如果能够借助风险事件图谱做推理,就可以在导致风险直接原因发生时或之前去看,可以更早、更快发现风险,挖掘的也更深入,这是与现有风控产品最大的不同基于事件数据的金融风险监测与预警,需要将金融风险形式化成事件的形式。
假定一个风险应该是对某个事件主体进行的不同风险表现进行的描述,因此可以模式化成“风险主体+风险表现或动作”的形式,如“财务风险”可以形式化成“营业额下降”、“净利润腰斩”等风险事件,形成一个风险事件集合。
将金融风险进行事件形式化后,可以与实现构建好的因果事件图谱中的事件进行对齐和链接,借此获取导致该事件的前序事件集合或者事件传导链集合与之前借助同义词扩展等方式将风险事件进行检索不同,从事件传导的角度进一步拓宽了事件风险监测和提前感知的广度,能够通过对前序事件进行监测,从而达到风险监测的提前预警。
2、基于事理的金融风险事件监控实现金融风险监测与预警的输入数据类型可以分为文本型和数据型两种其中,文本字符串又分成直接显式地叙述事件和隐式地叙述事件两种类型,如“美股发生史上第四次熔断”,可以通过事件抽取和链接的方式完成识别,如“某公司2020年营收净利润为2.1个亿”,则需要对比该公司上一年度的营业净利润数据,从而得到“某公司2020年营业收入下滑”的事件表述。
数值类数据方面,如国家GDP增速数据,银行杠杆率数据,通过监测数据的变动,将变动的结果形式化为一个事件,执行后续的事件类型可以从标题中,通过最小子句切分规则,得到事件的候选集合,再对候选事件集合中的事件,通过主谓宾短语识别的方式,获取对应的触发事件。
例如,给定标题“风险情绪回归,原油涨不停,黄金没戏”,可以切分为“风险情绪回归”、“原油涨不停”以及“黄金没戏”三个子事件不过在进行事件的提取时,还需要充分考虑到该事件所在的上下文环境因为目前的新闻标题中存在着大量的标题党和造谣现象,通过构造一些非确定的标记符号以及指示词,可以提出事件提取中的一些噪声数据。
而对于一个篇幅很大的文章,则可以通过提取核心句的方式将文章中的信息聚合到一个句子当中,这种方式虽然会丢失大量的文本内容信息,但在应用过程中可以根据业务需求灵活调整二、基于事理图谱的金融标的物判定预测1、金融标的物与预测概述
金融标的物,指的是可以进行市场交易的一类商品,包括期货、股票、基金等,例如国内上市公司股票,大连商品交易所、上海期货交易所以及郑州商品交易所挂牌交易的大豆、豆粕、豆油、塑料、棕榈油、玉米、PVC、焦炭、焦煤、铁矿石、纤板、聚炳烯、鸡蛋、胶板、粳稻的期货产品。
从事件的角度出发,挖掘出影响这些标的物的可能影响因素,形成一度或多度的传导关联事件,可以作为一个重要的驱动因子完成标的物影响走势的判定例如,判定一个标的物的利好、利空方向,或者进一步计算出走势的波动区间和发生概率。
所谓标的预测,指的是与事件相关的标的物预测,例如股票价格、期货收盘价、商品价格、货物产量等的预测传统的标的物预测,往往是基于量化数据进行的预测,而近年来,基于文本的预测工作逐步展开以预测股票价格为例,可根据股票的新闻文本进行文本-价格建模,形成基于文本的预测模型。
在这个建模过程当中,可以根据具体的文本进行向量表示,向量化的方式包括:基于全文的向量化表示、基于全文摘要的向量化表示、基于词的(关键词、主题词、实体词)的向量化表示、基于元组的向量化表示,此外还可以加入情感极性、主观性等特征融入到上述向量化表示当中。
金融标的物的判定分成四项内容:· 一是目标标的物的确定,确定某一事件发生后期能影响的主体,这一步需要实现确定和给定一个目标标的物集合列表;· 二是判定受影响标的物的影响方向(利好或者利空);· 三是目标标的物受影响的概率或者可能性,即在某个事件发生后,其有多大概率会造成某个目标标的物的波动;
· 四是判定目标标的物利空或利好的程度(涨幅或跌幅)前两个任务是个定性的预测任务,可行度较高,通过关联推理规则可以给出一个结果,后两者是个定量的任务,得到的概率是一个统计参考值2、基于事理图谱的金融标的物预测。
为了建模金融领域标的物影响,业界许多公司或企业对此提出了基于搜索推荐式的判定方法例如,通过对输入的某个事件或者从输入的一段文本中进行事件识别,并将该事件与事先构建好的金融标的物因果事件图谱库进行事件对齐和链接,设定相应的阈值,将高于该阈值的事件及其相关联的后续事件作为后续影响标的物的预测结果。
这种方式本质上是一种搜索匹配,对于历史上并没有发生的事情时,得到的结果是相关结果而不是最终结果“事理逻辑图谱”的出现,从事件状态的逻辑转移上为推理机制提供了一个新的方向针对影响事件,我们运用事件重要性判定技术和事件实体链接技术对影响事件进行过滤,使得造成的事件一定是某种商品或者公司的类似事件,这种方式能够就用户给定的事件,给出一个最为直接了当的标的结果。
例如,以“螺纹钢价格上涨”为核心的因果逻辑传导推理链条,在经过不断进行链条的推理扩展之后,步步推理至各类实体事件后最终产生的结果图从一度推理的“螺纹钢价格上涨”导致废钢库存小幅减少,到小麦期货小幅收低等多层推理结果等,能够在一定程度上描绘出整个逻辑链条的传导机制。
若将用户的输入转换为某个新闻,那么可以对该新闻得到的逻辑传导展开结果揭示3、基于事理与产业链图谱的金融标的物预测到后面我们发现,单纯依赖于事件之间的因果关系,不足以覆盖住足够多的标的物推理场景因此,可以进一步挖掘出标的物之间的关系,如产业链的上下游关联,包括产业上下游、产品耗材、下游产品等。
在进行标的物预测时,既可以通过产业链传导规则实施推理,也可以通过因果关系或者两者之间的联合推理完成标的物任务因此,到后面,我们采用了融合事理图谱和产业链图谱的模板生成式判定方法,即前期通过因果事件图谱总结出一系列金融标的物影响模板,如上游原料产能不足->上游原材料价格上涨->下游产品价格上涨。
而在给定一个事件后,通过实体识别链接方式链接到某个上游原材料,然后通过实体关系图谱找到对应的下游产品及其关联动作基于构造好的产业链或者实体关系图谱,可以在此基础上迅速泛化生成出大量的因果事件对,以此进一步扩充因果事件对。
例如,通过产业链传导规则得到影响结果,并形式化为事件,再通过因果事件图谱查找出后续结果,两种方式互相迭代,得到相应的预测结果基于事件图谱的金融标的物预测,其意义在于推断方式的可解释性,通过给出风险的推理路径,可以方便地看出其中的传导路径,并且其中的过程性信息也可以提供其他帮助。
金融标的物的判定,其性能取决于底层事件传导知识库的质量的高低以及推断逻辑规则的设置在标的物预测方面,事件图谱为其提供了两个方向即:· 基于事件链接和标的物关联路径匹配的预测,融合事件图结构表示的标的物预测。
基于事件链接和标的物关联路径匹配的预测指的是基于已有的事件知识,对文本中的事件进行识别和链接,通过关联的标的物路径,形成对标的物品方向性的预测;· 融合事件图结构表示的标的物预测,指的将基于链接的事件,将事件中的各个维度特征融入到图结构当中,通过预先标注关联的标的物及其变化方向,训练分类模型,从而实现标的物的最终预测。
三、基于事理图谱结构的金融业务知识管理1、基于事理结构的投研逻辑管理工具基于事件图谱的投研逻辑管理,指借助事件图谱中以事件为核心,事件体系为整个骨骼支撑起来,对具体事件、实体、逻辑等的统一管理知识管理是知识情报管理中的重要组成部分,包括对不同形态的知识单元进行存储管理,实现对知识的收集、增添删除、编辑改写、查询等。
事件图谱的出现,为知识管理提供了以事件体系为架构的知识管理新模式研究逻辑的智能管理主要指的是把研究员和分析师头脑当中的分析逻辑表达出来解决了研究机构现在的一大痛点,就是研究员、分析师走了,形成的研究逻辑就会被带走,所以一大诉求就是要把研究员、分析师的知识能够积累下来。
对研究员而言,也会涉及到用自己的分析逻辑做验证、更新,同时还要以自己的视角对海量的数据和资讯做智能的组织和分析,把现在每天看各种各样研究报告或数据的现状变成行为自动化它主要是以人为主,不是试图从几千万的研究报告、公告或者新闻资讯里完全构建一个准确的逻辑,其设计目标就是研究员做验证或更新的分析逻辑过程中,如何自动化的提供各种辅助。
当研究员指定一个事件或逻辑时,能在整个图谱里查找指定的前因后果,同时也对整个历史性数据做实证、验证,当然还会把相关的资讯和数据都链接在一起,为研究员提供预警和实时监控的功能以事件体系为架构的知识管理可以形成一个领域事件管理平台。
具体包括事件的体系定义模块、事件知识的编辑模块、事件知识的更新模块、事件知识的导出模块事件的体系定义模块指使用者根据领域特性,自顶向下的事件的层次体系,相当于事件知识的多级目录事件知识的编辑模块包括对事件的录入、事件的删除、事件的导入、事件的关联等操作;事件知识的更新模块指对现有数据进行更新,包括自更新和用户手动更新两种模式,同时也包括对事件知识的版本更新问题。
事件知识的导出模块指的是对现有事件知识进行导出、备份以及共享,用于后续事件分析、事件保存等用途与基于知识图谱的知识管理不同,以事件体系为架构的知识管理可以充分发挥出事件层级性结构信息、事件的逻辑关联关系、事件的关联实体信息等,具有更大的知识统筹能力,将实体性知识与动态性事件知识结合在一起,并将视频、音频、图片等多模态信息进行关联,更具备全局性。
2、融合会计事理的金融文档智能核查现在很多券商、投行都已经在做完整的智能核查,比如IPO的招股说明书,就有券商、初创公司在做,但是整个核查的逻辑都是相对比较浅层和表面的,如果这个逻辑需要比较深入且相对比较多,那怎么才能把这些逻辑表达给机器呢?由程序员一个个都编码出来很不现实。
如果能够让负责核查、审计的人,像研究逻辑的智能管理一样,能够把自己的核查逻辑表达出来,实现到自动化的核查和审计工具中,就是一个非常好的深度核查、审计能力3、基于事理抽取的金融风险自动梳理假如可以把公司债券都有哪些风险自动梳理出来,基于这些逻辑、风险的表现,就可以进一步的组织对各个公司的债券做风险管控。
行业经营风险点的自动梳理每个行业的经营风险都是各种各样的,究竟行业有哪些风险,只有在行业内摸爬滚打多年的资深从业人士可能才能摸得清楚,但也未必全面;所以在没有完整的行业风险表现时,要对行业的经营状况做评估、风险管控时,就比较麻烦,无法自动化而只能依赖人。
所以如果能够用事理图谱把相关的风险梳理出来,也会对这类应用提供一个基础的数据能力四、基于事件图谱的情报推荐在前面的文章中,我们说到,顺承事件图谱对具有时序特征的叙述性事件能够很好的刻画,它描绘了叙述性事件的整个阶段。
而我们正好可以利用这种阶段性的特征,完成消费推荐的任务例如,当用户发出“丽江是个好地方,我想去看看”的状态时,通过分析该用户的消费意图,将消费意图识别为一个出行事件时,通过游走以“丽江出行”这一个顺承图谱可以推出多种消费行为。
· 例如“出机场、看到接待点”这个子事件可以推出“机票预订与推荐”与“接送机”服务;· “预订#客栈”这一子事件可以引出“酒店预订”服务,“买卧铺票”这一子事件可引出“火车票预订”这项需求全局的来看,整个出行图谱可以作为一个整体的出行指南提供给用户,充当用户规划的“探路者”与“规划师”。
此外,基于事件图谱的可解释性推荐,是沿袭知识图谱可解释推荐的应用特性来说的事件图谱中包括丰富的事件逻辑关系,包括纵向方向上的上下位、组成关系,横向方向上的因果、时序关系,也包括事件丰富的槽位信息(不同的侧面),这都为可解释性推荐提供了数据基础。
从应用形式上看,包括:· 基于上下位关系进行推荐,例如根据货币贬值,推荐美元贬值、人民币贬值等;基于组成关系进行推荐,例如根据结婚这一事件场景,推荐订婚、领证、买婚纱、买戒指等;· 基于因果、条件等预设性逻辑关系进行推荐
,例如根据暴雨,推荐受灾、抗洪等;· 基于时序性关系进行推荐,例如根据买票这一事件,推荐刷身份证、坐车等;· 基于关联实体知识图谱的实体推荐,例如根据范冰冰偷税漏税,推荐关联的股票如唐德影视等;· 基于事件属性槽面值的相关性推荐
例如,地震这一事件,可以推荐地震级别高于5级的地震,震源深度小于20km的地震等从另一个角度来看,可以进行事件图谱的实证性素材验证,是作为一项辅助逻辑正确性以及写作推荐的应用提出的由于事件图谱中的事件实例层中积累了大量的事件原始描述,这些原始描述都来源于某个文本,具有一定的上下文信息,形成了丰富的事件素材。
一方面,基于事件图谱的写作素材推荐基于事件实例库,写作者在叙写某个事件时,可以将该事件的原始描述和事件上下文进行素材的推荐典型的,可以充分利用事件之间的逻辑关系进行关联事件推荐,如给定事件推荐该事件发生的条件、后续的动作、引起的结果、相关联的上位事件和组成事件等。
另一方面,基于事件图谱素材成立性验证事件图谱素材成立的验证指的是针对写作者所列举的事件关联性,给出具有实际可供验证的描述性文本例如给定一个特定的因果事件对:猪瘟->猪肉价格上涨,可以从事件实例库中找到支持该事件对的原始描述。
五、基于事件图谱的情报监控所谓增强型情报监控,指的是充分利用事件图谱知识刻画优势和结构优势进行的情报监控增强情报监控,指对特定文本进行文本情绪、传播、演化等计算就目前而言,情报监控的主要集中在对特定网站或文本进行采集,通过主题分析,情感计算,热点发现与统计、标签化等手段进行情报建模。
而基于事件图谱,可以从以下几个方面进行增强:特定信息的采集在采集上,大都基于关键词搜索的方式来获取某一关注事件的文本信息,为了扩大文本的召回,大都会采用关键词扩充的方法加以拓展(如采用同义词表、近义词表等)。
而若以前置构建好的事件图谱作为知识基础,可以充分利用事件词之间的各类关系进行扩充,如上下位关系,组成关系,因果关系,顺承关系等,因为从本质上来说,这类事件直接有些很强的紧密结合性和相关性这种扩充,一方面可以提升监测的广度和完整性,另一方面也隐性地将网页文本套进了事件体系之中。
特定事件的分析如果有实现构建好的事件层级,那么在对事件的分析上就更具备有针对性,即可以预先了解需要分析的角度如分析银行降准这个事件,可以从降准的粒度、降准整个体系、降准的方向、降准实施者、降准所带来的影响、降准的起因等几个角度去进行全方位分析,不再局限于某一个点。
如此一来,得到的结果也能更为多元化且有说服力预警性事件的监控预警性事件,指的是基于已有事件图谱中存在时序或因果逻辑关系的后续事件如猪瘟事件出来之后,根据已有的事件逻辑关系,可以得出猪肉价格上涨,出栏率下跌,饲料价格下跌等多个后续事件,而后续事件不会全部或者一直发生,往往是个别事件发生,或者极少数事件持续发生。
这时,通过对这些事件进行监测,能够针对性地筛选出个别事件自己极少数事件,这对于后期的控制和预警具有很大帮助此外,还可以在事件中融入一些具有风险性和标签化的手段,对事件本身贴上一定的类别标签,能够进一步增强预警性事件监控的有效性。
六、基于事件图谱的重要新闻判别大数据时代下,海量新闻在网络上快速传播,新闻个性化推荐以及重要新闻筛选成为了新闻检索中的两个重要任务目前的推荐算法主要基于协同过滤、基于内容推荐和混合推荐方法,这几种方法从本质上来说都是对内容与用户进行建模并进行相似性计算得到的一种结果。
事件图谱的出现,提供了一种重要性判别方式和新闻推荐方式“历史总是相似的,重要的事情总是周而复始的出现”,在这一假设下,通过对新闻文本进行事件提取,并结合背后的事件图谱,根据事件后续产生影响的重要性可以为整个新闻进行重要性评分,并给出该新闻事件所蕴含的已有事件和未来事件信息。
通过这种方式对新闻资讯进行建模和筛选,并结合用户兴趣模型,可以完成重要新闻的判别和推荐七、基于事件图谱的文本信息生成文本结构化指对文本进行信息提取形成结构化信息的构成基于事件类图谱技术,可以为文本结构化提供一种新的思路。
Chambers通过无监督学习构建叙述事件链,可以用于人工脚本的编写从多篇新闻中提取与主角相关的一系列事件,用时间状态排序,最后聚类事件创建事件链Tannier从多篇文章中抽取同一事件的不同阶段使用层级分类器区分事件对之间是否有关系,区分相同事件和顺承事件,从顺承事件中寻找反应事件。
Li是从社交媒体中生成故事大纲给定一个关键词查询,根据tweet消息生成故事大纲检索得到相关的tweet,选取每个阶段中代表性的tweet,联合起来得到最终的文本Do在一篇文章中对多个事件按时间排序,通过构建时间线,识别事件并建立时间和时间的时许关系生成故事大纲。
基于领域事件类图谱模型还可以支持特定文本的生成任务,通过对特定领域事件进行建模,可以得到领域所属的事件体系,以该事件体系为纲要或模板,通过填充相关数据,可形成相应文本,如足球比赛快报的生成等文本生成落地的应用比如百度的机器写作Xiaomingbot,通过获取事件脉络和事件咨询内容进行篇章规划,自动生成文摘。
虽然机器写作目前仅应用于体育类,财经类等特定领域,但未来将会应用到更广的范围本文来自:公众号【老刘说NLP】作者:刘焕勇Illustrastion by Юлия Давлетгарееваfrom icons8
-The End-本周上新!
扫码观看!关于我“门”▼将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com
点击右上角,把文章分享到朋友圈点击“阅读原文”按钮,查看社区原文⤵一键送你进入TechBeat快乐星球
亲爱的读者们,感谢您花时间阅读本文。如果您对本文有任何疑问或建议,请随时联系我。我非常乐意与您交流。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。