互联网
金融
安全
情绪
感知
风险
预警
应用
研究
基于
BERT
探索
收稿日期:2022-11-02摇 摇 摇 摇 摇 摇 修回日期:2022-12-14基金项目:国家社会科学基金一般项目“基于大数据的情报分析在互联网金融风险防控场景中的应用研究冶(编号:19BTQ070)的阶段性成果。作者简介:丁晓蔚,男,1977 年生,博士,副教授,硕士生导师,研究方向:金融情报学、金融信息与工程学、数字舆情、传播与社会、区块链、大数据及 AI 驱动的数字金融经济和文化社会创新;季摇 婧,女,1994 年生,硕士研究生,高级算法工程师,研究方向:自然语言处理;赵笑宇,1999年生,科研助理,研究方向:大数据、人工智能、金融科技;王本强,1994 年生,硕士研究生,高级算法工程师,研究方向:自然语言处理、机器学习、有理插值;丁毅杰,男,2003 年生,科研助理,研究方向:统计学、大数据、人工智能、金融科技;王献东,男,1999 年生,科研助理,研究方向:大数据、人工智能、金融科技。通信作者:丁晓蔚互联网金融安全情绪感知及风险预警应用研究*基于 BERT 所作的探索丁晓蔚1,2,3摇 季摇 婧4摇 赵笑宇2摇 王本强4摇 丁毅杰2摇 王献东2(1.南京大学信息管理学院摇 南京摇 210023;2.南京大学普惠三农金融科技创新研究中心摇 南京摇 210023;3.紫金传媒智库摇 南京摇 210023;4.上海蜜度信息技术有限公司摇 上海摇 201204)摘摇 要:研究目的在为互联网金融(以下简称“互金冶)风控监管构建风险情报支撑体系的视域中,进行专门面向互金安全情绪感知技术的研究,提出并构建基于 BERT 的互金安全情绪感知模型。研究方法基于 BERT 分别构建互金安全情绪感知模型(IFSSP)、集成指数移动平均 EMA 的互金安全情绪感知模型(IFSSP+EMA)、集成指数移动平均 EMA+对抗训练 PGD 的互金安全情绪感知模型(IFSSP+EMA+PGD),并将其用于从高维、异构、稀疏、高噪、高频的海量大数据中,快速、准确地挖掘隐藏信息和安全线索,提取出风险预警因子、特征和指标,并进一步测试其对风险情报体系的效果。最后进行微观、中观、宏观应用实证研究。研究结论基于 BERT 的面向互金安全情绪感知技术能提高互金风险预警的准确率,在应用实证中体现出可行性和有效性。关键词:互联网金融;数字金融;风险情报体系;互金安全情绪感知;BERT;金融风险预警技术;国家金融安全中图分类号:G350;F830-4摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 摇 文章编号:1002-1965(2023)09-0057-14引用格式:丁晓蔚,季摇 婧,赵笑宇,等.互联网金融安全情绪感知及风险预警应用研究J.情报杂志,2023,42(9):57-70.DOI:10.3969/j.issn.1002-1965.2023.09.010Research on Internet Financial Security Sentiment Perception withApplications in Risk Early WarningDing Xiaowei1,2,3摇 Ji Jing4摇 Zhao Xiaoyu2摇 Wang Benqiang4摇 Ding Yijie2摇 Wang Xiandong2(1.School of Information Management,Nanjing University,Nanjing摇 210023;2.Nanjing University Research Center for Inclusive&Rural Financial Technology Innovation,Nanjing摇 210023;3.Zijin Media Think Tank,Nanjing摇 210023;4.Shanghai Midu Information Technology Co.,Ltd.,Shanghai摇 201024)Abstract:Research purpose In the perspective of building a risk intelligence support system for Internet finance risk control and super鄄vision,we conduct research on finance security sentiment perception technology specially oriented for Internet finance security.We pro鄄pose and build an Internet finance security sentiment perception model based on BERT.Research method Based on BERT,the Internet第 42 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇情摇 报摇 杂摇 志JOURNAL OF INTELLIGENCE摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.42摇 No.9Sep.摇 2023finance security sentiment perception model(IFSSP),the Internet finance security sentiment perception model integrating exponentialmoving average EMA(IFSSP+EMA),and Internet finance security sentiment perception model integrating exponential moving averageEMA and Adversarial Training PGD(IFSSP+EMA+PGD)were constructed respectively,and used to timely and accurately mine hiddeninformation and security clues from high-dimensional,heterogeneous,sparse,high noise,and high-frequency massive big data,extractearly-warning risk factors,characteristics and indicators,and further test their effects on the risk intelligence system.Finally,empirical re鄄searches on micro,meso and macro applications were carried out.Research conclusion Internet Finance Security Sentiment Perceptiontechnology based on BERT can improve the accuracy of Internet Financial risk early-warning,which shows its feasibility and effectivenessin empirical applications.Key words:Internet finance;digital finance;risk intelligence system;Internet finance security sentiment perception;BERT;financial riskearly-warning technology;national financial security摇 摇 较之传统金融,互金有许多创新之处,给人们带来了诸多便利;但也放大或新增了金融风险。互金行业一度曾是乱象丛生、风险频现。由于互联网具有信息和情绪的极强传导性,因而互金风险极易形成群体传染性效应,一发而不可收,甚至导致系统性金融风险,危及国家金融安全和国家安全。传统金融风险防控和监管,与预警预防、优化处置、精准监管、精准施策的实践需求差距甚大。借鉴自传统金融全面风险管理理论,笔者倡导构建基于大数据的互金风险情报分析和管理框架体系,为互金监管实践提供“耳目、尖兵、参谋冶情报支撑。该体系对互金风险取整体观(而非传统金融风险防控仅偏重单点风险和单一风险源)、动态观(重点关注风险的传染传导、相互影响、相互转化、动态演进),并进行“大数据、大模型、大计算冶情报范式驱动的研究。在该体系中,关键在于如何从高维、异构、稀疏、高噪、高频的海量数据中,快速、准确地挖掘隐藏信息、安全线索,提取出风险预警因子并生成风险情报,以进一步支撑和赋能互金风险防控和监管。对金融风险防控、金融监管、国家金融安全维护而言,研究专门面向金融安全的情绪感知极为重要。公众情绪属于舆情层面,其内涵是人们对于社会生活中的人物、事件和现象的心理活动和心理感受。金融与亿万公众的切身利益密切相关。公众的切身利益一旦受损,其情绪就会大幅波动、爆发且大范围传染,从而成为舆情风险并通过互联网在瞬间形成对理性和规制大堤极具破坏性的冲击。基于 BERT 的金融安全情绪感知技术,可快速、准确地识别、发现公众情绪中隐藏和暗含的金融安全线索、蛛丝马迹、风险预警因子。本文将在互金风险情报体系视域中,研究基于BERT 的金融安全情绪感知技术及其应用。互金安全是金融安全的一部分,金融安全情绪感知技术应用于互金领域即为互金安全情绪感知技术。从技术角度看,两者具有较大的关联性和互通性。本文在第一部分文献综述及相关研究和第二部分研究框架的讨论中,尽可能体现关联性和互通性。而在具体实验和实证部分,则聚焦互金安全情绪感知技术应用于互金安全。1摇 研究文献梳理及相关研究准备摇 1.1摇 对研究文献的梳理1.1.1摇 互金风险防控与监管联合国贸易与发展会议(UNCTAD)将互金界定为:基于网络的金融服务,包括网上证券、网上银行等。在中国,2013 年被认为是互金元年。近年来国内互金风险防控与监管研究颇为活跃。相比之下,英文文献不算多,客观原因是海外互金发展相对不繁荣,不规范互金平台较少。国内外的相关研究大致分几个方面:一是互金风险的成因、特征与识别。时任央行副行长的刘士余(2014)认为:互金主要存在法律定位不明确、内控制度不健全等风险,代表了当时的官方观点。黄文妍等(2015)指出互金系统性风险将威胁金融稳 定 和 市 场 信 心。谢 平 等(2014)、马 慧 子 等(2016)、黎来芳(2017)分析了金融本身的高风险及互联网对风险的放大。彭景等(2016)指出互金系统性风险成因有互联网模式过度渗透、市场主体非理性行为突出、互联网企业舆论掌控能力强等外因,也有互金市场自身脆弱性以及分业分段式监管模式缺陷等内因。宋阳等(2017)指出问题平台多,金融风险扩散速度更快、传染性更强。Li(2020)测试了互金与银行、证券、保险的波动率动态相关性和风险传递并提出金融生态可持续发展的建议。Chen(2022)研究互金与传统银行的波动率溢出关系,发现总体而言互联网金融是波动溢出的净输出者。高惺惟(2022)指出传统金融风险和互金风险理论基础一致,基因耦合度较高,传导载体、传导链条和节点传染模式一致,“双风险冶共振。Pi 等(2022)采用模糊集方法对互金风险进行分析,发现技术风险、道德风险和法律风险的权重较高。二是互金风险的评估。朱清香等(2016)、李宇(2016)、欧阳资生(2016)、云佳祺(2017)从实证角度构建了风险评估指标。吕喜明(2017)对网贷之家前100 P2P 平台的风控能力效率进行了评估。Uddin85 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 情摇 报摇 杂摇 志摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 42 卷(2017)、Ferreira 等(2017)、Yang 等(2018)、Polena 等(2018)关于借款者个体违约风险的实证研究有不少有趣的发现,如借款人的鼠标点击行为对违约有强预测力等。Yoon 等(2018)用线性回归模型分析网贷之家数据,发现股票市场和房地产等宏观因素对平台违约风险有显著影响。Liu 等(2018)提出监测和评估平台操作风险特别是跑路风 险的统计方 法。Xiong(2018)使用相似度模型评估可能的非法集资风险。张文等(2018)对非均衡 P2P 平台风险进行了探索性预测。陈耀辉等(2018)基于极值理论对互金操作风险进行测算。贾洪文等(2020)基于模糊分析法对第三方支付风险进行实证研究,搜集专家意见,得出总体风险等级为“一般风险冶。Zhao(2020)基于区块链和决策树算法研究信用评估。刘小南等(2021)综述了互金信用风险测度研究。Zeng 等(2022)提出用ESG 修正的 KMV 模型来解释互金公司违约风险。三是互金风险的防控。杨虎等(2014)、杜永红(2016)、邢晟等(2018)探索基于大数据的风险防控。Zhang 等(2018)提出基于深度学习的 P2P 平台风险量化模型 OMNIRank。Westland(2018)采用用户短信等通讯和地理大数据进行研究。业界人士李崇纲等(2018)提出“冒烟指数冶,用大数据、人工智能等技术实时监测和预警互金风险。类似的还有数联铭品“红警冶。Xu 等(2019)探讨了基于复杂网络视角的互金风险传染和防控。王章帆(2020)探讨了大数据背景下的互金风险及应对措施。叶梓楚(2021)以蚂蚁花呗为例对互金风险防控进行了分析。黄玉旭(2021)围绕互金信用风险防控策略进行研究。张盛(2021)呼吁构建“后监管冶时代互金风险防控体系。王军等(2021)构建基于 SEIR 的互金平台间信用风险传染模型并从切断传染路径视角(控制传染源、监控传染介质、提高免疫性、延长潜伏性)提出风险防控对策。王昱等(2022)研究将区块链技术应用于互金风险防控。四是互金监管和治理。彭冰(2018)反思我国互金监管三种模式(创新型监管、严格禁止和运动监管)并提出进行监管模式创新。许可(2018)提出互金监管的新范式,即从监管科技走向治理科技。许多奇(2018)指出互金风险“太多连接而不能倒冶和“太快而不能倒冶等特征,呼唤构建一个以风险技术分析为基础的更为合理的监管架构,以实现保持金融稳定、推动金融创新和保护消费者权益的三大监管目标。许恋天(2019)研究互金穿透式监管。袁远(2019)提出将“管制型冶监管进化为“公共产品型冶监管。陈钊等(2019)以 P2P 网络借贷为例对互金凤险与监管进行了分析。李雪梅(2019)提出构建基于区块链的互金征信体系。韩淑媛等(2020)指出从宏观审慎角度看,对互联网小贷公司缺乏系统重要性识别、贷款逆周期调控和风险隔离的有效机制等痛点难题,并在分析海外监管经验基础上提出对策建议。许白玲(2020)提出改互金监管为互金治理,并提出互金治理体系及优化策略。Liu等(2020)、Zhang 等(2021)用博弈论方法研究监管机制,后者指出动态博弈中互金公司将采取寻租方式逃避惩罚,从而降低地方政府监督的可能性。杨扬(2021)就互金风险及其监管策略进行了分析。Cao(2021)研究构建基于机器学习算法的互联网金融监管系统。孙健等(2022)对金融风险预警研究热点及趋势进行了探讨。经以上检索和分析,可看到如下几点:首先,现有研究的总体情况是:提出问题的多,解决问题的少,且多侧重于理论分析,实证研究较少。而实证研究大多因小数据集限制导致模型未能捕捉全面性和预警性风险因素,尚未能达到实时监测预警(乃至优化处置应对)的监管实践要求。作为大数据金融情报分析在实践中的较成功应用,业界“冒烟指数冶等产品体现出一定价值,但尚缺对流动性、市场、信用等方面全面风险防控和在险价值、压力测试等进一步深入的情报支持。且与真正意义上的互金风险“预警预防冶、处置化解、精准监管、精准施策还有较大差距。其次,传统金融中较为成熟的风险管理体系为全面风险管理体系,较为成熟的监管框架为巴塞尔协议III。它们是传统金融经过数百年发展形成的结晶。但互金因历史太短,在构建全面风险管理体系和监管框架方面近乎空白。未来互金风控和监管应该是怎样的?我们应该如何构建最优风控和监管?如何构建像传统金融那样较成熟的风险管理体系和监管框架?从最优化的角度来看,下一代数字金融的风控和监管应具备前瞻性和预警性,首先须有一套底层风险情报体系作为有力支持。这就为金融情报学介入并提供“耳目、尖兵、参谋冶支撑服务创造了条件。最后,各文献研究角度较为单一,多集中在某单一风险源或某单一方面进行研究,未能从全局和整体考虑构建像传统金融那样较成熟的全面风险管理体系和监管框架。而如果要构建成熟的互金全面风险管理体系和监管框架,就需从全局和整体进行研究。举例说,对互金风险进行定义和测度,对风险数值进行各种运算,应考虑数学严谨性,应打通微观、中观和宏观。以往通常的专家打分法和层次分析法等,未必能支持各种进一步的数学运算,也未必能在微观、中观、宏观中贯穿如一。本文及系列研究旨在从金融情报发挥“耳目、尖兵、参谋冶作用的角度,提供相应情报产品和情报服务,为互金构建底层风险情报体系,为最终构建互金全95摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 丁晓蔚,等:互联网金融安全情绪感知及风险预警应用研究面风险管理体系和监管框架奠定基础。1.1.2摇 BERT 与金融风险和金融安全作为深度学习在自然语言处理领域取得的重大突破,BERT 在各学科中受关注程度不一。在中国知网上检索“(主题:BERT(精确)AND(主题:互联网金融(精确)AND(主题:风险(精确)冶、“(主题:BERT(精确)AND(主题:互联网金融(精确)AND(主题:安全(精确)冶,结果都为 0。如扩大范围即将“互联网金融冶替换为“金融冶,分别检索出 2、0 篇论文。这 2 篇论文都直接与金融风险相关:贾明华等(2022)基于 BERT 和互信息有效解决词频量化不可靠问题,并大幅提升金融风险逻辑关系量化的准确率1。谭明亮等(2022)应用 LDA 模型和BERT 模型来挖掘句子的语义特征并选择重要度高的句子生成上市公司风险事件的主题报告2。与上述检索相对应,在 Web of Science 中检索“BERT(Topic)and Internet Finance(Topic)andRisk(Topic)冶、“BERT(Topic)and Internet Finan鄄cial(Topic)and Risk(Topic)冶、“BERT(Topic)and Internet Finance(Topic)and Security(Topic)冶、“BERT(Topic)and Internet Financial(Topic)andSecurity(Topic)冶,结果都为 0。如扩大范围即将“In鄄ternet Finance冶 替换为“Finance冶 和将“Internet Finan鄄cial冶替换为“Financial冶,分别检索得 31、38、0、0 篇论文,内容包括金融领域相关性学习和术语自动分类至超名称(Hypernym)、金融领域专用预训练模型、金融专利分析和金融科技创新发现、银行客户情绪分析、保险聊天机器人、金融聊天机器人、股市情绪分析、资产组合优化、外汇市场预测、股票市场预测、股市新闻理解、金融证券知识图谱构建、股市推特情绪分析等。其中只有 4 篇直接跟金融风险相关:Stevenson 等(2021)使用基于 BERT 的深度学习模型来进行小企业违约预测,得到了较好的结果3。Li 等(2022)研究基于金融知识字典和 BERT 构建识别股票新闻情绪的深度学习模型,发现情绪指标更为积极的股票在接下来的一年中有更高的崩盘风险4。Cui 等(2022)使用投资者情绪来预测平均借款利率指标和平均借款期限指标并取得较好结果5。Bingler 等(2022)通过训练并应用ClimateBERT 发现很多公司向投资者披露的气候风险信息大多是非重要气候风险信息6。综上,国内外关于将 BERT 应用于金融风险和金融安全的研究刚刚起步。1.1.3摇 其他相关研究文献在知网上检索“(主题:BERT(精确)AND(主题:金融(精确)AND(主题:情报(精确)冶,结果为0。检索“(主题:BERT(精确)AND(主题:金融(精确)AND(主题:情绪(精确)冶,结果为 7 篇,包括:情绪识别与期货定价7、情感分析与股指预测8、用于金融文本挖掘的多任务学习预训练金融语言模型9、金融文本情感分析模型10、金融科技股票收盘价预测11、股价涨跌预测系统12、投资者情绪指数建模及与价格关系分析13。但均未涉及金融风险防控。相应在 Web of Science 中检索 BERT、Finance/Financial、Information Science 组合,结果都为 0;检索 BERT、Fi鄄nance/Financial、Sentiment/Emotion 组合,得 49 篇文献,主题和内容大体与前述相关文献类似,故不赘述。在知网上检索“(主题:BERT(精确)AND(主题:情报(精确)冶,结果为 52 篇,多发表于 2020 年至2022 年的 3 年之间。内容主要涉及:(1)图情研究。如:人文社会科学学术文献学科分类研究14、图情领域 SAO 短文本分类研究15、史籍实体识别16、科技政策内容多标签分类研究17等;(2)由图情研究拓展开去所作探讨。如:“互联网+政务冶群众留言文本热点追踪研究18、问答社区问句自动标引个案研究19。相应在 Web of Science 中检索 BERT、Information Science组合,得到 11 篇,也都发表于近 3 年间,包括:多语言主题分析20、结构功能识别对比实验21、论文区分能力及学术研究的多样性22、对 UGC 文本进行性格检测23、跨学科领域综合知识的识别和分类24、情感分析的词汇数据增扩25等。综上,在情报学界,BERT 已开始受到关注,但并没有将 BERT 与金融情报、金融安全联系起来进行研究。近距离跟踪此类技术的发展并及时将之“应用于金融情报分析,这应该是金融情报学学科发展中至关重要的一个问题冶26。本研究可扬大数据情报分析之长,回应情报学和金融学的共同呼唤,为金融情报学和国家金融安全的理论构建和应用实践添砖加瓦27。摇 1.2摇 相关研究准备1.2.1摇 BERT 语言模型预训练BERT 是一种基于 Transformer28的预训练语言模型,利 用互联网上大 量无标注文 字 语 料,采 用Masked Language Model 和 Next Sentence Prediction 作为模型训练方法,增强对单词级、语句级、句间关系特征的捕捉能力,并能快速迁移到其他下游任务中。BERT 采用双向 Transformer,通过 Self-Attention 获得上下文语义29:Out=Transformer(Embedding(Text)(1)其中 Text 表征输入文本,Embedding 为 BERT 输入层,Transformer 为 BERT 特征提取器,输出 Out 为文本的向量表示。为能学习到句中上下文双向信息,BERT 提出MLM 任务,即将句中 15%单词随机遮掩,对被遮掩的06 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 情摇 报摇 杂摇 志摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 42 卷词汇使用不同替换方法进行替换,其中以 80%概率用MASK替换,以 10%概率用随机单词替换,以 10%概率保持该单词不变,然后对掩蔽词汇进行预测。为学习语句之间的相关性以便更好地服务问答、推理等应用需求,BERT 提出 NSP 任务,即以 50%概率将一对上下句中后一语句替换为其他随机选取的语句,并对这组语句对进行关系预测30。预训练结束后,只需针对下游实际应用任务加以微调就可获得更有针对性的语言模型。BERT 使用 Transformer 的 Encoder 作为特征提取器,依次为词向量层、自注意力层、残差和归一化层和全连接前馈网络层。为充分提取语义信息,Transformer 中使用 Atten鄄tion 作为基本单元,其计算公式28为:Attention(Q,K,V)=Softmax(QKTdk)V(2)其中,Q,K,V 为以词嵌入形式表示的输入张量 X沂Rbatch伊seq伊dmodel经过变换后的张量,Q=XWQ,K=XWK,V=XWV,这里 WQ沂Rdmodel伊dq,WK沂Rdmodel伊dk,WV沂Rdmodel伊dv为使用正态分布随机初始化的可学习参数矩阵。训练过程中预先设定好的参数如下:batch 为批次大小,seq为语句长度即语句中单词个数,dmodel为词嵌入向量的维度(在 BERTBASE中取 768),dq,dk,dv分别为从词嵌入向量生成的 query,key 和 value 向量的维度。为能提取更多语义信息,Transformer 中使用了Multi-Head Attention 机制,即重复多次上式,并将结果进行拼接28。实际 BERT 中是将数据依最后一维(维度为 dmodel)分解为 h 份,每份(最后一维维度为 dk=dmodelh)分别施用 Attention 机制,然后再进行拼接:MultiHead(Q,K,V)=Concat(head1,headh)Wo(3)其中,headi=Attention(Qi,Ki,Vi),h 为 Head 的个数(在 BERTBASE中取 12),Wo沂 Rhdk伊dmodel为使用正态分布随机初始化的可学习参数矩阵。为保留更多信息并防止模型退化,Transformer 中使用了残差结构(Add)将 Multi-Head Attention 的输出进行融合得到张量 UA沂 Rbatch伊seq伊dmodel。为加速模型的训练,引入归一化(Norm)将上述残差结构融合后的 UA缩放为类正态分布。针对最后一个维度进行缩放。对于每个 k 所对应的标量 UAi,j,k,其缩放公式为:U-Ai,j,k=UAi,j,k-滋i,j滓2i,j+缀酌k+茁k,滋i,j=1d移dk=1UAi,j,k,滓2i,j=1d移dk=1(UAi,j,k-滋i,j)2(4)其中,d=dmodel,酌k和 茁k为可学习参数,初始值设为 酌k=1,茁k=0,缀 为防止分母退化的偏置项,一般取 缀=0.001。上式中乘法均为标量乘法。在归 一 化 后,Transformer 利 用 前 馈 神 经 网 络(Feed Forward Network)进一步融合语义信息,其计算公式为:FFN(U-A)=max(0,U-AW1+b1)W2+b2(5)其中 U-A沂 Rbatch伊seq伊dmodel为归一化后的输出,W1沂Rdmodel伊dff和 W2沂 Rdff伊dmodel为使用正态分布随机初始化的可学习参数矩阵,这里 dmodel同前,dff为预先设定好的内层维度,b1和 b2为偏置项。1.2.2摇 Focal Loss 损失函数针对 BERT 的输出,我们选取 Focal Loss 损失函数作为目标函数通过反向传播来迭代参数。为缓解样本不均衡和困难样本训练问题,Focal Loss 损失函数31能根据样本分辨的难易程度给样本对应的损失添加权重。以 2 分类问题为例,计算公式如下:FL(pt)=-琢t(1-pt)酌log(pt)(6)其中琢t=琢if class=11-琢otherwise(7)pt=pif class=11-potherwise(8)上式中 琢 沂0,1为平衡因子(用于调节权重,可设为类样本频数的倒数或由交叉检验来进行调参),p 沂0,1为模型预测的概率值,酌 为可调参的聚焦参数,用于控制对于困难(即分类错误)样本的重视力度。若 琢t=1,酌=0,则 Focal Loss 就是原来的Cross Entropy 损失函数。如 琢t=1,酌=2(原论文指出酌=2 效果较好),则当 pt=0.9(此时如按决策阈值0郾 5来进行硬分类,则为分类正确的样本,又称为容易样本)时,将损失函数的影响力削减为原先的 1%。相应的,也就提升了困难样本损失函数的影响力。综上,琢t用于改善不均衡样本问题,(1-pt)酌用于改善困难样本问题,两者形成合力,共同提升模型分类能力。2摇 研究框架传统金融风险防控和监管存在的缺陷之一是未能从大数据情报分析借力并发挥其优长。传统金融倚重小数据集抽样统计和检测分析,且数据本身存在滞后性(如上市公司的季报、半年报、年报中的数据可能分别存在约 3、6、12 个月的结构性滞后),构成传统金融数据分析的上限。更不用说大量新金融、类金融机构系非上市公司,无公开数据,或即使有数据也并非完全可信。16摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 丁晓蔚,等:互联网金融安全情绪感知及风险预警应用研究因此,要做好金融风险防控、监管和创新规制,信息和情报必须先行。大数据时代,风险情报体系应从海量大数据中提炼与维护金融安全和防控、预警、应对金融风险相关的特征和指标。专门面向金融安全的情绪感知是其中的关键技术之一。由于众所周知的原因,一般的通用情绪感知模型应用于金融领域时,在准确率、召回率、应用效果等指标上表现欠佳。进而言之,即使一般的金融情绪感知模型,应用到金融安全特别是互金安全这一特定领域后,也不甚理想。为消除这些缺陷和不足,本文探讨基于 BERT 的专门面向金融安全的情绪感知技术并应用于互金风险情报体系。研究的逻辑基础在于,安全问题往往总会在公众情绪方面率先体现出来,甚至预先体现出来。公众情绪属于舆情的层面,其内涵是个体性或群体性主体心声和感受的表露或潜藏。情绪发端于人的心灵世界,穿透力大、传染性强、可控性小,易广泛传播、相互感染并激化和极化。互联网提供了快速、广泛传播情绪的技术条件,提供了虚拟世界(不像在现实世界中情绪宣泄受到诸多约束)。金融关乎亿万公众的切身利益,一旦公众的情绪被调动、被激发、被引爆,足以导致金融风险甚至系统性金融风险和金融危机。根据互金风险与舆情风险共振理论,公众情绪弥散和浸润于互金风险的全生命周期,从萌芽阶段的蛛丝马迹,到爆发阶段的推波助澜,公众情绪既是度量仪,亦是助推器(如引导得当,则也可以是阻遏器),甚至是罪魁祸首。如能捕捉到公众情绪的波动并及时科学地感知,当就能提取到金融安全风险预警性、前瞻性因子,形成相应风险情报。对公众情绪的持续测度,又可监测舆论引导、风险处置、金融监管等各项危机应对措施的有效性。就国家金融安全而言,专门针对金融安全的情绪感知,可比一般通用情绪感知更直接、更精准、更灵敏。在数字化时代,人类活动每天都产生海量大数据。如何从这些海量的非结构化的、多源异构的、高频高维且高噪的大数据中,挖掘到确能体现“耳目、尖兵、参谋冶功能的预警性、前瞻性因子,进而形成对防控、预警、应对和施策确有价值的情报,无疑是巨大挑战;但在专门面向金融安全特别是互金安全情绪感知并进一步映射到安全预警情报这一特定领域,却又是可能先实现突破的。摇 2.1摇 互金风险情报体系如图 1 所示,互金风险情报体系,是在借鉴并改造传统金融全面风险管理体系的基础上形成的、在互金风险防控和监管治理(图 1 中下半部分)中发挥“耳目、尖兵、参谋冶支撑作用的风险情报体系(图 1 中上半部分)。亦即,图 1 中上半部分对下半部分形成支撑。前瞻性、预警性的金融风控监管和监管措施的前移非常重要,首先需要构建前瞻性、预警性的风险情报体系。对该体系中最基础和关键的风险测度情报,可从数学上进行定义(以 P2P 网贷平台为例)。令 R()jt表征平台 j 的风险测度情报时间序列。则在时刻 t,风险测度为:R()jt:=fI()jt-1,O()jt-1,I()jt-2,O()jt-2,I()j0,O()j()0(9)其中 I()jt、O()jt分别表征平台 j 的内部和外部信息流时间序列,f 为某大数据风险情报数据挖掘函数,其本质是从平台内外部信息流时间序列到平台风险情报流的流式映射。为了直接对应金融全面风险管理体系,风险测度情报 R()jt还可更加细化为信用风险测度情报、市场风险测度情报、流动性风险测度情报等,相应衍生出更多模型、算法、框架、理论、实践方法等情报产品。随着信息流的持续实时涌入,上述体系不断产出各种风险情报产品、涌现出各种情报活动、为金融风控和监管提供各种情报服务。f图 1摇 互金风险情报体系及本研究框架示意图26 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 情摇 报摇 杂摇 志摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 42 卷因互金企业数据不一定公开或未必及时可信,故问题转化为如何应用情报学原理和感知、认知等大数据情报技术,对多源、异构、高维、高噪、实时的内部大数据(如能获得)和外部大数据进行实时分析处理,挖掘其中的隐匿信息、蛛丝马迹、安全线索并生成风险情报,提取出映射到全面风险中各类风险的风险预警因子、特征和指标,对互金主体各种风险状况进行有效推演、探析、识别、评估、计量、监测、可视化等,赋能风险态势感知、风险趋势预判,为预警防控、优化处置、精准监管、精准施策等提供情报支持。优良的风险测度情报,应首先能很好地概括和解释风险现状,亦即风险态势感知;其次能很好地预测和预警风险演进,亦即风险趋势预判;且还要能很好地将微观、中观和宏观打通,形成统一一致、逻辑自洽的微观、中观、宏观风险测度情报体系。最直接、最具前瞻性的做法是将风险测度定义为未来 T 观测时间窗口内发生风险甚至危机事件的概率P P(风险事件发生于时间段t,t+T|I(j)t-1,O(j)t-1,I(j)t-2,O(j)t-2,I(j)0,O(j)0)。上述定义有几个特点:一是它是风险/危机事件概率,为最基本的情报产品,值域为 0,1 区间,无量纲、无单位。可在此基础上构建属于相对风险测度情报的风险评分或风险指数(Risk-Score/Risk-Index,公式 10),从而使我们能方便地可视化风险,并比较各主体、各时期、各地域风险演变的相对值和相对变化趋势:fIndex,T(I(j)t-1,O(j)t-1,I(j)t-2,O(j)t-2,I(j)0,O(j)0):=P P(风险事件发生于时间段t,t+T|I(j)t-1,O(j)t-1,I(j)t-2,O(j)t-2,I(j)0,O(j)0)(10)二是它将到 t 时刻之前所有的内外部信息流凝聚、映射到一个 t 时刻概率值,显然应能用于概括、总结和解释风险现状。从大数据情报分析的角度看,显然是数据越多越好,最理想的是包含全部历史数据;而就时间序列分析效果而言,最近一段时间内的局部历史数据应是较为重要的,应赋予较大权重(软性方式,通过权重来调节远期历史数据和近期历史数据之间的相对重要性),甚至模型只取用近期历史数据(硬性方式,强行设定只取用某一段近期历史数据)。这是时间序列分析中的两种不同分析思路,将留待具体建模环节去处理。此处在定义和构建框架时,尽可能保持最大兼容性和开放性。三是该定义本身自带内嵌前瞻性,从着手定义时就着眼于预测,其本身就包含了前瞻性指标。四是用概率来定义和测度风险,具有统计学内涵,为各种线性和非线性运算奠定基础,优于其他如专家打分法或 AHP 法等风险测度方法。上述定义在线性运算方面的一个直接应用是可以推导出期望损失(公式 11),也可用作在险价值(Value-at-Risk),属于绝对风险测度情报,系以 RMB 等货币计价单位为量纲和单位的风险。它使我们能以货币为计价单位获得风险及其波动