温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
文本
信息
企业信用
风险
预测
研究
张皓楠
112/CHINA MANAGEMENT INFORMATIONIZATION112/CHINA MANAGEMENT INFORMATIONIZATION2023 年 1 月第 26 卷第 2 期中 国 管 理 信 息 化China Management InformationizationJan.,2023Vol.26,No.2基于文本信息的企业信用风险预测研究张皓楠1,张红梅1,2(1.贵州财经大学大数据应用与经济学院(贵阳大数据金融学院),贵州 550025;2.贵州科技创新创业投资研究院,贵州 550025)摘 要文章运用文本数据挖掘法,将发生信用风险企业和未发生信用风险企业年报中的语调剥离出来后,对其进行量化,研究年报语调对信用风险预测有效性的影响。在实证研究中,文章对若干传统财务变量使用因子分析法,通过 Logistic 模型将所提取的成分与语调变量进行信用风险预测。预测结果表明:发生信用风险的企业语调更为消极,并且语调悲观程度与信用风险发生的概率显著正相关。通过对比语调变量加入前后的预测结果的 ROC 曲线可知,在以财务变量为主要依据的信用风险预测中加入语调变量可以提高预测的有效性。关键词信用风险;文本数据挖掘;因子分析;Logistic 模型;文本语调doi:10.3969/j.issn.1673-0194.2023.02.037中图分类号F276文献标识码A文章编号1673-0194(2023)02-0112-04 0引 言全球金融发展速度迅猛,社会各主体间的金融往来日渐频繁,由此也带来了错综复杂的利益关系,一旦某一利益环节发生信用风险,就会造成不可估量的连带损失。因此,国内外学者将预防信用风险视为重要的研究对象。信用风险通常指借款人、证券发行人或交易方不愿或无力履行合约而构成的违约1。杨莲2将 FocalLoss修正交叉熵损失函数引入信用风险评价模型,对若干个体样本进行风险预测,实证结果表明该预测方法可以提升对困难样本的识别能力。王重仁3针对互联网信贷行业个人信用风险评估,提出一种贝叶斯参数优化方法和 XGBoost 算法,实证结果表明此方法优于支持向量机等传统的预测模型。罗方科4将商业银行互联网金融个人小额贷款数据带入 Logistic 模型,筛选出对信用风险影响较为显著的因素。由于公司企业相对于个人借款者、投资者具有更大的影响力,其发生信用风险产生的危害也更具破坏力,因此提高对公司企业信用风险的预测精准度也是风险管理领域的热点问题。有些学者从信用特征角度出发,对 2169 家中国 A 股上市公司数据进行实证分析,得出按特征划分的模型具有更高的判别精度。相较于信用特征,更多学者基于最优信用风险指标组合的视角对信用风险进行研究,如研究发现不同财务指标对长短期违约状态预测具有不同的影响。以往的研究多停留在对财务数据的分析,随着计算机技术的进步和互联网的飞速发展,越来越多的非结构化数据被运用到金融问题的研究中。结构化数据为字段可变数据,如吴非等人5通过爬虫技术归集企业年报中有关“数字化转型”的关键字,并以此刻画企业数字化转型的强度。李斌6通过挖掘美国上市保险公司共计 1682 份财务报告文本,识别出 29 个保险业的重要风险点,并以此分析保险业中重要风险的变化趋势。KLiang7认为文本信息有效缓解了信息不对称,显著提高了信用评估模型的可预测性。因此文本大数据也可应用于信用风险领域,MCecchini8抽取年报中管理层分析与讨论模块的有效信息,并综合其他财务数据提升传统预测模型的预测违约正确率。刘逸爽9以 ST 企业和非 ST 企业为研究对象,通过公司年报中管理层的语调来研究文本情绪与财务困境的关系。有些学者通过挖掘期刊论文中的文本信息,构建有关信用风险指标的先验词频,实证结果表明信用风险模型在运用此类先验词频后分类效果明显提高。从已有文献可以看出,国内外对于文本信息用于信用风险预测的研究多聚焦于个人投资者,而对于公收稿日期 2022-07-12作者简介 张红梅(1969),女,贵州贵阳人,博士,教授,主要研究方向:金融科技。(通信作者)/113CHINA MANAGEMENT INFORMATIONIZATION 会计信息化司信用风险研究则以传统的结构化数据为主,但公司年报等诸多公开信息中也蕴含着大量信息,获取该类文本信息有助于减少因信息不对称带来的影响,从而提高信用风险预测的有效性。鉴于此,本文将结合真实的违约数据,选取 20182020 年发生信用风险的25 家上市公司与未发生信用风险的 53 家上市公司为总样本,将语调从公司年报中剥离出后对其进行量化分析,并结合传统结构化数据预测公司发生信用风险的概率。1企业信用风险识别研究方法及指标选取1.1Logistic 模型及研究思路Logistic 回归是一种常见的机器学习方法,主要用于对样本分类,属于“广义的线性回归”,信用风险研究常常用到此模型,究其原因是 Logistic 模型具有因变量取值在 0 和 1 之间,且不需要服从正态分布等优良特性,Logistic 模型的表达式如下:0ln()*1iipXp=+(1)本文将发生信用风险的企业标记为 1,在(1)式中 P 表示信用风险发生的概率,0为常数项,Xi为影响预测信用风险的因变量,i为各因变量对于信用风险的影响程度。本文的研究思路:首先对多个财务指标进行降维操作,使用因子分析法提取出 3 个主要成分,其次分两步运用 Logistic 模型预测信用风险,第一步仅输入 3 个主成分预测信用风险,第二步使用 3 个主成分与语调变量为输入数据预测信用风险,最终通过 ROC 曲线对比该模型加入语调变量前后的信用风险预测效果。1.2数据选取由于投资者并不会在企业发生信用风险的当年得知企业的财务状况以及年报,所以发生信用风险公司前一年的年报以及财务数据就是投资者预测该企业是否会发生信用风险的主要依据。鉴于此,本文选取公司信用风险发生前一年的公司年报以及财务数据作为风险识别指标。在选择未违约企业数据时,统一选取未违约公司 2019 年年报以及财务数据作为风险识别指标。年报数据均来自上交所与深交所上市公司的公开披露数据,财务数据来自RESSET金融研究数据库。1.3数据处理1.3.1财务数据处理本文参考多位学者10-11在构建信用风险识别体系时选取财务指标的方法选取出 12 个指标,分别是X1(速动比率)、X2(资产负债率)、X3(营业利润率)、X4(销售净利率)、X5(资产报酬率)、X6(固定资产周转率)、X7(总资产周转率)、X8(非流动资产周转率)、X9(营业收入现金含量)、X10(净资产增长率)、X11(总资产增长率)、X12(主营业务收入增长率)。由于某些原始财务数据存在部分空缺值,本文以该项指标的平均值将其填补。1.3.2文本语调量化处理本文通过“词典法”构建年报情感语调,参考知网 Hownet 词典以及实际金融用语作为情感词典,该词典分为正面情感词典和负面情感词典。量化文本语调时,首先将各公司年报下载后进行格式转换,运用格式转换软件将 PDF 格式转为 TXT 格式,再利用Python 中 Jieba 分词包对年报进行分词处理,随后除去如“的”“了”等停用词后,依据情感词典进行词频统计,统计方法如下:若年报中出现负面情感词典中的词语,如“亏损”“欠款”“疑惑”等,则对该类词语的出现次数统计求和,用 NEG 表示一份年报中负面词语出现的总次数;若年报中出现正面情感词典中的词语,如“努力”“引领”“支持”等,则对该类词语的出现次数统计求和,用 POS 表示一份年报中正面词语出现的总次数。由于负面语调对于决策者往往具有更大的影响12,本文以公式(2)量化文本语调,其中NEG、POS 的含义已在上文介绍,TONE 表示文本语调,即 TONE 越大,文本中透露出的负面情绪越浓,反之则表示文本语调更为积极。NEGTONEPOSNEG=+(2)2实证分析2.1组间差异性检验本文使用 SPSS21 软件对发生信用风险组数据与未发生信用风险组数据进行独立样本 T 检验,观测所选指标是否具有显著性差异12。最终 X6(固定资产周转率)、X8(非流动资产周转率)、X9(营业收入现金含量)、X10(净资产增长率),共 4 个变量没有通过检验,不能较好地反映不同类别样本之间的差异。其余包括 TONE 在内的 9 个变量均通过“独立样本 T 检验”,证明剩余的 9 个变量可以显著反映组间差异。此外,为了初步探究发生信用风险和未发生信用风险企业的年报语调差别,本文对 TONE 的数据特征进行分析,得出违约企业文本语调的均值为 0.04,最大值为 0,最小值为 0.02;未违约企业的均值为 0.03,最大值为 0.06,最小值为 0.02,不难发现违约企业的均值大于未违约企业,这表明企业在发生信用风险前一年的年报中广泛存在负面情绪。114/CHINA MANAGEMENT INFORMATIONIZATION会计信息化2.2因子分析本文使用 SPSS21 软件,对 8 个财务变量进行因子分析。首先,运用 Z-score 数据标准法对数据进行处理,消除样本数据量纲的影响。其次,通过 KMO 检验 8 个变量是否适用于因子分析,最终得到 KMO 检验值在1%的显著性水平下为0.55,大于标准值0.5,且具有统计学意义,说明 8 个财务指标包含较多相似信息,适合进行因子分析。本次因子分析共抽取了 3 个特征值大于 1 的主成分,且 3 个成分包含了总数据 75.153%的信息。通过因子分析法可将原来 8 种财务指标中的信息提取到 3个成分中,数据的维度也由 8 维降低为 3 维,减少近2/3,表明因子分析结果较好。设所提取的 3 个成分分别为 F1、F2、F3,根据各变量在 F1、F2、F3中的得分情况列出如下表达式。F1=0.1X1-0.21X2+0.25X3+0.24X4+0.24X5+0.06X7+0.19X11+0.16X12(3)F2=-0.61X1+0.44X2+0.2X3+0.23X4-0.01X5-0.05X7+0.08X11+0.26X12(4)F3=0.12X1+0.05X2+0.23X3+0.22X4-0.32X5+0.62X7-0.44X11+0.1X12(5)2.3Logistic 回归首次使用 Logistic 模型回归时只将 F1、F2、F3作为输入变量,结果如表 1 中无 TONE 变量回归结果所示,3 个主成分中只有 F1在 1%水平下显著并且 F1前系数为-2.460,与违约概率呈负相关关系。根据(3)式,F1中得分较高的变量分别为 X2(资产负债率)、X3(营业利润率)、X4(销售净利率)、X5(资产报酬率),其中 X3、X4、X5为体现盈利能力的变量,并且该类变量在 F1中的系数为正,因此可以推断一个公司的盈利能力是影响其违约的主要因素,公司盈利能力越好越不易发生信用风险,反之,盈利能力越差发生信用风险的概率越高。表 1 Logistic 回归结果无 TONE 变量 Logistic 回归含 TONE 变量 Logistic 回归解释变量系数标准误解释变量系数标准误F1-2.460*0.683F1-2.628*0.705F20.6380.533F20.6930.584F3-0.7090.508F3-1.015*0.578TONE0.774*0.343常量-0.995*0.373常量-1.108*0.396注:*、*、*分别表示在 1%、5%、10%水平下显著再 次 使 用 Logistic 模 型 回 归 时,将 3 个 成 分F1、F2、F3与 TONE 变量一同输入 Logistic 模型预测信用风险。由含 TONE 变量的 Logistic 回归结果可知,TONE 前系数为 0.774,且在 5%的水平下显著,这表明 TONE 与信用风险发生概率显著正相关,由式(2)可知 TONE 数值越大,表明年报中语调越消极,即企业前一年年报语调越悲观,该公司越有可能发生信用风险,反之则越不