温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合
新闻
文本
时序
信息
上市公司
财务
欺诈
预警
一、引言上市公司财务欺诈事件时有发生。不仅在我国,在世界范围内上市公司财务欺诈都是一个焦点问题。2020年,瑞幸咖啡发布公告承认其2019年第二至第四季度存在伪造交易行为的财务造假行为,涉及总金额约为22亿元。安然公司曾被曝财务造假,虚增利润5.52亿美元,使得股东和股民损失740亿美元。安然公司的造假丑闻还殃及了花旗银行、安达信等,同时引出了世通的财务欺诈案件,这又导致三万人失业,使投资者损失1800亿美元。除了巨大的财务损失,股民信心也受到重大打击,一时间股票市场持续低迷。因此,公司财务欺诈行为对资本市场的整体发展和投资者的信心都会造成损害。鉴于财务欺诈事件的频发及其给社会带来的危害,如何准确及时地识别出具有财务造假行为的上市公司,在第一时间减轻财务造假带来的损失,是对资本市场各个方面都非常有意义的研究问题。为此,国内外学者对财务欺诈预警方法进行了广泛研究(王昱和杨珊珊,2021;宋宇和李鸿禧,2020;Bao等,2020;吴庆贺等,2020;Craja等,2020;Hajek和Henriques,2017)。现有研究中,从结构化的“企业年度”数据中提取财务指标和非财务指标是主流做法(王昱和杨珊珊,2021;宋宇和李鸿禧,2020;Bao等,2020;吴庆贺等,2020)。杨子晖等(2022)指出,采用传统的机器学习模型(如随机森林模型和Logit回归模型等),能够对我国大多数财务危机事件进行有效预警。随着自然语言处理技术的进步,非结构化的文本数据可作为对结构化数据的有益补充(Craja 等,2020;Hajek 和 Henriques,2017)。然而,结构化数据和文本数据中的时序信息没有得到充分挖掘。鉴于此,本文将时序信息的提取引入结构化数据和非结构化的文本数据中,以期能够更好地捕捉公司财务欺诈的连续变化信息,从而获得更好的上市公司财务欺诈预警性能。从数据的获取途径来看,结构化年报数据通常来源于国泰安(CSMAR)或锐思(RESSET)等公开的金融融合新闻文本和时序信息的上市公司财务欺诈预警【摘要】本文针对资本市场中普遍存在的上市公司财务欺诈问题,在财报数据中融入财经新闻文本特征,并提取时序信息,为上市公司财务欺诈预警提供新途径。以结构化的财报数据和非结构化的新闻文本数据为对象,在结构化数据特征中融入新闻文本的主题特征、观点特征、情绪特征和欺诈特征,然后提取时序信息,并基于树集成的方法实现上市公司财务欺诈预警。本文融合预警欺诈行为的方法在CSMAR财报数据集和爬取的新浪财经数据集上达到了86.1%的准确率和86.5%的召回率,融入新闻特征和时序信息后比单纯地采用财报数据特征的准确率提高了8%。新闻文本特征可以作为财报数据的有效补充,且在财报数据和新闻文本数据中引入时序信息有利于提高上市公司财务欺诈的预警性能。【关键词】上市公司;财务欺诈;新闻文本;时序信息;欺诈预警【中图分类号】F275【文献标识码】A【文章编号】1004-0994(2023)12-0030-10陈朝焰1(博士),韩冬梅1,2,3(博士生导师),吴馨一4【基金项目】中央高校基本科研业务费专项资金资助项目“基于深度学习的上市公司财务欺诈识别新方法研究”(项目编号:2022110095);上海财经大学创新研究团队项目(项目编号:IRTSHUFE)【作者单位】1.上海商学院商务信息学院,上海 201400;2.上海财经大学信息管理与工程学院,上海 200433;3.上海市金融信息技术研究重点实验室,上海 200433;4.中国工商银行网络融资中心,杭州 310001。韩冬梅为通讯作者30 财会月刊2023.12DOI:10 19641/j cnki 42-1290/f 2023 12 004数据库,其发布时间均有一定的滞后性;此外,上市公司财务欺诈的界定依赖于监管机构发布公告的时效性,且通常也存在一定的滞后性。鉴于此,本文通过对爬取的财经新闻文本进行信息挖掘,以期弥补结构化数据时效性不足的问题。本文的主要贡献如下:首先,在结构化的财报指标数据基础上,增加了新闻文本作为新的数据源,并提取时序信息,建立了一个更加完善的上市公司财务欺诈预警框架;其次,在提取结构化财报数据特征和新闻文本特征的时序信息时,考虑了上市公司经营活动的连续性。与已有研究相比,本文构建的时序性衍生指标考虑了隐藏在财报数据和新闻文本数据中的时序信息,各指标的时序性变动可能预示着企业的财务危机或企业财务规律上的异常,更有利于进行财务欺诈预警。此外,由于新闻报道的客观性和即时性,新闻文本特征的引入,更能及时对有欺诈可能的上市公司发出预警。二、相关研究综述国内外关于上市公司财务欺诈预警方面的研究,依据所处理数据形式的不同,可分为结构化方法和非结构化方法。在结构化方法的研究方面,孟银凤和王珮瑶(2023)通过构造Zipf因子,生成新的特征向量补充到数据集中以挖掘更多有效信息,并基于随机森林构造财务预警模型。高燕等(2023)以A股制造企业为样本,构建BP神经网络模型预警财务风险,并以一汽夏利(现中国铁物)为例进行分析,提出防范风险的建议。杨贵军等(2021)通过引入包含代表财务数据质量的修正Benford因子,改善财务危机预警Logistic模型的预测效果。Kotsiantis等(2006)以164家欺诈和非欺诈公司的财务数据作为样本,分别建立了贝叶斯网络、k-均值、决策树、人工神经网络、支持向量机及逻辑回归模型,使用堆叠变量方法发现混合分类器的效果好于单一模型的分类效果。Cecchini等(2010a)利用40个财务指标,开发了面向金融领域的支持向量机核函数进行公司的管理层舞弊预警。Dechow等(2011)分析了欺诈公司的财务特性,并通过对财务变量的逻辑回归处理预测会计报表中的欺诈行为。Bao等(2020)运用集成学习模型并引入一种新的性能评估指标,得出的欺诈预测结果优于Dechow等(2011)的逻辑回归模型和Cecchini等(2010a)的支持向量机模型。郦金梁等(2020)构建了递延所得税异动指标,并利用XGBoost算法进行上市公司财务欺诈预警。在非结构化方法的研究方面,随着自然语言处理技术的进步,非结构化的文本挖掘技术成为主流。Cecchini等(2010b)从10-Ks的管理层讨论和分析(MD&A)部分创建字典来区分欺诈和非欺诈公司,将文本数据作为财务数据的有效补充,其分析结果表明MD&A文本补充了定量财务信息。Purda和Skillicorn(2015)对MD&A部分的所有单词进行有效性排序,挑选前200个最具预测性的单词,采用词袋模型对样本分类,取得了较好效果。Hajek和Henriques(2017)从MD&A文本中提取语言学指标,作为对结构化指标的有效补充,共同实现财务报表舞弊的智能预警,并比较了多种机器学习方法的性能。Dong等(2018)提出了一个基于SFL理论的文本分析框架,结合社交媒体文本的概念功能和人际功能对上市公司欺诈的早期迹象进行预警。徐凯等(2022)以MD&A文本信息为基础,构建Logistic财务危机预警模型,研究了MD&A文本积极信息与文本信息可读性对企业财务危机的预警作用。肖毅等(2020)基于TEII方法论的理论框架,集成文本挖掘和深度学习构建企业财务风险预警模型。Brown等(2020)运用隐性狄利克雷分布(LDA)主题模型,将MD&A部分的主题特征与财务数据和文本特征相结合,证明了提取披露的主题有助于捕捉财务不端行为。胡楠等(2021)基于高层梯队理论和社会心理学中的时间导向理论,得出管理者内在的短视主义特质与企业资本支出和研发支出的关系,采用文本分析和机器学习技术构建出管理者短视主义指标并据此完成实证检验。从上述研究中可以发现,不少研究会将非结构化文本数据作为对结构化数据的有效补充,这有利于提升上市公司财务欺诈预警性能。然而,文本数据的观点、主题和情绪等特征在欺诈年度附近的变化信息并未得到充分考虑。鉴于此,本文在结构化的财报数据中融入财经新闻文本特征的同时,还在模型中加入提取的时序信息,为上市公司财务欺诈预警研究提供新思路。三、特征工程与时序信息提取为更好地将结构化的财报数据和非结构化的新闻文本数据有效融合,需进行特征工程处理,将其变换至相同的特征维度。且在进行特征变换前,对财报数据和新闻文本数据的特征均需进行时序信息提取。(一)结构化财报数据的特征提取本文所采取的结构化财报数据特征工程与时序信息提取过程如图1所示。从图1可以看出,结构化财报数据可由财务指标和非财务指标表征,但在将其输入2023.12财会月刊31指 标营业利润增长率(x21)销售费用增长率(x22)管理费用增长率(x23)经营活动产生的净流量增长率(x24)每股营业利润(x25)每股净资产(x26)每股现金净流量(x27)货币资金比率(x28)存货净额比率(x29)应收账款净额比率(x30)预付款项净额比率(x31)其他应收款净额比率(x32)国家股比例(x33)流通股比例(x34)股权集中指标(x35)董事长与总经理兼任情况(x36)董事人数(x37)其中:独立董事人数(x38)监事总规模(x39)董事会会议次数(x40)监事会会议次数(x41)股东大会召开次数(x42)定义(营业利润本年本期单季度金额-营业利润上一个单季度金额)/营业利润上一个单季度金额(销售费用本年本期金额-销售费用上年同期金额)/销售费用上年同期金额(管理费用本年本期金额-管理费用上年同期金额)/管理费用上年同期金额(经营活动产生的现金流量净额本年本期单季度金额-经营活动产生的现金流量净额上一个单季度金额)/经营活动产生的现金流量净额上一个单季度金额营业利润本期值/实收资本本期期末值所有者权益合计期末值/实收资本本期期末值现金及现金等价物净增加额本期值/实收资本本期期末值货币资金/流动资产合计存货净额/流动资产合计应收账款净额/流动资产合计预付款项净额/流动资产合计其他应收款净额/流动资产合计国家股/总股数流通股/总股数公司前10位大股东持股比例之和不为同一人=0;为同一人=1董事(含董事长)人数独立董事人数监事(含监事主席)人数董事会会议次数监事会会议次数股东大会召开次数指 标流动比率(x1)速动比率(x2)资产负债率(x3)流动资产比率(x4)无形资产比率(x5)主营业务利润占比(x6)应收账款周转率(x7)存货周转率(x8)应付账款周转率(x9)总资产周转率(x10)资产报酬率(x11)营业毛利率(x12)营业净利率(x13)营业收入现金净含量(x14)营业利润现金净含量(x15)营运指数(x16)财务杠杆(x17)经营杠杆(x18)资本积累率(x19)净利润增长率(x20)定义流动资产/流动负债(流动资产-存货)/流动负债负债合计/资产总计流动资产合计/资产总计无形资产净额/资产总计(营业收入-营业成本)/利润总额营业收入/应收账款期末余额营业成本/存货期末余额营业成本/应付账款期末余额营业收入/资产总额期末余额(利润总额财务费用)/资产总额(营业收入-营业成本)/营业收入净利润/营业收入经营活动产生的现金流量净额/营业总收入经营活动产生的现金流量净额/营业利润经营活动产生的现金流量净额/经营所得现金毛流量(净利润+所得税费用+财务费用)/(净利润+所得税费用)(净利润+所得税费用+财务费用+固定资产折旧、油气资产折耗、生产性生物资产折旧+无形资产摊销+长期待摊费用摊销)/(净利润+所得税费用+财务费用)(所有者权益合计本期期末值-所有者权益合计本期期初值)/所有者权益合计本期期初值(净利润本年本期单季度金额-净利润上一个单季度金额)/净利润上一个单季度金额财报数据指标及其定义表 1财务欺诈智能预警模型前,需对其进行数据预处理和特征变换。另外,为了降低数据的维度,还需进行指标筛选。1.财务指标和非财务指标挑选。依据国内外相关研究文献(Chen和Han,2023;叶钦华等,2022),并结合上市公司财报指标数据的获取情况,本文共筛选了与结构化财报数据相关的42个指标,其中偿债能力