一、引言上市公司财务欺诈事件时有发生。不仅在我国,在世界范围内上市公司财务欺诈都是一个焦点问题。2020年,瑞幸咖啡发布公告承认其2019年第二至第四季度存在伪造交易行为的财务造假行为,涉及总金额约为22亿元。安然公司曾被曝财务造假,虚增利润5.52亿美元,使得股东和股民损失740亿美元。安然公司的造假丑闻还殃及了花旗银行、安达信等,同时引出了世通的财务欺诈案件,这又导致三万人失业,使投资者损失1800亿美元。除了巨大的财务损失,股民信心也受到重大打击,一时间股票市场持续低迷。因此,公司财务欺诈行为对资本市场的整体发展和投资者的信心都会造成损害。鉴于财务欺诈事件的频发及其给社会带来的危害,如何准确及时地识别出具有财务造假行为的上市公司,在第一时间减轻财务造假带来的损失,是对资本市场各个方面都非常有意义的研究问题。为此,国内外学者对财务欺诈预警方法进行了广泛研究(王昱和杨珊珊,2021;宋宇和李鸿禧,2020;Bao等,2020;吴庆贺等,2020;Craja等,2020;Hajek和Henriques,2017)。现有研究中,从结构化的“企业—年度”数据中提取财务指标和非财务指标是主流做法(王昱和杨珊珊,2021;宋宇和李鸿禧,2020;Bao等,2020;吴庆贺等,2020)。杨子晖等(2022)指出,采用传统的机器学习模型(如随机森林模型和Logit回归模型等),能够对我国大多数财务危机事件进行有效预警。随着自然语言处理技术的进步,非结构化的文本数据可作为对结构化数据的有益补充(Craja等,2020;Hajek和Henriques,2017)。然而,结构化数据和文本数据中的时序信息没有得到充分挖掘。鉴于此,本文将时序信息的提取引入结构化数据和非结构化的文本数据中,以期能够更好地捕捉公司财务欺诈的连续变化信息,从而获得更好的上市公司财务欺诈预警性能。从数据的获取途径来看,结构化年报数据通常来源于国泰安(CSMAR)或锐思(RESSET)等公开的金融融合新闻文本和时序信息的上市公司财务欺诈预警【摘要】本文针对资本市场中普遍存在的上市公司财务欺诈问题,在财报数据中融入财经新闻文本特征,并提取时序信息,为上市公司财务欺诈预警提供新途径。以结构化的财报数据和非结构化的新闻文本数据为对象,在结构化数据特征中融入新闻文本的主题特征、观点特征、情绪特征和欺诈特征,然后提取时序信息,并基于树集成的方法实现上市公司财务欺诈预警。本文融合预警欺诈行为的方法在CSMAR财报数据集和爬取的新浪财经数据集上达到了86.1%的...