分享
基于BERT的民生问题文本分类模型——以浙江省政务热线数据为例.pdf
下载文档

ID:2577613

大小:1.69MB

页数:11页

格式:PDF

时间:2023-08-01

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 BERT 民生 问题 文本 分类 模型 浙江省 政务 热线 数据
456 浙江省软科学研究计划重点项目(2021C25021)资助 收稿日期:20220517;修回日期:20220623 北京大学学报(自然科学版)第 59 卷 第 3 期 2023 年 5 月 Acta Scientiarum Naturalium Universitatis Pekinensis,Vol.59,No.3(May 2023)doi:10.13209/j.0479-8023.2023.030 基于 BERT 的民生问题文本分类模型 以浙江省政务热线数据为例 孔祥夫1,2,董波1 徐可2,3 陶永亮1 1.之江实验室,人工智能社会治理研究中心,杭州 311121;2.北京大学深圳研究生院,城市规划与设计学院,深圳 518055;3.浙江省发展规划研究院,城镇发展研究所,杭州 310030;E-mail: 摘要 基于 20172021 年浙江省 12345 政务热线数据,从居民视角构建细粒度的民生问题三级分类体系,并利用 BERT 预训练模型来构建文本分类模型,将居民诉求文本转化为民生问题标签。研究结果表明,在政务热线数据中加入 30%的人工生成诉求样本,可以使模型的分类准确率提升约 10 个百分点,准确率最高可达84.59%。对浙江省各类民生问题占比的分析结果表明,环境保护、违规经营和市政服务等诉求的比例呈现下降趋势,而公共服务、交通问题、购房问题和新兴消费模式的诉求比例呈上升趋势。研究结果有助于加强政府对于民情民意的了解,提升数据驱动的社会治理能力。关键词 民生问题文本分类;BERT;政务热线数据;数据治理 Text Classification Model for Livelihood Issues Based on BERT:A Study Based on Hotline Compliant Data of Zhejiang Province KONG Xiangfu1,2,DONG Bo1,XU Ke2,3,TAO Yongliang1 1.Research Center for AI Social Governance,Zhejiang Lab,Hangzhou 311121;2.School of Urban Planning and Design,Peking University Shenzhen Graduate School,Shenzhen 518055;3.Institute of Urban and Rural Development,Zhejiang Development and Planning Institute,Hangzhou 310030;E-mail: Abstract Using the 12345 hotline compliant data from 2017 to 2021 in Zhejiang Province,a fine-grained three-level classification system for livelihood issues was constructed from the perspective of social cognition.A BERT pre-training model was developed to convert complaint texts into labels for livelihood issues.The validation result showed that adding 30%artificial complaint texts in the training set could increase roughly the accuracy rate by 10 percent,and the accuracy rate could be as high as 84.59%.Moreover,livelihood issue proportions of environmental protection,irregular business and municipal services had shown downward trends,while proportions of public services,traffic managements,house purchase issues,and emerging consumption patterns had shown upward trends.This study showed great values of combining the deep learning technology with 12345 hotline compliant data in improving data-driven social governance capabilities.Key words livelihood issue text classification;BERT;hotline complaint data;data-driven governance随着工业化和城镇化的快速推进,我国的社会结构发生深刻的变化,个体化的浪潮和多元的社会阶层,产生纷繁复杂的利益诉求,导致社会治理面临信息不透明、场景复杂和沟通不畅等挑战1。社会的模糊性与国家治理能力成反比,两者之间呈此消彼长的关系2。有效的治理首先要获得及时、全面和准确的民生信息,才能形成清晰的治理图景3。随着决策者与居民之间层级架构的不断增加,信息在自下而上的传递过程中越来越抽象和简单化4,这种信息不 孔祥夫等 基于 BERT 的民生问题文本分类模型以浙江省政务热线数据为例 457 对称可能导致政府的资源配置与民众的治理需求产生错配。目前学界对民生问题的关注程度远不及对政府治理行为的讨论,尤其对民众如何感知和理解民生问题缺乏清晰的认识5。从我国社会的实际来看,经济社会发展的不均衡使得不同区域的民生问题和治理需求存在巨大的差别6。对于民生问题的认知方法,学界通常有三类实证研究方法。1)通过实地走访和案例剖析,对某类民生问题进行深度分析7,这种方法覆盖范围较窄,主要针对土地纠纷、物业矛盾和医患关系等涉及个人利益冲突的民生问题。2)基于统计年鉴或公报,分析某类民生问题的时空变化规律8,这种方法适用于环境保护和公共服务等拥有丰富公开观测数据的领域。3)通过大规模问卷调查,对某一类或多类民生问题进行分析9,这种方法覆盖面广,但成本较高,难以持续。总体来看,实地走访、统计数据和问卷调查都属于碎片化地收集民生信息,难以对民生问题进行持续性和系统性的跟踪。通信技术的迅速发展推动社会治理向数字化和智能化转型,城乡居民开始通过互联网、电话和社交媒体等途径主动参与社会治理,自下而上地演化出“热线问政”的政企民互动方式。一些研究者从政府回应1011、基层治理1213和范式创新1415等视角分析政务热线对治理能力和治理体系的系统性影响,以期通过对政府治理的制度性重塑来提升社会治理效能。在公众利用政务热线与政府沟通的过程中,沉淀了海量反映民生问题和政府治理措施的非结构化文本,为系统地分析民生矛盾和全面感知社会风险提供了良好的契机。一些研究者开始利用自然语言处理技术,深度解构政务热线数据中的非结构化文本,并在空间治理、邻里关系和公共服务等领域展开一系列的探索。从民生问题的文本分类技术来看,现有研究可分为 3 类。第一类研究使用关键词作为过滤器,对民生问题进行划分1618。这种方法需要枚举某类问题的所有关键词,也不支持模糊搜索,难以在复杂的语境下触及居民的核心诉求。第二类研究使用隐狄利克雷分配模型等主题模型,自动地划分民生问题1920,主题模型属于无监督学习,通过对语料的词频进行统计,挖掘潜在主题,并按主题的概率对文本进行聚类。该方法无需对民生数据进行标注,仅通过分析词频,就可以完成分类任务,缺点在于自动生成的主题可能与预期差距较大,各主题间的差异可能并不明显。第三类研究基于深度神经网络构建文本分类模型2122,属于有监督学习方法。给定一组预先定义好的标签集和语料集,模型的任务是根据已知的分类结果,学习语料集到标签集的映射规则。文本分类模型虽然需要花费较多的精力制作标注集,但可以根据研究需要,自定义分类体系。总体来看,现有研究的分类体系不够精细,缺乏系统性的民生问题分类谱系,分类结果的颗粒度较粗17,难以对精准治理提供有效的支撑。为了精准地感知各类民生问题,提升社会治理的清晰性,必须构建细粒度、符合居民认知的民生问题分类方法,从而为分析各类民生问题的时空规律、成因、影响和治理措施等要素提供依据。为此,本文以浙江省为研究对象,基于 BERT 预训练模型,将 12345 政务热线数据中的居民诉求文本转为民生问题标签,并讨论各类民生问题近年来的变化趋势。本文研究结果将有助于加强政府对民情民意的了解,提升数据驱动的社会治理能力。1 研究设计 1.1 数据来源 本研究使用的政务热线数据全部采集自浙江省“民呼我为”统一平台,该平台融合了 12345 热线电话、移动信访等多个渠道的申诉、咨询、建议和举报信息。考虑到数据的完整性和时效性,本研究选择上报时间在 2017 年 1 月 1 日至 2021 年 12 月 31 日之间的申诉、求决和建议类共计 173 万个样本。每条样本的重要字段包括“上报时间”、“问题属地”、“诉求内容”和“归属部门”,“上报时间”是居民提交诉求的时间。“问题属地”指诉求描述的问题所在的区县。“诉求内容”记录了居民诉求的非结构化文本,平均每条诉求文本包含 126 个中文字符。如果居民通过 12345 热线电话发起诉求,接线员会详细记录诉求内容并整理成文本,保存至“诉求内容”字段中;如果居民通过网页或手机 APP 提交诉求,则“诉求内容”直接保存诉求原文。“归属部门”是负责处理诉求事件的政府部门。1.2 基于 BERT 预训练模型的居民诉求文本分类算法 为了将诉求文本转化为各类民生问题,必须构北京大学学报(自然科学版)第 59 卷 第 3 期 2023 年 5 月 458 建高精度的文本分类模型。由于少数居民在某次诉求中可能一次性地反映多个问题,因此居民诉求的文本分类算法在理论上属于多标签分类算法,即一条诉求可能被贴上多组标签。相比于单标签分类,多标签分类更复杂,如最基本的二元关联法(binary relevance)将多标签分类问题分解为 N 个独立的二分类算法(N 为标签总数),导致多标签算法的预测空间为 2N,远高于单标签算法的 N 种结果。随着 N值加大,算法的学习难度和预测误差显著上升。考虑到浙江省 12345 热线数据中绝大多数居民(约占96%)在一次投诉时仅反映一类民生问题以及多标签分类算法的复杂性,本研究构建单标签文本分类算法。在单标签文本分类算法中,分类体系、训练集和算法均会对分类结果的准确性产生影响。1.2.1 构建民生问题分类体系 本研究构建民生问题的三级分类体系,其中一级分类包含 4 个大类,二级分类包含 39 个中类,三级分类包含 195 个小类(图 1)。分类体系的构建过程如下。首先逐条分析 5 万条居民诉求文本,结合住房和城乡建设部发布的市政事件分类行业标准23,构建第三级分类体系;然后根据类别相似度,将第三级分类合并为第二级分类,并且参考中央对政府职能的描述,将二级分类归并为公共服务、城乡管理、环境保护和市场监管 4 个大类24;接下来,利用构建好的分类体系训练文本分类模型,观察分类结果,优化分类体系;最后重复上述流程,直至分类结果的准确率不再提升。其中,第三级分类体系具有如下两个特征。特征 1:通过细化分类体系,使各类民生问题间形成清晰的边界。虽然民生问题种类繁多,但各类问题的特征较为明确,可以通过枚举的方式,罗列每一类民生问题的范畴,使各类问题之间形成清晰的边界,消除在定义上模棱两可的类别。不断拆分模糊的民生问题,是保持各类问题之间互斥性的关键。

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开