温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
语义
理解力
我国
省级
政府
网站
智能
问答
服务质量
评价
研究
科 技 情 报 研 究SCIENTIFIC INFORMATION RESEARCH第5卷第3期Vol.5No.32023年7月Jul.2023基于语义理解力的我国省级政府网站智能问答服务质量评价研究王芳1,2魏中瀚3连芷萱1,2康佳1,21.南开大学商学院,天津 3000712.南开大学网络社会治理研究中心,天津 3000723.科学技术部信息中心,北京 100862摘要:目的/意义 智能问答系统已成为各类网站提供信息咨询服务的重要设施。政务咨询问题的复杂性,对政府网站智能问答系统的语义理解能力提出了更高要求。方法/过程 文章采用南开大学网络社会治理研究中心开发的“基于语义理解力的政府网站智能客服评价体系”以及配套的测试题集,对我国 30 个省级政府网站智能问答系统的“问题解决质量”“服务交互质量”“基础建设质量”进行了评测。结果/结论 上海、浙江、北京总分名列前三;当前政府网站智能问答系统在语义理解及场景化服务方面存在明显不足,仅有 30%的系统得分达到及格线以上,部分问答系统在基础功能与服务交互方面存在较大提升空间。最后,文章提出扩展知识库、提升问题匹配精度、增加人文关怀等对策建议。关键词:政府网站;智能客服;语义理解;智能问答系统;质量评价;对话机器人中图分类号:TP18;G350文献识别码:A文章编号:2096-7144(2023)03-0067-18DOI:10.19809/ki.kjqbyj.2023.03.006收稿日期:2023-02-27修回日期:2023-03-31基金项目:国家社会科学基金重大项目“基于数据共享与知识复用的数字政府智能化治理研究”(编号:20ZDA039)作者简介:王芳(ORCID:0000-0002-2655-9975),通讯作者,女,1970 年生,博士,教授,博士生导师,主要研究方向:知识发现、政府信息资源管理,E-mail:;魏中瀚,男,1997 年生,硕士研究生,主要研究方向:政府信息资源管理、电子政务,E-mail:;连芷萱,女,1993 年生,博士,主要研究方向:电子政务、政务问答,E-mail:;康佳,女,1998 年生,硕士研究生,主要研究方向:电子政务,E-mail:。1引言智能客服以提高坐席服务效率、降低人力及培训成本等应用优势,已成为各类网站提供信息咨询服务的重要设施。智能客服是 AI 客服和人工客服的有机协同,智能问答系统是智能客服的核心功能模块。2017 年,国务院发布的 政府网站发展指引 提出,各级政府网站需提高自然语言处理等相关技术,满足自动解答用户咨询、提供个性化政务服务的需求1。此后,各地政府网站陆续推出 24 小时不间断的智能问答服务。2018年,广州市推出了智能服务机器人云平台系统,该系统不仅具备基础的一问一答智67科 技 情 报 研 究第5卷第3期能咨询功能,同时还能实现多轮会话以及模糊问题引导2。2019 年,商务部电子商务和信息化司在官网推出政务智能客服,具备信息公开、办事指南查询、最新政策和热门问题咨询等技能3。2020 年 1 月,济南疾控中心官方网站首页和济南疾控中心官方微信号“济南疾控微健康”相继上线了疾控智能问答机器人,用于回复新型冠状病毒相关问题4。截至 2022 年3月底,全国各省级政府门户网站或隶属的政务服务网站均已配备“智能客服”问答功能模块5-6(港澳台除外,下同)。传统的政府网站问答系统主要依赖信息检索技术进行答案的查找与匹配,但是,关键词匹配只能触及浅层语义信息,难以实现语义理解与推理。虽然大部分问答系统能够准确回答标准化、结构化问题,但是对口语化提问的解答准确度则大幅下降7。政务系统的服务对象具有多样性和复杂性,同样的需求常常有多种不同的表达方式。因此,简单的关键词匹配常常难以准确定位答案8。深度学习技术的发展以及面向不同实际应用的大规模语料集的出现,促使问答技术从传统的特征工程向深度学习的语义理解转变9。由于政府网站的智能客服面向全体公民而非特定用户群体,用户需求多样化且知识结构、表达能力等水平参差不齐,大部分用户只是偶尔使用系统进行咨询,因此,难以像推荐系统一样,通过积累历史数据对用户本身的语言风格、咨询习惯进行学习。语义理解能力成了政府网站问答系统效能发挥的瓶颈所在。为了进一步提升政府网站的智能化服务水平,需要基于语义理解能力对政府网站智能问答系统的服务质量进行评价研究。本研究运用由南开大学网络社会治理研究中心构建的面向语义理解力的政府网站智能问答系统评价指标体系和评测题集,对我国 30 个省级政府网站智能问答系统进行评测,发现存在的问题,并提出对策建议。2相关研究综述2.1语义理解能力评测研究根据霍华德 加德纳的多元智能理论,智能可以分 为 语 言(Verbal/Linguistic)、逻 辑(Logical/Mathematical)等 7 个范畴10。体现语言与逻辑智能的关键在于问答系统的语义理解能力,属于自然语言理解(NLU)范畴。语义理解能力研究,旨在用计算机模拟人的语言交际过程,使计算机能够理解和运用人类社会的自然语言,如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,例如检索、问答等需要处理自然语言信息的工作11-12。如NORASET等13基于维基百科知识库构建了能够回答泰语问题的问答系统“WabiQA”。问答系统常用的语义理解技术包括意图识别、共指消解、命名实体识别、文本推理、情感感知、知识推理等多种任务14,难点在于对语言的多样性、歧义性、鲁棒性(缺字、省略等现象)、知识依赖、上下文依赖等特征进行情景化处理。政府网站智能问答系统需要准确理解并满足用户的咨询需求,其理解力可以分解为同义文本理解、上下文感知、自动纠错、多语种翻译等具体能力。为提高问答系统的语义理解能力,美国陆军网站的SGT STAR问答助手采用机器学习方法,区分新兵招募相关问题的有用答案与无用答案,成功率高达94%15。哥伦比亚政务信息问答系统采用 FAQ 文档库、本体扩展词、语义网以及EuroWordNet技术,提高问答系统的语义理解力,受访公众满意率达到80%16。CHAN 与 TSAI17在灾害数据的基础上,为应急行动中心(EOC)建立了对话系统,通过问答功能、知识库和可以处理困难查询任务的搜索模块提高系统的问题理解能力。ANDROUTSOPOULOU 等18利用682023年7月王芳,魏中瀚,连芷萱,等:基于语义理解力的我国省级政府网站智能问答服务质量评价研究现有的结构合理、语义注释恰当的数据(如包含立法和指令的文件、来自政府机构操作系统的结构化数据、社交媒体数据等),使公民能够用日常语言与政府对话机器人进行更加丰富、更具表达力的沟通。衡量机器或系统是否能够真正理解用户意图的最直接标准是能否在接收用户信息后实现用户的指定目标19。基于此,许多学者从问答评测的角度来评估系统的语义理解能力,如 20 世纪 50 年代,英国数学家艾伦 图灵提出了著名的“图灵测试”20;1999 年举办的 TREC(文本检索会议)首次引入了“问答评测(QAtrack)”环节,以评测检索系统的问题解决能力;吴 友 政 等21建 立 了 汉 语 问 答 系 统 评 测 平 台(EPCQA),采用MRR、事例召回率、事例准确率、片段召回率以及片段准确率等指标来验证问答系统的性能;JURCICEK 等22利用众包技术对口语对话系统进行了远程评估,由受测者主观决定回复信息是否成功;腾讯 AI Lab 的李菁等23构建了一个大规模人工标注中文对话数据集,而后邀请专业人员根据系统回复的相关性、连贯性、信息性、趣味性等维度对文本数据进行五级评分;ROQUE 等24借助可用性测试量表,邀请 17 位医护人员与患者对“关于伤口处理”的智能问答系统回复质量进行评价。由于面向用户群体的广泛性、任务的多样性和语言特征的不确定性,采用针对特定任务设置基准的评估方式局限了用户真实需求的表达,仅能从计算效率上评估问答系统的服务质量,而采用人工问答评测方式,通过设定人类基准则可以从问题解决能力、回复质量、用户易用性、场景适用性等多个方面弥补基准算法评测方法的不足。2.2政务智能问答系统评价研究学术界利用计算实验、调查问卷、用户模拟实验等方法对政府网站智能问答系统的问答质量进行评测。例如,李焱冬25采用答复准确率对中心自建的“海德先生”系统进行了评价,而后将答复结果划分为“直接答复、提供选择、回答错误、无法回答”4 类,并通过统计分析评估问答质量。AOKI26对 220 万订阅小组成员对政府AI聊天机器人的信任程度进行在线调查,通过用户的主观评判来衡量对政务聊天机器人的使用满意程度。王友奎等27采用模拟用户的方法,利用测试关键词与问句从信息类、办事类、辅助类3个维度对政府网站问答系统进行评测,主要衡量了政府网站问答系统后台知识库的水平。以上研究在评价指标、用户体验、问答知识水平等方面涉及语义理解能力,但是未针对语义理解能力进行综合评价。同时,由于各政府网站后台对所采用的自然语言理解技术进行了密级管理,无法得到具体技术细节。本文从用户角度出发,采用面向语义理解力的政务问答系统评价指标体系,以及由政府网站真实用户提问改编而成的不同语言类型的评测题目,对我国省级政府网站智能问答系统进行测评分析,并针对发现的问题提出对策建议。3评价对象与评价方法3.1评价目的评价是管理的重要手段。评价的目的包括问题诊断、荣誉激励、优秀遴选、决策支持等。诊断性评价的对象常常是单一的,采用的评价方式包括用户评价与由管理咨询公司开展的专家评价,其目的在于发现问题,并提出针对性的改进方案,比如对新开发的检索系统或政府网站进行可用性评价就是典型的诊断性评价。而激励、遴选或决策支持性质的评价则常常是对多个同类对象进行评价,并依据评价结果进行排序,主要有3个目的:一是总体诊断,通过系统性评价指标的设定,发现普遍存在的问题,帮助评价对象找到改进的方向与重点领域,比如由教育部开展的高等学校学科评估;二是激励,帮助管理者了解69科 技 情 报 研 究第5卷第3期情况,更好地做出奖励先进、鞭策后进的决策,以此实现普遍的质量改进或能力提升,主要由主管部门或第三方机构开展评价研究,比如由南开大学网络社会治理研究中心开展的数据赋能政府治理评价研究28等;三是辅助决策,通过提供真实全面的情况为用户的选择和决策提供依据,常常由第三方机构进行评价并发布指数排名,也可以起到间接地诊断、激励和引导发展方向的作用,比如由第三方机构发布的高等学校排行榜。本文所开展的评价主要目的在于诊断和引导发展方向,通过发现问题,树立标杆,促进我国省级政府网站智能问答系统语义理解能力和服务质量的提升。3.2评价对象的选择省级政府网站与部委网站代表了较为先进的政府网站建设水准。相比于部委网站,省级政府网站智能客服解决的问题更具普遍性,相互之间更具有可比性,适合运用统一的评测题目进行评价比较,因此选择省级政府网站智能问答系统作为评测对象。经多次预测试后发现,截至 2022 年 3 月,在全国 34 个省级行政区中,云南省政府网站智能问答系统无响应,澳门特别行政区政府网站没有智能问答系统,香港特别行政区政府网站的智能问答系统仅能提供政务信息表格,台湾省政府网站则因网络问题难以开展,其余 30 个省级政府门户网站均开通了智能问答服务功能。2022 年 3 月 15 日至 16 日,对能够正常运行的30个省级政府网站的智能问答系统进行统一评测(网址详情见附录 1)。本文中所使用的“智能问答系统”“智能问答服务”或“智能客服”术语,均表示“智能问答系统”。3.3评价指标与评分细则本文选择南开大学网络社会治理研究中心开发的“政府网站智能客服评价指标体系”作为评价工具,该指标体系包括“问题解决质量”“服务交互质量”“基础建设质量”3 个一级指标和 9 个二级指标、18个三级指标,见表1。该评价体系包含客观指标和主观指标。每项指标设置评判细则,并邀请 3 名专家组成评分小组,对主观评价指标打分。首先,客观指标“问题解决质量”中的三级指标多数可以量化,其中5种类型的问题解决率可通过正确率测量;交互次数指标可通过公式“全部有效交互次数/正确回答问题数”衡量;完整性指标的评价则由系统答案中事项要素的个数决定,根据要素数量设置15分;规范性指标是主观指标,由评分专家依据信息组织的有序情况划分标准进行评分29。其次,在指标“服务交互质量”中,互动人性化指标为主观指标,同样为其设置 3 个标准供评分小组成员判断,在转换人工服务和使用意见反馈两方面则根据系统的配置情况设立评测标准。最后,在指标“基础建设质量”中,界面美观程度和系统稳定性为主观指标,由评分小组主观打分,其余指标均可由单人根据系统表现情况直接评分。另外,因不同用户对系统稳定性的感知程度有差异,如果直接由专家自行评测,难以保证评分的准确性。考虑到稳定性指标在本层级中相对权重较高,故为稳定性指标添加客观衡量依据:当系统能在2秒内对用户进行有效回复则为满分;当系统无法在 2 秒内回复,但可以在 4 秒内完成 2 个问题的回复时,其表现可评为中等;当系统无法满足上述 2 个条件时,评为下等。3.4评测问题与评测流程本文选用由南开大学网络社会治理研究中心为评价指标体系配套编制的政务测试问题集(详见附录 2)进行评测,其中高频政务咨询问题用于测试智能客服系统的知识库容量;同义问题用于测试智能客服系统的语义理解能力;省略型问题用于测试智702023年7月政府网站智能客服评价指标体系一级指标问题解决质量(0.748)服务交互质量(0.125)基础建设质量(0.127)二级指标问题解决率(0.408)解答效率(0.101)信息质量(0.239)共情服务(0.040)人工支持(0.058)效果评价(0.027)功能建设(0.057)系统性能(0.054)界面设计(0.016)三级指标高频型问题(0.245)同义型问题(0.082)错误型问题(0.041)省略型问题(0.020)英文问题(0.020)交互次数(0.101)完整性(0.191)规范性(0.048)互动人性化(0.040)转接人工服务(0.058)使用意见反馈(0.027)具备使用说明(0.017)地区导航(0.017)热点服务(0.017)输入联想(0.006)运行稳定性(0.027)终端兼容性(0.027)界面美观程度(0.016)评分细则正确回答问题数/测试问题数正确回答问题数/测试问题数正确回答问题数/测试问题数正确回答问题数/测试问题数正确回答问题数/测试问题数全部有效的交互次数/正确回复的问题数根据答案中的事项办理要素评价(15分)1分,信息排版杂乱无章23分,信息排版尚可,略有瑕疵45分,信息组织统一有序1分,毫无人性化23分,初步具备人性化特征45分,交互过程中,与真人无感知差异1分,无人工服务3分,用户可要求人工服务5分,主动提供人工服务1分,无反馈渠道3分,有反馈,只能好评、差评5分,有反馈渠道,且可输入反馈内容1分,无任何展示2分,仅有字数说明3分,有使用说明的文字4分,有使用说明的动画5分,使用说明+字数限制1分,无地区导航功能3分,网页可选或者提问可选5分,网页可选择+提问时可选根据系统提供的热点服务数量打分(15分)1分,无输入联想功能5分,有输入联想功能0分,无法回复1分,明显卡顿或4秒内无法回复2条问题3分,运行略显卡顿,4秒内进行二对二回复5分,运行顺畅,且2秒内可进行一对一回复1分,移动端不能打开3分,移动端可打开但不适配5分,移动端完全可适配1分,布局、色彩混乱不统一23分,布局、色彩基本统一,无特色45分,布局、色彩风格协调一致,具备地方特色表1 政府网站智能客服评价指标体系能客服的上下文语境感知能力;错误型政务问题用于测试智能客服的自动纠错能力;英文型政务问题用于测试智能客服的对外开放程度。运用上述评测问题集针对 30 个省级政府网站进行评测,其具体流程为:综合考虑指标权重后,选取60道高频政务测试问题进行测试,得出高频问题正确率指标的评分数据;在高频问题测试结束后,选取与各系统正确回复的高频问题对应的改编问题再次进行测试,得到各系统的4种问题解决率以及交互次数。同时,以“人机交互”过程为主线对其余指标进王芳,魏中瀚,连芷萱,等:基于语义理解力的我国省级政府网站智能问答服务质量评价研究71科 技 情 报 研 究第5卷第3期行测试。首先,当用户进入政府网站问答系统后,即对“具备使用说明”“地区导航”“热点服务”“终端兼容性”“界面美观程度”5个指标进行评分。然后,通过输入不同类型的问题测试问答系统有无“输入联想”功能。当系统对于全部问题给予回复后,评测者便可对“完整性”“规范性”“互动人性化”“运行稳定性”这4 个指标进行综合评价。最后,针对系统无法给予回复的情形,测试者通过对有无“转接人工服务”以及“使用意见反馈”功能完善对智能客服的评价。最终得到18个指标的全部评测数据。4评测数据处理4.1指标得分区间选择根据评分细则,对 30 个省级政府网站智能客服进行评测后,得到30组评分数据,数据包括百分率与15 整数值等评测分数。为了统一量级与单位,且便于后期加权,统一将得分区间设定为0,5,按此标准处理其余指标。4.2客观指标得分处理5 种不同类型的问题解决率均以百分率形式体现,其原始范围为0,1,为了使最终数据位于0,5区间,对各百分率作“乘5”扩倍处理。交互次数越多,表明系统交互效率越低,故选取逆向化(NMMS)处理方式30。为将交互次数标准化,本文首先将原始的交互次数归一化,使得交互次数置于0,1区间,具体公式见式(1)。依据此方式,原本最多的交互次数将转化为 0,最少的交互次数将转化为 1。在评估交互效率方面,在实践中交互效率低并不代表交互效率为 0,将最低交互效率设置为 0 与实际不符,因此本文在原有交互次数归一化方法的基础上运用 i4+1 的方式,将最大的交互次数设置为1,最小交互次数设置为 5,同时将中间各数散落至1,5区间,符合5分制打分习惯。i=msx-imax-min(1)式(1)中,i为i省份(直辖市)归一化后的得分分值,max为所有省份(直辖市)中的原始最大分值;min为所有省份(直辖市)中的原始最小分值;i为 i 省份(直辖市)的原始得分分值。4.3主观指标得分处理针对评价体系中 3 个主观性较强的指标,首先,将指标划分为不同的评分层级;然后,综合考量 3 位评分者的打分,引入Kendall和谐系数,用以衡量2个以上的评分者对不同待测对象进行不同等级评分时的一致性程度,从而最大程度保证评测结果的科学性,见表2。表2 3个主观指标得分的Kendall系数表2-1 规范性Kendall系数总计N3Kendall W系数0.790卡方68.690自由度29渐进显著性0表2-2 回复人性化Kendall系数总计N3Kendall W系数0.868卡方75.513自由度29渐进显著性0表2-3 界面美观程度Kendall系数总计N3Kendall W系数0.841卡方73.143自由度29渐进显著性0根据表 2 可知,3 个指标的评分一致性具有统计学意义。指标“规范性”的 Kendall W 系数=0.790,处于 0.60.8 之间,表明评分的一致性程度较强;指标“回复人性化”与“界面美观程度”的 Kendall W 系数分别为 0.868 与 0.841,处于 0.81.0 之间,表明评分的一致性程度很强。结果表明,评分小组对于 3 个主观指标的评分具备较好的信度。在评分计算时,由于规范性指标权重为0.048,对整体评价结果影响不大,为便于后期计算,平均3位评测者打分后直接进行近似取整处理。4.4得分加权处理经过数据处理,最终每个系统的 18 个指标评分722023年7月均在0,5。因此,可将最终的系统评测满分值定为 5分。对各指标得分进行加权求和得到系统最终得分,计算公式,如式(2)所示。score=i=1nii(2)式(2)中,为 i 指标未加权之前的得分分值,score为该省份(直辖市)全部指标加权后的最终得分分值。5评测结果分析5.1政府网站智能客服整体得分经过整体评测,在满分为 5 分的情况下,30 个政府网站智能客服的最终得分分布在0.86,4.10,平均得分为 2.73 分,中位数为 2.72 分,以 3 分为及格线,仅有9个省政府网站的系统达标,不及全部案例的1/3,如图 1 所示。其中,上海以 4.10 分居第 1 位,浙江以4.07分次之,北京、重庆分别以 3.80分和 3.50分位列第 3、4 位。前 9 位的得分下降速度较快,在第 9 位河南至第26位的陕西之间,得分下降趋势较为缓慢,分布也略平坦。据统计,得分位于(2,3区间的系统个数达18个,占全部系统个数的60%,可见绝大多数系统表现相对一般,如图 2 所示。最后,在 3 个得分低于 2分的智能客服系统中,天津四川得分均接近 2 分。排名最后的新疆得分断崖式下降,最终得分仅 0.86分。从整体情况来看,当前各省级政府网站智能客服表现不尽人意,难以解决用户日常的政务咨询问题。图1 省级政府网站智能问答服务整体得分排名5.2“问题解决质量”评测结果分析5.2.1问题解决率指标分析先后将 60 个高频问题输入 30 个省级政府网站智能客服系统进行测试,结果如图 2 所示。从整体结果看,当前政府网站智能客服的问题解决率不尽人意,在受测的30个系统中,问题解决率的平均值仅为38.89%,中位数为 40.83%,即 60 个问题中仅能成功解决 2325 道问题。解答成功率超过 70%的仅有 2个,解答成功率超过 50%以上的有 9 个,解答成功率低于 30%的系统数达 12 个,超过系统总数的 1/3。在全部测试对象中,上海的系统成功回复53个问题,以88.33%的问题解决率高居第一,浙江的系统次之,成功回复问题 44个,问题解决率为 73.33%。之后重庆、北京、福建与江西位列第 3 至 6 位,以上也正是所测案例中成功率超 60%的全部系统。在 30 个系统中,新疆的智能客服“小疆”未能成功回复测试集中的任意一道问题,故其成功率排至末位。综上所述,当前政府网站中智能客服的问题解答能力良莠不齐,整体水平较低,多数系统尚不能满足用户的政务咨询需求。运用改编问题进行测试,30 个省级政府网站智能客服系统对改编问题的解决率排名,如图 3 所示。在 30 个系统中,改编问题的解答率良莠不齐且波动王芳,魏中瀚,连芷萱,等:基于语义理解力的我国省级政府网站智能问答服务质量评价研究73科 技 情 报 研 究第5卷第3期较大。较高者如北京,改编问题解答率可达 70%,较低者如内蒙古,仅 5%的成功率(注:因在第一轮测试中,新疆智能客服“小疆”对于全部 60 个高频问题均未成功回复,故本轮未对其进行测试,将解决率设置为 0)。同时,高频问题解决率排名靠前的系统,其改编问题解决率同样排名靠前。由此可见,部分省级政府网站在智能客服系统建设方面既注重对系统知识库的丰富,又注重对系统语义文本理解能力的提升。然而,该类型案例仅为少数,有 3/4 的系统难以兼顾两方面的建设。图3 省级政府网站智能问答系统高频问题与改编问题的解决率对比图2 省级政府网站智能问答服务高频问题解决率排名为了有的放矢地提高语义理解能力,需要进一步分析当前系统对哪些类型的问题文本理解能力较差。选择改编问题解决率排名前 5 的系统进行评测,以反映较为普遍的问题。在4种不同类型的问题中,同义问题与错误问题的被解答率较高,均保持在70%以上,见表3。针对同义问题,细化到具体的问题类型后发现,因表述清晰与表述欠妥的问题均包含完整的政务主题词,故其解决率相对较高。相比较而言,表述模糊的问题因缺少部分关键词,导致系统质量略微下降,但仍算达标。针对错误问题,由具体数据可知,标点符号的错误对于问题的解答质量毫无影响,而其余3种类型的错误均对系统识别造成一定影响。针对省略问题,虽然5个系统均有不同程度的回复,但各智能客服系统的多轮交互能力几乎为 0,问题的解决更有可能依赖于系统对个别关键字的识别742023年7月问题类型同义问题错误问题省略问题英文问题解答情况表述清晰表述欠妥表述模糊替换错误缺字错误多字错误标点错误北京(%)100868333100100100400上海(%)10086836710067100400浙江(%)86868310010067100200河南(%)86100836767100100200湖北(%)71866767100100100400表3 改编问题解决率排名前5的省级政府网站智能问答系统的正确率拆解处理,而并非凭借问答系统的上下文感知能力。针对英文问题,全部系统均无法做出回复,但表现却不完全相同。部分系统虽无法正确回复,但是可以推荐相关的英文问题,部分系统则是回复中文问题,而剩余系统没有任何响应。由此可见,当前政府网站的对外开放程度仍有较大提升空间。5.2.2解答效率指标分析对于二级指标交互次数,汇集改编问题的测试情况后,30 个省级政府网站智能问答系统的相关数值分布在 1.32.6次范围内,如图 4所示。其中,青海与浙江的智能客服系统平均交互次数为 1.35 次,展示出较高的问题解决效率;陕西的交互次数为 2.57,相比之下该系统略显低效;其余多数系统的交互次数则在数值“2”附近上下浮动,这也表明对于普通政务咨询类问题,多数系统只需要通过2次点击操作便可解决用户需求。图4 省级政府网站智能问答系统交互次数测试交互次数既可反映系统的交互效率,同时也能展示不同的交互模式,依据测试结果可将具体交互模式分为如下 3 类:直接回复式,以浙江的智能客服为代表。该类型系统面对用户提问,在多数情况下可以直接给出对应的政务事项办理信息,只有当不确定时才会以推荐答案的形式与用户交互,所以其交互次数相对较少;推荐引导式,以北京、上海的智能客服为代表。在多数情况下,该类系统会以推荐相关问题的形式给予用户回复,只有用户进行二次点击时才能得到具体的事项信息或是进入事务对应的在线办理页面。该类型的客服系统虽然降低了解答效率,但却提升了问题回复的丰富度;推荐外引王芳,魏中瀚,连芷萱,等:基于语义理解力的我国省级政府网站智能问答服务质量评价研究75科 技 情 报 研 究第5卷第3期式,以陕西省为例。该类型的系统本身并不储存过多的答案文本,而是给予用户外部知识问答库的链接,因此,用户需要进行多次点击操作,继而导致了交互效率下降。上述3种类型的智能客服系统虽然交互效率不一样,但其交互模式却各具特色。5.2.3信息质量指标分析在二级指标信息质量分析中,因完整性与规范性均为正向性指标,将二者分别设为横坐标、纵坐标,以散点图的形式呈现系统分布情况,如图5所示。全部系统得分的分布情况较为均衡,信息完整性较高的问答系统同样注重信息组织的规范性,反之,无法保障信息完整性的问答系统,同样也忽视了对信息的有效组织。从整体来看,在能够给予正确回复的前提下,约 75%的省级智能客服能够为用户提供事务办理的必备要素。5.3“服务交互质量”评测结果分析图6 省级政府网站智能问答服务交互质量排名图5 省级政府网站智能问答服务的答案完整性-规范性分布在系统的服务交互质量方面,如图 6 所示,上海排名第 1,吉林与河北分列 2、3 位,随后是浙江与北京。上述系统在交互服务能力方面表现较为均衡,剩余系统则是在3个维度中或多或少地存在短板,其中以湖北、辽宁、陕西3省系统的短板最为突出,无论是回复人性化、还是转接人工与反馈渠道方面,表现均不如人意。对回复的人性化指标进行分析,根据各系统得分情况,以 0.04 分的标准划分 4 档,即:优秀(0.16)、良好(0.12)、合格(0.08)、不及格(0.04)。据统计,在30个测试案例中,优秀的仅占 13%,不及格的占将近50%,而良好与合格的分别占27%、17%,整体表现一般。对转接人工服务指标进行分析,根据原有的打分标准(1分:无法转接;3分:用户要求后被动转接;5762023年7月分:主动给予用户人工转接方式)进行数据统计,如图 7 所示。结果表明,40%的智能客服能够主动为用户提供人工服务连接方式,27%的系统能够在用户的要求下提供人工联系方式,而有 1/3的系统并不具备转接人工的能力。由此可见,在无法回答问题时,约 2/3 的网站智能客服系统能够通过转接人工的方式助力用户解决问题,但主动转接的系统占比仍然有提升空间。图7 智能问答系统交互能力细分指标得分占比图8 省级政府网站智能客服基础建设质量排名对意见反馈指标进行分析,根据系统的反馈方式(1 分:无法反馈;3 分:仅有点赞、点踩按钮;5 分、支持文本反馈)进行数据统计。从图 7 的统计结果可以看出,83%的网站系统为用户提供了反馈渠道,以供用户进行使用效果评价。其中,文本反馈占据60%,支持按钮反馈占 23%,而不支持反馈的仅有 5个,占 17%。由此可见,在当前初步建设阶段,政府在智能客服建设方面希望广纳群众意见,以推进智慧型政府建设。5.4“基础建设质量”评测结果分析如图 8 所示,在指标“基础建设质量”中,绝大多数系统的得分分布在0.2,0.6。浙江政府网站的智能客服表现优异且各细分指标得分较为均衡,陕西在该指标中表现较为逊色。然而需指出,之前各维度表现都较为出色的北京市、上海市智能问答系统,在该指标的评分排名中下滑明显,其中北京的智能客服“京京”位列第 8位、上海的“小申”则落至第 13位。究其原因,二者在“功能建设”方面得分较低,为全面建设智能客服系统,两地应夯实系统基础。在系统性能指标下,根据评分细则对系统运行王芳,魏中瀚,连芷萱,等:基于语义理解力的我国省级政府网站智能问答服务质量评价研究77科 技 情 报 研 究第5卷第3期图9 省级政府网站智能客服基础建设的稳定性与兼容性得分占比稳定性以及兼容性进行层次划分,如图 9 所示。在稳定性方面,约 57%的系统能够流畅回复问题,43%的系统在用户连续发问时出现卡顿情况。其中,30%的系统出现略微卡顿状况,即用户提出 2 个问题后,系统连续回复 2 个答案,而剩余 13%的系统则更为卡顿,当用户连续发问后,系统或是出现不作响应的情况,或是出现自问自答的错误情况。在兼容性方面,约 54%的系统可以在手机端兼容,并且其界面可以与手机尺寸进行完美适配,33%的系统虽然能够在手机端兼容,但其界面与手机无法适配,影响移动端用户使用体验,剩余 13%的系统则是不支持移动端使用,无法满足移动端用户使用需求。关于“界面设计”指标,大多数系统的界面设计中规中矩,采取简约风格,基本能做到色调和模块的搭配一致。有部分系统,如吉林政府网站的智能“小吉”,具备自身特色,界面风格生动活泼,能够为用户提供良好的视觉感受。但也有部分系统,如陕西、江苏的政府网站问答系统,无论是界面色彩还是元素模块搭配方面都对用户的视觉体验产生负面影响。6研究发现与提升建议6.1研究发现针对 2 948道测试问题,30个受测系统共计给出1 022 次错误答案,占比 34.2%,成功回复题数占比65.8%;针对 1 148道改编问题,系统成功回复了其中的 538道,占比 46.9%。另外,存在部分政府网站系统无法保障政务信息的完备性,如天津政务服务助理虽然能够以较为简洁的信息组织形式向用户呈现问题答案,但有时会因信息要素的缺失,难以解决用户的全部政务需求。造成上述回复质量较低的原因主要有以下2点:一是,问答系统知识库储备不足。由于知识库中并未储存足够多的政务事项信息,或是对某些政务事项办理要素的录入不完善,导致答非所问、无法回复以及信息要素缺失等问题。二是,问答系统语义理解能力较低。由于用户表达与知识库中的问题表达存在差异,语义理解能力较低的系统难以将两者进行有效匹配,无法对改编问题进行正确回复,从而产生答非所问的现象。6.2省级政府网站智能问答系统服务质量提升建议为将政府网站中的智能客服真正地打造成解放人工、便利用户的问答系统,基于评测结果与研究发现,提出以下改进措施。6.2.1构建多方扩充的问答知识库前文的测试结果在一定程度上反应了政府网站智能客服知识储备不足的问题。然而,政务事项繁杂782023年7月且业务处理流程不一致,难以将其全部纳入智能客服系统之中。根据相关研究对网络留言板的文本分析发现,全国各地网络用户的咨询问题集中程度较高。因此,有必要对此类问题进行充分调研、整理,再汇总实地服务窗口中的用户常问问题,将其格式化、序列化后存储于数据库之中,通过预设答案、复用知识等方法,提高问答性能,降低问答知识库载荷负担。在此基础上,建设者可不断将知识库进行扩展,再添加其余的低频办理事项,这样可以更加合理地分配问答知识库算力资源,提高问答处理速度。此外,可将智能客服系统与政府网站中的“政务事项库”“用户留言板”等模块进行连接,当用户的问题中出现相似主题词时,直接以外部链接的形式回复用户,此举既可降低系统数据库储存负担,又可为用户提供真实贴切的业务指导。在链接跳转的过程中,系统应设置安全性检查,避免用户隐私被恶意侵犯。同时,管理者也应当注意对系统答案进行及时维护,例如,政策发布或政务地点的变更都有可能导致原有的业务流程发生变化,应及时予以更正。6.2.2提升问答系统的智能语义理解能力知识库储备量作为智能客服的硬实力,对其提升是必不可少的,然而,系统建设者同样需要注意对系统软实力“智能性”的提升。对于当前省级政府网站的智能客服而言,智能性主要表现在能够灵活应对用户不同提问方式的语义理解能力。提升语义理解能力的方法有很多种,但是在工程实践上要考虑能耗和已有技术水平。在现有智能客服系统的建设基础上,提高语义理解能力,需要提升问题匹配的精度,其中包括用户问题与知识库问题的匹配,以及知识库问题与答案的匹配。系统建设者需要优化三者之间匹配的协同性,最大程度降低算法复杂度;同时考虑当地群众的惯用表达方式,扩大词句映射宽度,提高某一关键词与不同表达方式间的匹配准确率,以此提升智能客服的理解能力。其次,应当建立短时间内的问句关联,通过关联令智能客服具备上下文的语境感知能力,正确回复用户在多轮交互情境下的省略式提问。除此之外,关键词的准确与否将直接决定问答质量的高低,系统应提升关键词联想功能,当用户输入部分字段时,系统尽可能地为其联想所需问题,从输入端开始保障信息的准确性,继而提升解答效率。此外,还应保障系统运行的稳定以及可移动功能,避免卡顿、系统不兼容的情况,为用户提供灵活便捷的答疑服务。6.2.3增加人文关怀的基础辅助功能作为政府服务智慧化转型的载体,智能客服应针对信息弱势群体,进一步体现人文关怀。针对部分老年群体及残障群体,应为其设立无障碍服务,在输入端设置语音输入功能,在输出端为其提供语音播报功能,使障碍人群能够便捷获取政务信息和服务,从而更好地融入信息社会31。针对国际用户,一种改进方案是为系统预设英文语言类型,同时在知识库中为其添加“移民”“工作类居留签证”等常问问题的英文内容;另一种改进方案则是在系统中提供双重翻译功能,先将用户问题翻译成为汉语进行提问,而后将回复答案以英文方式呈现。通过增添上述细节功能,使政务智慧服务惠及各类群体。此外,省级政府网站智能客服系统的不足在下级政府网站智能客服系统中也同样存在。在测试体验过程中发现,大多数县级政府网站的智能客服系统“重形式、轻实质”,并不能充分地解决用户的政务信息需求。因此,在未来的建设过程中,上级政府在全力优化自身政府网站智能客服系统的同时,需要统筹兼顾,加强对下级各政府网站智能问答系统建设的扶持与监督力度,全面提升政府网站的智能化服务水平。王芳,魏中瀚,连芷萱,等:基于语义理解力的我国省级政府网站智能问答服务质量评价研究79科 技 情 报 研 究第5卷第3期7结论政府网站的智能问答服务是数字政府建设的创新性成果,是政府智慧化转型的重要体现。作为政府为公众提供信息和服务的窗口,政府网站的智能问答系统对语义理解能力有较高的要求。本文利用南开大学网络社会治理研究中心开发的“面向语义理解力的政府网站智能客服评价体系”以及配套的测试题集,从“问题解决质量”“服务交互质量”“基础建设质量”3 个维度对 30