温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
AI
造字
法律
风险
及其
防范
基于
文件
司法鉴定
视角
梁恩豪
摘要AI 造字是人工智能造字的简称,它可基于少量的样本字迹生成一种与之风格类似的字体,其中以创造手写体字迹最为常见。这种技术可以分为静态型造字和动态型造字两大类,具体方法原理有所不同。这种技术可能被不法分子所利用,从而存在潜在的法律风险,表现为它一方面可以被用来伪造手写字体从而应用到某些文件的签署中;另一方面它可以被用来伪造印刷字体从而制作非法证件。社会各界对其应当保持必要的关注,并通过完善相关机制来预防其风险的发生。关键词AI 造字;文件伪造;法律风险;风险防范中图分类号 G210.7;TP18;TP391.3文献标识码A文章编号1673-0046(2023)5-0173-03梁恩豪,欧阳国亮太原城市职业技术学院学报2023 年 5 月 第 5 期基金项目:辽宁省社科基金项目“电子字迹检验鉴定的可行性及相关法律问题研究”(项目编号:F17CFX001)作者简介:梁恩豪(1997-),男,重庆人,硕士研究生在读,研究方向:文件检验;欧阳国亮(1986-),男,湖南桂阳人,博士,副教授,硕士生导师,研究方向:文件检验。AI 造字的法律风险及其防范研究基于文件司法鉴定视角近年来,在人工智能、大数据等先进技术的驱动下,社会上迎来了一场新的产业革命,科技界把这场科技革命叫作“第四次工业革命”,它的显著标志就是科技产品的智能化和智慧化。受人工智能技术的影响,一种能基于少量样本字迹就可创造出相似风格字迹的技术“人工智能造字”应运而生,业内也把这种技术简称为“AI 造字”。它基于深度学习等算法,不仅能创造手写体,而且能破译防伪印刷字体的造字规律从而创造出类似字体。目前国内外不少科技公司都推出这款软件,并且用户可随时下载安装于手机、平板电脑等终端。一、AI 造字概述AI 造字运用 AI 技术(人工智能技术)把一定数量的样本字迹的外观形态、构字特点和规律进行精确化的测量分析,然后基于这些样本创造出一种在风格甚至细节上与之相接近的字体。用户只需下载一个 AI 造字 APP(国内常见的有百度造字、手写精灵、手迹造字等)就可以造字,而且录入的手写样本越多,创造出的字体风格与本人笔迹风格就越接近。它类似于语音合成技术,后者能让某个人读 100 个音节就能创造出跟这个人的音色高度相似的语音,并能用这一音色流畅发出所有字音。它们都是人工智能技术发展带来的技术成果。目前业内将 AI 造字分为静态型 AI 造字和动态型造字两类。静态型 AI 造字主要是对样本字迹的整理或偏旁部首进行分解,然后进而组装优化1。其步骤是如下:首先,让书写者书写一定数量的样本字迹,并将其以图片形式录入计算字迹生成软件中;其次,将模型里面的文字进行拆分从而形成基础字根,并将形成的字根存放在单个的字根库中,这好比建房子前先建立了一个建筑材料库;再次,字体生成软件将字根根据书写字体的搭配比例、大小、高矮、粗细等特征重新组成新的文字;最后,将这些文字存放在人化文字资料库。这种方式创造出来的字迹,由于是样本中偏旁部首拼接之后优化而成的,因此新创造出的字迹中的偏旁部首实际上是样本字迹的再现,这些字看上去会显得比较生硬。动态型 AI 造字通过计算机建模方式对样本字迹的特点进行解析,然后实现自然优化2。其主要步骤如下:首先,建立一个计算机模型;其次,对汉字进行编码然后收集书写者书写轨迹曲线;再次,将轨迹曲线和汉字编码带入到人工智能算法中去,形成此书写人的运笔习惯轨迹模型;最后,对笔画的轨迹曲线模型中的点随机取样来形成书写人的动态化字库。通过该方法形成字库所产生的汉字符合手写笔迹存在差异,但相比于传统的静态字库却更加自然。二、AI 造字的潜在法律风险(一)利用 AI 造字技术伪造手写字体国内一些科技公司研制出了一系列 AI 造字软件,例如,“手写造字”“书写先生”“百度 AI 造字”等。其中,“手写造字”APP 最少只需录入 100 个手写的不相同的汉字就可以创造出一种和这 100 个字相同风格的字体,录入的手写字数量越多,还原一个人笔迹的程度就越高。方正集团开发的“书写先生”APP,也是只要录入 100个汉字就可以创造出一种字体。一般来说,录入的手写样本数量的多少会对 AI 字迹的风格产生一定的影响。例如,我们用“手写造字”APP 进行了一个简单实验,第一行是我们录入 240 个手写样本字迹后生成的字,第二行是我们录入 1000 个手写样本字迹后生成的字迹(录入的样本里都不包含下列字,以免字迹自动复制生成),从两行字迹的对比中可见,每个字在细节上还是有明显(中国刑事警察学院 刑事科学技术学院,辽宁 沈阳 110035)173DOI:10.16227/ki.tycs.2023.0278差别的,但风格上没有太大变化(见图 1)。图 1 不同样本数量下 AI 字迹风格对比为了测试人工智能造出来的手写字迹与样本书写者的真人笔迹的风格是否相似,笔者利用“手写造字”软件进行了一次小实验,操作如下。首先,根据“手写造字”软件的操作提示,书写了 700个样本字迹。该软件最低要求是手写 100 个样本字迹,当样本字迹达到 700 个时,能创造出较高质量的手写字体,因此,我们按照其提供的模板书写了 700 个。然后,将 700 个手写字迹扫描导入软件系统,大约50 分钟后系统根据这 700 个样本字迹自动生成了一种字体,笔者利用该字体打出一段话(图 2 上)。从图中可见相同的字(例如“轻”“的”“我”)都是简单的重复再现,这是人工智能造字自动复制的结果。最后,笔者利用纸笔将那几句话默写了一遍(图 2下),以便二者对比。图 2 AI 字迹(上图)与真人字迹(下图)风格比较将图 2 中的上下两图字迹对比可见,二者字的间距、大小、形态基本相似,但字的笔画细节差别很明显。笔者本人手写的字迹,相同的字(例如,“轻”“我”“的”)会存在明显的差异,这点不同于人工智能字迹的复制重现。现阶段每一种人工智能造字技术都遵循着“手写样本字数越多,字体风格还原度越高”的基本原则,当书写的样本字数达到 3000 字并将其录入造字系统时,此时人工智能造字技术就是把每个字进行复制,生成的字实际上就是原笔迹再现,并不是创造。但如果只是根据少量的字迹样本去创造样本以外的新字,还是存在较大的差异。前面的几个小实验表明,在提供一定数量样本的前提下,AI 造字技术能创造出风格大致相同的字体,但新创造出的字与提供样本的人手写的字会存在明显差别。这看上去似乎对文件伪造没有什么太大意义,但在某些特定的情况下还是可以被作案人用来进行笔迹伪造。例如,当前电子字迹越来越流行,除了签名外,一些留言或者声明之类的也是用触屏书写形成电子原笔迹。在这种情况下,一些不法分子把受害人平时手写的字迹扫描录入系统,伪造一份受害人书写的电子字迹文件,如果受害人已经去世且找不到比对样本的话,那么这起案件就会比较棘手。有如下两种情况。第一种情况:一般的 AI 造字软件只要录入最低 100个样本字迹就可以生成数千个手写汉字,作案人想尽办法获取受害人的手写笔迹,然后利用手写造字 APP 工具,将受害人样本笔迹输入其中,生成一种字体,从而利用到文件伪造中。比如,张三到李四家做客,然后用手机偷偷将李四的部分字迹进行照相保存,然后通过 APP 生成符合李四书写特征和习惯的字库进行作案。又比如,受害人李四从来没写过“夙愿”一词,但是张三可以把李四平时写的其他字迹作为样本录入手写造字软件中,生成“夙愿”二字,同时还可生成大量其他的字,伪造一份电子笔迹遗嘱,等李四某一天去世后,张三便将遗嘱拿出来。这时候,由于李四生前也没留下什么笔迹,从而缺乏比对的样本,这就会给遗嘱真伪的确定带来很大麻烦。第二种情况:因为录入 AI 造字软件中的样本数量越多,生成的字迹就越像,当录入超过 2000 个单字时,生成的手写字迹实际上就是原笔迹再现。假如,张三收集李四的手写字样本字迹达到 2000 字以上,此时录入软件就会生成李四的原笔迹字迹库,张三可以用这个字库撰写敲诈信、恐吓信之类的匿名信,从而嫁祸给李四。总之,这些情况虽然只是一种推理预测,但是未来的某一天可能会出现这类情况,从而带来一些法律上的问题,这值得业内警惕。(二)利用 AI 造字技术伪造印刷字体AI 造字技术不但可以生成手写字迹,而且还可以生成各类印刷字体。例如,美国的 Facebook 公司研发的“文字风格刷”(TextStyleBrush),运用神经网络系统,只需基于少量印刷字就能完美还原出一整套文本字迹来,准确率都高达 95%以上3。AI 造字技术可能被违法犯罪利用到一些特殊字体的伪造中。众所周知,我国印制各类票证普遍采用不同的印刷字体,有些字体是专门创造用来防伪的,例如身份证、驾驶证、行驶证等证件上的字,这些字体在普通电脑字库中是不存在的。尽管随着照相技术和扫描技术的发展,违法犯罪分子已经能够轻而易举对各类票证上的特殊字体进行复制,然后再制作伪造的票证。但这种复印复制是有前提条件的,即它只能复制那些在真实票证中出现过的文字。例如,“张三”这两个字在驾驶证中出现过,违法者可以通过复制“张三”字样制作一张伪造的驾驶证,但如果某人想做一个名为“李四”的驾驶证,这时候由于没有这两个字的复制样品,因此无法进行伪造。AI 造字技术就能解决这个问题,它可以对“张三”及出现过的其他字的笔画形态、搭配结构进行测量,然后推测出“李四”这两个字的相同字体。这是因为任何一种字体,在设计时都会遵循一定的构字章法,防伪字体也不例外,横、竖、撇、点、折等各类笔画都有其特定的创作原则。人工智能造字技术可以在对票证上的字体进行深度解析后,能破译这些字体的创作原则,从而实现精准伪造,现实中已有此类案件发生。我们运用某公司研发的人工智能造字技术“APY”软件试用版进行了一次实验,以验证人工智能造字技术创造防伪印刷体字的相似度。实验步骤如下。首先,我们将一份 1954 年的证件上的局部印刷字迹进行扫描(我们选中了证件上的“合格”二字,见图 3中 A 图),使其作为创造新字的样本。之所以选择 1954年的证件,是因为那时候字库杂乱不统一,不同地方的票证所用的字库往往有一定差别,这就可以防止后面用174参考文献:1刘成东,连宙辉,唐英敏,等.基于部件拼接的高质量中文字库自动生成系统J.北京大学学报(自然科学版),2018(1):35-41.2杨柏婷.图文字库采集与生成技术探索J.长江信息通信,2021(7):86-88.3欧阳晋焱,盛浩涵,周爱民,等.基于汉字字体结构认知计算的多意象预测模型J.图学学报,2019(5):945-952.4欧阳国亮,梁恩豪,祁维超.文件检验视域下我国电子签名研究进展及趋势J.刑事技术,2022(4):336-341.人工智能造字时系统自动找到相同字库进行匹配。其次,我们将扫描好的字迹导入人工智能造字系统中,此时程序开始对“合格”二字的笔画特征和结构搭配特征进行测量分析和自动研判。再次,我们启动指令,令其创造出跟样本字迹完全不同的两个字,我们设置了“本校”二字。也即让人工智能程序在研判“合格”这两个字的基础上,创造出“本校”二字,然后再把创造出来的字同证件上已有的相同字进行对比,以查看其准确程度。最后,人工智能很快就基于“合格”的构字风格创造出了“本校”二字(图 3 中 B 图)。图 3 人工智能造印刷字体对比可见,我们并没有把证件中已有的“校”录入系统,系统只凭借“合格”二字的笔画特征和搭配特征就轻而易举地创造出了“校”二字,而且这个“校”和证件上已有的“校”足以以假乱真。当然系统能创造出这种高相似度的字有一个前提条件,那就是“合格”和“本校”具有相同或者类似的偏旁部首和笔画搭配结构。偏旁结构越相似,人工智能软件能借鉴的构字部件就越多,因此,创造出来的新字与样本字迹的相似度也就越高。反之则相似度越低。在原始证件中没有相同字比较的情况下,人工智能技术创造一个字夹在文字当中,人们看上去就是同一种风格的字,一般不会怀疑它是后来创造的。特别是对于90 年代以前的各类票证而言,那时候缺乏统一的字库,如果用人工智能技术去伪造那个年代的票证,光从文字角度看很可能会难