温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
ChatGPT
法律
风险
治理
路径
谭佐财
第 卷 第 期 年 月湖南科技大学学报(社会科学版)():的法律风险与治理路径谭佐财(武汉大学 法学院,湖北 武汉)摘 要:以 为代表的生成式人工智能具备在自动学习的基础上生成新内容的能力,在引发生产力革命的同时也形成了法律规制难题。会造成隐私侵权、数据安全风险以及知识产权确权与保护困境等难题,其主要原因在于数据中心主义、算法高度信任以及规范滞后于技术等。治理 应当秉持捍卫人的尊严原则和倡导有限信任原则,坚持以公共利益为导向确定权属分配,并构建以开发设计者为主体的合规方案,发挥科技伦理引领与法律规范的双重作用。具体可采取对数据采集的合规控制、以技术治理技术、优化数据管理方法等措施。为了防范 过度模糊人与机器之间的信任边界,还应根据用户的专业性程度配置不同的披露义务。关键词:;生成式人工智能;大语言模型;算法治理;法律规制中图分类号:文献标志码:文章编号:()年 月 日,美国 实验室发布人工智能聊天机器人()模型,短短数月已经成为历史上使用群体规模最大、功能最强、增长最快的现象级应用程序。是基于大型语言模型(,)的生成式人工智能(,)的一种重要类型。生成式人工智能即自动化内容生成的技术合集,基于数据学习训练后输出复杂的、类似人的思想的内容,并能够执行诸如通用问答系统(例如)或自动创建艺术图像(例如 )等任务。该项技术已经且必然持续影响社会各个领域,并改变我们与技术的交互方式,包括但不限于商业策划、诊疗服务、教育、学术研究、编码、娱乐艺术,等等。是人工智能领域自然语言处理技术的重大革新,也预示着一次全新的生产力革命和思维革命正在到来。然而,技术的迭代演进必然与风险并存,技术发生错误或者脱轨的代价将是昂贵的,例如 引发的数据来源违法、内容歧视、隐私侵害等内容侵权风险都需要予以解决。当前,世界各国或地区的人工智能监管政策主要集中于传统人工智能而非大型生成式人工智能。但是,生成式人工智能与传统人工智能并不相同,后者通常仅用以实现预测、分类或者其他特定功能,而前者经过采样、混合等学习训练可以生成超出训练集的新数据,例如文本、图像甚至音频,训练数据被表示为概率分布。以大模型为特征的生成式人工智能对于数据数量和质量的需求也更为强烈,由此引发的数据风险不容忽视。当前,生成式人工智能的法律规制正成为需要全世界直面的课题。基于此,本文拟以 应用的技术逻辑为基础,分析 应用引发的主要法律风险,探索对 应用进行法律规制的可能路径。一 运行的技术逻辑自 年在美国达特茅斯会议上麦卡锡首次提出人工智能概念以来,传统人工智能的底层技术逻辑已经逐渐清晰。作为一项基于大语言模型的生成式人工智能,仍然是一项全新收稿日期:基金项目:国家社会科学基金重点项目()作者简介:谭佐财(),男,湖北利川人,博士生,主要从事民商法、科技法研究。朱广辉,王喜文:的运行模式、关键技术及未来图景,新疆师范大学学报(哲学社会科学版)年第 期。湖南科技大学学报(社会科学版)年第 期的科技现象,故有必要对 的技术逻辑作简要梳理,以便构建遵循技术规律的治理方案。(一)的运行机理训练模式 之所以能够快速、准确且有逻辑地生成内容,依赖于对数据持续地学习训练。在 的基础上引入了人类反馈强化学习(,)机制,这一方法采取三步骤训练模式:预训练阶段的监督调优、奖励训练模型以及近段策略优化。在最初的预训练阶段,采取自我监督的学习方法,人工智能从大量未加标注的数据中学习,在调整 模型的基础上获得()模型;后两个步骤属于指令微调阶段,是在预训练基础上进行交互训练,以人类偏好作为奖励信号来训练模型,并将奖励模型用于改进和微调 模型,最后针对特定任务和标注的数据来完成用户预期的任务。采用 的训练模式使得模型逐渐契合人类的认知模式,从而可以实现高精度的且接近人类的语言智能。技术本质生成式人工智能建立在转换器()之上,这是一种具有许多参数的最先进的神经网络架构,其新颖之处在于所采用的自注意力机制,它使得模型能够更好地理解输入的不同元素之间的关系。的技术本质是贝叶斯定理“逆概率”的运用。贝叶斯定理的数学表达式为:()()()(),如果把生成的句子看作,已知的语言模式看作,那么 可以通过贝叶斯定理计算出(),由此确定生成的句子是否合理。类似地,在对话系统中,如果把回答看作,已知的问题和信息看作,那么 可以通过贝叶斯定理计算出(),从而确定回答的概率。由此可见,既无法理解自身行为的意义,更缺乏对伦理与规范的理解,因此该类模型才更加需要受到约束。生成过程 通过用户输入与内容输出的对话方式产生内容。训练和优化的数据集来源于开发者提供的初始数据集、用户本人与机器交互的数据以及其他用户与机器交互的数据。在数据收集和训练、生成内容以及再收集和输出过程中不断优化训练。是基于生成算法、芯片算力和训练数据合力的结果,三者缺一不可。依赖于海量文本数据的数据中心主义式的生成过程成为诱发风险的重要因素。以数据为基础的训练具有极强的个性定制能力,所以在创建高度适应每个用户特定需求和便好的模型之余可能形成“信息茧房”。另外,正是对底层大数据充分有效地训练,语言模型的逻辑性和有效性才得以实现。这也就意味着,在一定程度上对于数据的垄断和控制就拥有了确定“个人偏好标准”的权力。尤其是在包含价值判断的应用场景中,数据控制者可能会主导某些价值的实践应用。由于数据的收集和处理均包含人类的交互过程,数据错误或者数据畸形等数据质量问题也难以避免。(二)生成式人工智能与搜索引擎的比较 与传统搜索引擎均能满足用户的检索需求,也即通过提问获取相应的知识性内容。实际上,二者仍然存在本质区别,在人工智能技术尚未完全成熟的未来也无法完全实现功能替代。具体而言,其一,底层技术模型不同。属于生成式人工智能,它具备自主生成内容的能力,但是搜索引擎属于检索式模型,仅对互联网资源提供检索服务。其二,用户选择空间存在程度差异。直接为用户提供答案,并不为用户提供选择答案的空间,实际上限制了其他观点影响用户的可能性;搜索引擎则会提供检索结果的列表,虽然该检索结果可能经过算法推荐或者其他算法排序技术的处理,但是仍然需要用户逐一识别、选取和综合。其三,内容来源的标识程度不同。不直接提供输出内容的来源,但是搜索引擎的检索结果均会有直接或者间接的来源标识,比如网址、图片或者文档的名称、水印等。总之,与传统搜索引擎存在本质区别,并非其升级版本,此种差异也决定了无法使用搜索引擎的规制策略来()表示 发生的概率,()表示 发生的概率,()表示已知 发生的情况下 的概率,()表示已知 发生的情况下 的概率。张夏恒:的逻辑解构、影响研判及政策建议,新疆师范大学学报(哲学社会科学版)年第 期。第 卷谭佐财:的法律风险与治理路径解决生成式人工智能所面临的法律困境。二 应用的法律风险及成因(一)隐私与数据安全风险 为 提供了大约 亿个从互联网上系统收集的单词,包括书籍、文章、网站和帖子等,其中也包含未经信息主体同意获取的个人信息。而且,数据可能在被输入数据库后通过其他方式被输出,数据安全风险明显增大。首先,使用输入和输出的内容来提供和维护服务,形成数据泄漏风险。的“使用条款”第()条载明:“可能会根据需要使用内容来提供和维护服务。”第()条为用户提供了拒绝使用数据的方式,但是形成了以默示同意为原则、以拒绝同意为例外的数据提供模式。在“隐私政策”中明确 会使用跟踪技术来收集有关用户在一段时间内以及在用户使用本网站后跨不同网站的浏览活动信息,并且不响应“请勿跟踪”()信号,这意味着 否认了特定情形下用户的拒绝权。其次,收集用户的不同类型数据造成识别用户身份的风险。基于 的学习训练特征以及对服务的改进,的“隐私政策”中载明:“我们从您使用服务中自动收集到的个人信息:当您访问、使用服务并与之互动时,我们可能会收到有关您的访问、使用或互动的某些信息。”这些信息主要包括日志数据、使用数据、设备信息、在线跟踪信号。尽管收集的信息都是技术信息,但是综合这些技术信息实际上已经触及用户的隐私或者敏感信息。例如,收集使用数据中的“查看或参与的内容类型”、日志数据中的“互联网协议地址”以及设备信息等信息不仅可能识别用户身份,而且可能对私人生活空间造成威胁。最后,用户与 的互动数据会进入 的语料库。当前的 技术已经能够通过读取网页链接的方式识别图像、音频、视频等文本之外的内容。基于对生成式人工智能的高度信任,用户可能会自觉或者不自觉地将隐私信息、商业秘密或者涉及知识产权保护的内容上传至。例如,程序员要求检查代码、公司职员指令起草标书,律师指示审查合同,等等。当我们对生成式人工智能发出指令时,实际上系统已经将互动内容存储下来并纳入机器自动学习训练集用 于 进 一 步 培 训 机 器。经 过 训 练 之 后 的 输出的内容并不具有特定指向性,而是具备公共开放性。也就是说,当其他用户提示相关内容时,生成式人工智能可能会相应地提供数据用户之前所提供的信息内容,由此可能发生隐私泄漏、形成数据安全风险。(二)知识产权的保护困境知识产权面临被侵害的风险运 用 开 展 如 下 测 试:依 次 让 将百年孤独的第一段话翻译成中文,第二段话翻译成中文它依次出现了英文原文和中文翻译。但是当用户提示“你认为你刚刚的行为侵犯版权了吗?”时,它会辩解是对作品的正当引用,当再以同样方式要求其提供类似内容时,它就会拒绝请求。由此可见,即使是作为目前最先进的生成式人工智能,仍然具有侵害知识产权的潜在风险,不过其优势在于它能主动学习用户提供的信息,并且迅速应用于语言模型。知识产权侵害风险主要表现为两个方面:一是 输出内容时可能会以不提供原始来源的方式引用受法律保护的作品;二是在用户使用过程中输入自己作品时可能会被自动纳入大型语言模型的训练集,聊天机器人可能会将其提供给其他人,而不被承认为是原始来源。生成内容的确权困境传统人工智能生成内容是否受著作权法保护是人工智能治理领域的一项争议议题,输出的内容面临的版权争议会更加突出。首先应当将那些即使是由人类生成的内容也不受著作权保护的情形排除在讨论之列,真正具有讨论意义的是,倘若由人类创作相同内容便可能获得著作权保护的部分。首先,生成内容可能具备作品的独创性特征。如果仅仅因人工智能而非人类创作这种主体性差别否定人工智能生成内容的独创性可 ,“:”,():湖南科技大学学报(社会科学版)年第 期能会陷入无限的逻辑循环。高级别的人工智能并非简单的复制工具,相反地,它经过深度学习能够输出有别于来源资料的内容。由机器使用预先存储的数据生成的内容未必就不满足原创性要件,原因在于,即使每一项素材都是他人的内容,但是经过不同逻辑的组合完全可能输出符合原创性标准的内容。传统人工智能与生成式人工智能的独创性特征存在差异。前者学习过程就是确定规律的过程,以相同材料运用相同策略处理形成的结果具有高度的可重复性,因此输入内容并不符合独创性要求。但是,以 为代表的生成式人工智能却不相同。运用 做以内容创作为主要内容的测试可以发现:不同用户输入相同的指令,会输出不同内容;同一用户在不同时间输入相同指令,仍然会输出不同内容。就此而言,输出的内容至少具有作品的独创性特征。其次,生成内容即便符合独创性标准,仍然会面临主体确权问题。年美国计算机科学家 开发的人工智能系统 自动生成一幅画作,年 向美国版权局申请注册该作品,并将 列为该作品的作者,政府拒绝了该申请,理由是缺乏人类作者的身份。如果人工智能无法对其独立生成且符合独创性标准的作品享有版权保护,而由创制机器的主体享有著作权(参照职务作品或者雇佣作品的规定),导致的结果是人类可能欺诈性地将人工智能创造性的努力归功于自己,这会使得版权保护的真正目的落空。有论者提出由用户享有著作 权,此 种 见 解 又 会 陷 入 另 一 悖 论:就 的工具属性而言,用户对输出的控制是有限 的,在 某 种 程 度 上,输 出 行 为 更 多 地 由 的创建者控制,而不是由发起输入的用户控制。传统人工智能输出内容具有有限的人类智力贡献,但是智能语言模型则可能面临人类智力贡献的缺失。若如此,那么由人工智能的所有者享有知识产权的