分享
基于大型语言模型的工具对电池研究的机遇与挑战_吴思远.pdf
下载文档

ID:2373059

大小:1.73MB

页数:6页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 大型 语言 模型 工具 电池 研究 机遇 挑战 吴思远
第 12 卷 第 3 期2023 年 3 月Vol.12 No.3Mar.2023储能科学与技术Energy Storage Science and Technology基于大型语言模型的工具对电池研究的机遇与挑战吴思远,王雪龙,肖睿娟,李泓(中国科学院物理研究所,北京 100190)摘要:近期,ChatGPT和GPT-3等大型自然语言模型的出现在学术界引发巨大热议;此外,Nature出版集团指出可以使用ChatGPT辅助文章撰写,这表明人工智能特别是自然语言处理将在学术文献领域引起巨大改变。对于电池领域来说,目前这些工具在电池以及储能领域有什么作用,它们在电池领域存在哪些问题以及如何改进这些问题尚未有文章讨论。本文在文献自动化整理与模型试用的基础上归纳了电池领域开展信息自动整理归类的问题与挑战、面对大型语言模型电池领域特别是储能从业人员如何面对以及学习,强调由于一些术语未按照标准化书写导致电池领域获取高质量数据集存在较大阻碍,这些将限制着电池研究中引入大型语言模型技术的发展。关键词:电池;自然语言处理;自动化doi:10.19799/ki.2095-4239.2023.0071 中图分类号:O6-39 文献标志码:文章编号:2095-4239(2023)03-992-06Problem and perspective for battery researcher based on large language modelWU Siyuan,WANG Xuelong,XIAO Ruijuan,LI Hong(Institute of Physics,Chinese Academy of Sciences,Beijing 100190,China)Abstract:The Natural Language Process(NLP)models such as ChatGPT and GPT-3 have been discussed recently in academia and the Nature Publishing Group allows the authors to use ChatGPT to assist academic research.This means machine learning especially NLP has been integrated into the academia and will change the research paradigm.It exists opportunity and challenge for the battery researchers especially in replacing monotonous repetitive work.What can the researchers do for batteries,how to construct and use it to assist battery researching and the problem existing in it have not been discussed in details.Based on it,we write this perspective to explain above questions especially the following:The problems existing in NLP models;What can the battery practitioners do to meet these opportunities and challenges;and How to learn the basic knowledge and construct battery model.All discussions are based on our recent works and the use of models and we hope it will offer initial guidance for battery researchers.Keywords:battery;natural language process;automation近期,大型自然语言模型的出现在学术界引发了广泛的讨论,这些模型如Facebook的GPT-31和OpenAI的ChatGPT2能够做到问答和自动生成一些综述型论文。特别地,Nature出版社明确表明储能科普收稿日期:2023-02-14。基金项目:中国科学院信息化专项(CAS-WX2021SF-0102)。第一作者:吴思远(1996),男,博士研究生,研究方向为固态电解质机理及计算,E-mail:;通讯作者:李泓,研究员,研究方向为固态电池,E-mail:。第 3 期吴思远等:基于大型语言模型的工具对电池研究的机遇与挑战不可以把ChatGPT列入作者但是需要在方法或者致谢处指出使用的模型3,这表明大型模型可能在学术研究领域引起巨大改变和推动作用。对于一项新兴的技术,Nature的担心是必要且谨慎的。一方面大型语言模型可以在极短的时间内生成一篇论文并投稿,这不仅仅对出版社的工作带来全新的挑战,同时带来的变化是与科研人员竞争的不仅仅是同行业科研人员,还有这种大型语言模型;另一方面,目前的语言模型存在着一些不精准的内容,这些内容会影响到知识的传播。考虑到ChatGPT 等是基于已有的网络文本、维基百科、文献以及论坛等网络开放内容生成,其最大的作用应该还是在已经有的内容上整理总结,对于创新的工作特别是基础科学,尚未有较大的影响。这种大型语言模型可能取代的工作及前景如图1所示。这种大规模语言模型主要分为四个领域的应用:问答、整理、校正与归纳。目前这种大型语言模型使用最多的还是类似于一问一答的形式,你问一句,它答一句,相当于一部浓缩了互联网的百科全书;此外,在问答过程中,你也可以让它帮忙收集整理知识,甚至协助我们撰写综述;除此之外,如果有一些错误的地方,它也可以根据网络上大部分的默认为“正确”的内容予以修正;最后,如果它收集足够多的知识将其整理成一个知识网络,就有可能实现“强人工智能”,自己收集整理知识。大型语言模型的出现标志着技术的革新和部分行业的更迭,这需要引起储能特别是电池从业者的重视:我们应该如何面对这种新型技术,这些技术的原理是什么,目前存在的问题和挑战又是什么,如何更好地利用这些工具等等这些问题都没有讨论。本文总结了过去半年的自然语言模型构建和使用的经验,以期待储能特别是电池领域能更好地使用和构建自然语言模型。1 人工智能与自然语言处理1.1人工智能简介尽管人工智能是近年来出现的新名词,但实际上古代勤劳的中国人民已经在广泛使用大数据和人工智能指导农业和交通。“朝霞不出门,晚霞行千里”,短短的十个字就囊括了光折射与人、太阳与云层相对位置的关系。虽然古代人们没有发展出完善的大气和物理知识,但是通过对大量日常观察数据的总结,归纳出一系列经验和规律,这体现了大数据的本质。二十四节气的出现也标志着古代科学运用大数据的辉煌成就。比如春分是指太阳直射赤道,全球昼夜等分。虽然说古人没有系统的地理知识,但是通过日积月累得出3月21日附近昼夜等分,过了春分逐渐白昼变长,这种通过大量经验的整理归纳出事物之间的关联性也体现出大数据的本质,而这些关联本质上是客观规律的反映。图2是在北京古观象台拍摄的照片,它们反映了古代劳动人民利用大数据整理的关于时间和日月年的理解,这些早期利用大数据的事件,也一直影响至今。人工智能与上述唯一的差别在于是否由机器整理。随着数据量的增加,数据之间关联性也越来越图1大型语言模型潜在应用Fig.1The applications of large language model图2古代劳动人民总结的时间与日月年的概念(2021年4月3日摄于北京古观象台)Fig.2The concepts of time,day,mouth and year concluded by the ancient Chinese people(The pictures were photographed in the Beijing Ancient Observatory on April 3,2021)9932023 年第 12 卷储能科学与技术复杂,仅仅依靠人力整理的难度也呈指数上升,计算机的发展为人工智能的发展起到了推进作用。1990年香港电影赌侠中陈刀仔去玩百家乐,侯赛因为了让其输,利用摄像头拍摄了其搓牌画面并分析其可能的点数。我们在图3中复盘了这一过程。可以看出,即使下面大部分被遮住,其最上面露出的部分也各有差异。也就是说,当我们用手搓牌时,会用下面一张牌慢慢下滑逐渐露出下面这张,如图3下半部分所示。通过分析上面的部分可以预测这张牌的点数概率,如同电影所述,55%是2,38%是Q,7%是9。也就是说,侯赛因团队做了一个人工智能模型,给出搓牌的上半部分就能预测下面的点数。此外相信看过的观众也记得一个细节:陈刀仔用牙签挡住了牌使得点数判断错误,这也是Nature等担忧的地方:一些干扰数据会影响模型结果,甚至引导错误结论。1.2自然语言处理基本原理自然语言处理,顾名思义就是处理人类产生的而非计算机的语言。相比于计算机语言,自然语言存在着非结构化、无标准形式的特点。一个最显著的例子是购物网站的机器人回答:当你询问发什么快递时,机器人捕获到关键词“快递”就会回答“发某快递”。这种利用关键词和聚类分析的模型已经广泛地应用到我们生活中的方方面面,其原理也比较简单:抓取关键词来回答,这个也经常会出现一些误判,也就是大家常说的“人工智障”。近期出现的大型语言模型与上述不同,是利用时序关联也就是上下文来预测判断语句,早期的AI写诗也是相同的原理。比如说:李泓的研究领域是_,考虑到叫李泓的人不止一个,无法分辨出后续的内容,如果按照上述的方法会选择热度或者互联网上搜索最多的“李泓”,这种利用聚类的方法是根据两者的关联性分析内容而不考虑语序和上下文,对一些冷门的研究人员不利,也就是会出现马太效应。而如果我将其改成中科院物理所李泓的研究领域是_,这样出来的结果就具有唯一性,也就是模型考虑了上下文并利用上下文限制给出答案。另一个比较显著的例子是朝阳,如果搜索朝阳有两个地方:北京市朝阳区和辽宁省朝阳市。考虑到北京的朝阳在互联网上的信息较多,如果单纯写“朝阳发货吗?”系统可能会默认是北京的朝阳区。如果可以通过一些上下文,比如两个朝阳差异的地方如朝阳国际机场,就可以判断出是哪个朝阳。我们在收集整理电池文献时发现这种现象极为普遍,尤其是涉及到催化、超级电容器等一些相近学科的文献时会特别明显。例如催化领域会涉及到氧还原反应ORR,部分锂氧电池也会有ORR,则单独从ORR反应中无法获知是电催化还是锂氧电池,但是如果从上下文捕获到容量(capacity)等其他特征,则这篇文章大概率是电池类的文献。1.3目前自然语言处理模型存在的问题尽管语言模型似乎给我们带来巨大便利,但是Nature出版社的担心不是多余的,我们在GPT-3未下线前以及ChatGPT上测试“What is the best cathode in battery”时发现GPT-3的回答是金属锂而ChatGPT的回答是二氧化铅。很显然,最好的正极并非锂甚至锂应该作为负极(anode)。出现这种问题的原因也非常简单:大部分电池文章中都会选择使用金属锂做参考负极,当大量使用金属锂做参考负极的正极文章出现时,这些大量的文章提取出的关键词就是“最优的正极是锂”这种结果。这也是Nature担心的原因之一:缺少高质量的数据集会使得模型南辕北辙。考虑到ChatGPT的训练集 源 自 OpenWebText、Wikipedia、ArXiv 及Github等网络开放型内容,其会根据网络中大部分的回答利用聚类等方法进行判断以筛选合适的结果。例如网络上95篇文章中写地球是圆的而5篇文章写地球

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开