ChatGPT背后的经济账ChatGPT能否取代Google、百度这样的传统搜索引擎?为什么中国不能很快做出ChatGPT?当前,对这些问题的探讨大多囿于大型语言模型(LLM)的技术可行性,忽略或者非常粗糙地估计了实现这些目标背后的经济成本,从而造成对LLM的开发和应用偏离实际的误判。本文作者从经济学切入,详细推导了类ChatGPT模型搜索的成本、训练GPT-3以及绘制LLM成本轨迹的通用框架,为探讨LLM成本结构和其未来发展提供了可贵的参考视角。原文地址https://sunyan.substack.com/p/the-economics-of-large-language-models动机LLM的惊人表现引发了人们的广泛猜想,这些猜想主要包括LLM可能引发的新兴商业模式和对现有模式的影响。搜索是一个有趣的机会,2021年,仅谷歌就从搜索相关的广告中获得了超1000亿美元的收入[1]。ChatGPT(一个使用LLM的聊天机器人,它可以生成高质量的答案,以回答类似于搜索的查询)的“病毒性”传播已经引发了许多关于搜索领域潜在影响的思考,其中一个就是LLM如今的经济可行性:一位声称是谷歌员工的人在HackerNews上表示,要想实施由LLM驱动的搜索,需要先将其成本降低10倍。与此同时,微软预计将在3月份推出LLM版本的Bing[3],而搜索初创公司如You.com已经将该技术嵌入到了他们的产品之中[4]。最近,《纽约时报》报道,谷歌将在今年推出带有聊天机器人功能的搜索引擎[5]。更广泛的问题是:将LLM纳入当前产品和新产品的经济可行性如何?在本文中,我们梳理了当今LLM的成本结构,并分析其未来可能的发展趋势。2重温LLM工作原理尽管后续章节的技术性更强,但这篇文章对机器学习熟悉程度不做要求,即使不熟悉这方面内容的人也可以放心阅读。为了说明LLM的特殊之处,现做一个简要复习。语言模型在给定上下文的情况下,对可能输出的token作出预测:获取更多最新资料请加微信:chensasa666自回归语言模型(AutoregressiveLanguageModel)输入上下文和输出内容的图示(在实践中,token通常是子词:即“happy”可能被分解为两个token,例如“hap”、“-py”)为了生成文本,语言模型根据输出token的概率重复采样新token。例如,在像ChatGPT这样的服务中,模型从一个初始prompt开始,该prompt将用户的查询作为上下文,并生成token来构建响应(response)。新token生成后,会被附加到上下文窗口以提示下一次迭代。语言模型已经存在了几十年。当下LLM性能的背后是数十亿参数的高效深度神经网络(DNN)驱动。参数是用于训练和预测的矩阵权...