Thread Reader
Steam & Magic

Steam & Magic
@xuwenhao

Jan 26, 2023
16 tweets
Twitter

话说过去一段时间,我的技术焦点一下子转移到LLM以及AIGC上来了。如果用更“时髦”一点的说法,就是到AGI也就是“通用人工智能”上来了。花了点时间试了一遍OpenAI Cookbook,虽然还没有时间过一遍相关的论文,但是也看了一些相关的Survey。说实话ChatGPT让人很兴奋,所以也想推演一下接下来会发生什么。

目前看下来,LLM或者说ChatGPT让人感到AGI有希望的原因在于,它既有大量的“知识”,也有“推理能力”。并且更进一步的,能够把“知识”和“推理能力”结合起来,真的能够替代人完成一些工作,比如写代码,这个还是非常震撼的。 比如现在,简单的Bash脚本现在我都是让AI来写了,自己简单做一下Review就好了。
大部分玩了玩ChatGPT的人可能没有尝试过解锁这个推理能力。通过对外部数据分成chunks并且生成embedding,然后通过简单的cosine相似度拿到Top K的相关内容,最后让模型进行Completion,就可以利用这个推理能力,对目前模型没有覆盖的数据一样提供AI问答的能力,在目前看到的几个demo都算效果出众。
目前类似于 AI 读论文进行归纳总结的应用应该用的都是类似的方法。 这个能力一下子和几年以前所谓的“聊天机器人”提供的扯淡闲聊功能已经完全不一样了。之前的聊天机器人,稍微用两下你的感觉就是个随机性+文本检索的能力,而不是什么“人工智能”。
我个人的判断是,这是和PC,互联网,以及移动互联网一样重要的一个范式转变,会有一个10年左右的浪潮。 国内头部的大厂,已经开始组织人力物力开始复现ChatGPT的效果了。但175B的参数除了最头部的大厂之外,其他人都训练不起。即使百度这样的工作,在目前阶段咬咬牙能跟上,往后很可能也跟不上了。
175B参数的模型,意味着即使用float8这样精度的参数,拿Nvidia的V100来做推理(32GB),要5块卡才可以。 A100和H100虽然有80GB显存的版本,但是现在对中国大陆都已经禁运了。 而训练一个20B参数的模型,大概需要100块A100这样量级的显卡。而175B参数的显卡,要上两个数量级,1万块A100/H100。
拿最便宜的40GB的A100,现在大概是1万美元一块。意味着如果你想要搞个20B的模型,比如copilot,先拿100万美金出来。 如果你想要参与大模型的军备竞赛,先拿1亿美金出来买显卡。这还没有算配套的CPU,数据中心的其他设备,电力成本等等。每年不往这个领域里砸上10亿美金,基本上啥新东西也干不了。
另外很重要的一点是,NVidia旗舰线的A100和H100现在对大陆是禁运的。意味着所有国内大厂要么学Tiktok,把一些业务和国内完全分割开,然后在海外建立团队和数据中心,要么就要用次一级的“特供版”H800来玩这个军备竞赛。 不过,NVidia在国内的研发团队规模并不小。也许接下来会再有人开始搞国产TPU。
当然,短期内对于大部分人来说。最简单参与到LLM的办法还是直接用OpenAI给的API来做应用开发。毕竟自己搞100块显卡搞个垂直领域的模型也不是绝大部分人和公司可以承受的。 对这些公司和团队来说,核心竞争力会变成对于领域的理解和领域数据。如果说在有LLM之前领域的理解是优势来源,接下来就会反过来
不过大量应用的涌现,利好搞向量据库的公司。我自己推测Open AI顺便应该给 Pinecone 和 weaviate 带了不少流量。 国内也有milvus这样的公司,过去几年应该也之算得上不温不火。不过当LLM应用门槛大幅下降,场景大幅度增加之后,应该会有很大一波增长机会。 另外一个可能受到正面影响的领域就是RPA了
通过LLM生成指令,让RPA和遗留的老系统集成完成工作应该也会是一个长期的趋势。
应用层一定竞争激烈,而在目前都不得不给模型提供方缴纳“模型税”,毕竟openai只是开放了API和发了一些论文。但是训练完的模型、代码、数据都没有开放出来。而高昂的训练成本使得社区不太可能在短期内复现或者提供开源的版本。毕竟LLM的主要效果来自于模型本身的规模,而不是某一个特别厉害的新想法。
那么,LLM接下来会开源么?还是会成为一个巨头垄断的市场?社区有可能搞出开源的LLM让所有人受益么? 首先,虽然所有人在LLM上都落后Open AI 1-2年的时间,不过这个差距很快会被追赶上。毕竟复现一个模型的挑战比找到并试出正确的方向要容易太多了。而计算机这个领域的社区也一直有非常开放的文化传统
第二个,Meta之前已经开源了175B参数的OPT模型。所以后来者开放模型,特别是效果还略有差距的模型的可能性并不小。 这个,对于能搞个100块A100的公司来说,无论是在预训练好的大模型上做各种微调来解锁各种能力还是训练一个更好的特定垂直领域的模型都是行得通的。
那么最终,LLM会分层出现三种类型的公司。 第一种就是能自己搞个大模型的公司,其实也就是现在的巨头。每年投入到大模型上的研发费用在10亿美元往上。 第二种是能在特定垂直领域训练大模型,或者基于大模型在特定领域微调的公司。每年投入到大模型的研发费用会在1000万美金到1亿美金这个量级。
第三种就是纯粹基于别人的模型或者API进行应用开发的小公司和小团队了。 当然,这个讲的只是模型相关。围绕着大模型的生态,无论是做新一代TPU、分布式训练/推理框架、向量数据库、数据标注、更好的API等等一系列的生态还会诞生很多别的公司。
Missing some tweets in this thread? Or failed to load images or videos? You can try to .