日光之下并无新事之，没想到本小透明也有机会见识行业的一个周期。2017年，当时一波深度学习的浪潮已接近尾声，我加入了北京一家互联网公司的“语义理解”组，开启了NLP行业的打酱油工作。时至今日，我做过2B也做过2C，分析过百万千万用户行为，直面过客户霸霸，标过数据写过需求文档画过原型图，也拖垮过数据库写过内存泄漏，总而言之除了炼丹几乎没有我没有接触过的岗位。（2023了，还有炼丹这个说法吗？）巧合的是，在ChatGPT横空出世两天前，我入职了一家新公司，最近马上入职一周年，回想起来这一年绝大部分时间GPT老师都在头顶阴魂不散，这两天OpenAI的drama又不断发酵，我感到十分有必要写一写这几年的一些见闻，也算是总结一下所谓职业生涯的第一阶段。

人工智能表演艺术家

2017年10月，阿里达摩院成立，号称要做基础研究。彼时老板吃饭时说笑：本行业有种人，叫做“人工智能表演艺术家”，比如我，只负责动动嘴皮子，真正干活的是你们。（disclaimer: not that 达摩院 is only 人工智能表演艺术家）当时只当是说笑，但近一年对这句话有了极其深刻的体会。因为在学校里都是跟研究人员打交道，在之前五六年的工作中都是跟研发打交道，以至于创造了一个bubble，默认很多规矩大家都懂不必多说，直到近一年被ChatGPT引发的PR海啸，叠加非科技行业出身的业务需求方的重捶，给我拍死在舒适区。一句话总结下来：

商业世界里只有极少数人能理解系统运行的原理，绝大部分人完全依赖于人工智能表演艺术家来想象这个系统。

然而，所谓科技行业一个常见的操作是，前者给后者当乙方，无论是前者做出来的2B产品以后者作为目标客户，还是公司内部后者作为前者的需求方。于是，人工智能表演艺术家就有了存在的意义：作为前者的代表直接服务于后者，也作为中间的缓冲层，调节二者的矛盾。

在“传统机器学习”的范畴里，问题是容易解决的，因为所谓模型大体都是数学公式，可解释性是确定的，无非就是如何讲的更通俗易懂，努努力是可以掰扯清楚的。后来有了深度学习，可解释性变差了，麻烦也大部分都转移到了数据规则的制定，但“大力出奇迹”具有普适性，复杂度倒也可以接受。直到所谓生成式人工智能的出现，特别是GPT3.5披着ChatGPT的皮进入寻常百姓家之后，突然涌现（pun intended）了大批不合格的人工智能表演艺术家，靠一些玩具式的demo“骗”到了绝大多数不理解系统的非AI领域从业者，甚至搞出AI威胁论，这就扯淡了。

示例演示 vs 概念验证 vs 大规模生产

曾经打酱油一段时间数据工程的酱油，彼时的老板曾教导，数据相关的工作，一个重要的衡量指标是数据量大小，处理1G数据和处理1T数据是完全不同的思路。类似的，“智能”相关的项目，做proof of concept概念验证和上线生产环境是两码事，生产环境有十万数据和有千万数据更是不能相提并论。简单来讲，概念验证阶段验证的都是头部场景，只要方案稍加设计一般都不会有大问题，或者永远可以说，上线之后继续调优。日活几千的时候，每天的日志一个运营人力加加油都能人工处理完，发布可以随时无脑梭哈，做好备份有问题随时回滚就行，只要不是交易系统一般也没啥太大影响。日活千万甚至过亿的时候，任何一个小改动都要盯紧指标，灰度发布A/B测试统统安排上，稍有不慎就得记一个事故。至于示例演示，come on那也就发布会showcase吸引眼球专用罢了，能说明什么问题？

然而，在不合格的人工智能表演艺术家及其拥趸那里，这些区别是不存在的，只要有一个演示就代表一切就绪可以上无脑上生产。劝是劝不动的，要么随他意无脑上，风险自己担，要么还是换个合作方罢。只怕事要干锅还要背，就有苦说不出了。

规则 vs 模型

当年深度学习刚兴起的时候，一众创业公司炼丹炼的热火朝天，一看数据只想灵魂拷问：这些玩意儿写个规则分分钟完事准确率还高，何苦？刚入行的年轻人，面对眼花缭乱的新模型，个个都想试，试完都觉得自己可以改变世界。只可惜在老司机的淫威之下，没办法被按头要求写规则，写很多很多的规则。直到年轻人后来也成了老司机，终于明白，模型算什么东西，还是规则最香。冷启动的时候，接到新业务需求的时候，没有历史数据，训练数据从何谈起？上线之后出问题了，有足够的时间可以等模型重新训练好吗，会不会为了修一个bug写出另外十个bug？被业务方拷问，为什么我同样的输入得到了不同的输出，又或者为什么我同样的输入得到了同样的输出，怎么回答？不是有廿年经验的老司机哪能想到这些事。

到了生成式的年代，问题更多了。怎么确保LLM只生成某个垂直领域的答案？怎么确保答案的一致性？没有被灵魂拷问过的算法研究员不是好正则表达式工程师。

模型 vs 工程 vs 产品

机器学习领域一个经典的数字是，在一个机器学习项目中，模型本身的工作量占比仅为30%。不过要我说，一个上点规模的项目，实际占比可能10%不到。算法侧，更多的时间花在数据预处理和模型评测，再加上效果回收和数据迭代。但更重要的，是围绕着算法进行的各种工程投入，包括不限于所谓模型运维，以及软件工程方面的各种基础服务。算法有问题，只是效果问题，但工程一旦出问题，是生死问题。一个典型的场景是，一个产品接入了多种算法服务，那么流量如何路由，服务之间如何调度，服务故障时如何降级，服务稳定性数据一致性如何保障，等等，都不是单单几个模型可以解决的问题。

同样的，到了生成式的年代，还多出来一些特有的问题。是用RAG还是微调，是调三方API还是自己部署，是用通用大模型，还是专有小模型，数据如何存储，性能问题怎么办，流式输出怎么重新设计产品界面，是基于已有功能做优化，还是干脆推倒重来，数据协议怎么更新，数据脱敏怎么做，提示词怎么做版本管理，效果怎么评测，等等。这个列表能无限延展下去，随便哪个问题都不是随随便便有答案。老板一时兴起要搞GPT，哪管做起来纯纯火葬场。

All in All

提到很多曾经，主要还是想表达一个“日光之下并无新事”。多少大模型项目搞来搞去，兜兜转转还是回到经典系统设计上。科技的发展是很快的，自然语言处理这个领域说是日新月异已经算是低估，但PR之外，这些新科技到底能解决什么问题，值得多大程度投入，才是普通从业者最该思考的。

以上。

人工智能表演艺术家#

示例演示 vs 概念验证 vs 大规模生产#

规则 vs 模型#

模型 vs 工程 vs 产品#

All in All#

人工智能表演艺术家

示例演示 vs 概念验证 vs 大规模生产

规则 vs 模型

模型 vs 工程 vs 产品

All in All