How I Uses LLMs

刷完了Andrej Karpathy这个How I use LLMs视频，学到了一些小技巧，融合我自己的理解，和最近使用各位LLM老师的心路历程，是以为记。

关注不同模型的特点。人工智障这两年进展迅猛，但各家的技术策略并不一样，导致不同模型擅长的技能并不相同，所以需要根据任务类型来选择合适的模型。AK的意思是，ChatGPT是很好的默认选项，说得不错，但我认为还是要看自己最高频使用的场景，然后将默认模型设置为那个场景最好用的模型。另外是选择官方网页版还是调用API也是个问题，我的观点是官方>>>>>>>>套壳。
- ChatGPT应用免费版：能力均衡，如果没有特别的需要，可以作为默认选项，大部分情况已经很够用，并且在“免费、没有额度限制、回复快”这个不可能三角里没有一个能打
- ChatGPT应用Plus: 最有用的是advanced voice mode，其他feature聊胜于无，不过如果喜欢在一个应用完成文字、图片和视频生成的话，好像也没有更好的选择了
- ChatGPT应用Pro: 没用过，也不觉得一般人有尝试的必要，跳过
- Claude: Sonnet系列在编程领域无人能敌，但出了编程Claude家的模型好像就没有什么存在感了，我自己喜欢把报错信息贴到官方应用来debug，办公电脑限制没办法用来生成工作用代码，自己玩的项目为了跨平台编辑和部署的方便我选择Replit
- Replit: 很少见的我可以吹爆的产品，已经成功让好几个朋友上瘾+氪金，因为是多端同步的云端IDE和一键部署，并且集成了各种常用的组件，比如数据库和鉴权，所以可以在电脑或者手机上创建任何网站应用
- Cursor / Cline: 在写代码方面，如果不是写网页应用，更好的选择还是更“专业”的应用，毕竟Replit的核心目标用户群并不是程序员
- Google AI Studio + Gemini: 主打原生多模态和长上下文，有此类需求的可选，能力上中规中矩，属于起了个大早赶了个晚集又弯道超车，可以说非常谷歌，早年经常触发风控，现在好像不太碰到了，记住要通过Google AI Studio来使用，Gemini APP就是个废物
- Perplexity: 套壳之王，通用搜索场景无人能敌，在我常用的搜索场景下，结果质量与Gemini 2.0 Flash大体相当，但在我也说不上来的细节处理方面更胜一筹，坐等Gemini 2.0 Pro正式发布之后再测看看
- Grok: 后起之秀，最大的特点是什么都能干，别家答不上的不给说的，它都可以，写小黄文的不二之选
单独说一下套壳。
- 首先，如果不考虑GFW或者其他原因导致无法访问官方应用，套壳一般来讲没什么必要，因为套不好。如果需要切换模型，切换官方应用也能基本满足需求
- 其次，在尝试过所有常见的套壳应用之后，一个能用超过两天的都没有，因为都太“丑”了。要么过于花里胡哨，要么功能过于复杂，要么被公司防火墙拦截了（？总之就是官方大法好
- 但！就在看完AK视频之后，我又试了一个Raycast AI，已经高频使用好几天，并决定付费了。因为
  1. 界面非常简单，该有的都有，可以没有的都没有，可以有可以没有的视觉上都弱化了
  2. 快捷键是Raycast的看家本领，AI相关的功能无缝融入，过于好用
  3. 接入了Perplexity API，可以每月8块钱享受到官方20块才有的用量，夺好呐
  4. 模型不够用了还能再加钱，再加8块即可用上几乎所有的主流模型，16块还是没超过20块，定价十分良心。如果说有什么不好的，想成为affiliate还得注册wise，wise开户必须先充30块？可能我没搞明白规则，但没关系，世上无难事只要肯放弃
- 这两天Raycast AI高频的使用场景：
  - 浏览器看内容，边看边用它查相关的概念，解释没看懂的地方，切换应用比切换浏览器tab还是舒服一些
  - 同一个问题切换模型来回答，测试哪个最好用，结论是搜索场景维持原判，perplexity YYDS
谨慎按需使用各种“高级功能”。当前常见的外挂有：联网、文件上传、推理（“思考”）、深度研究
- 联网：我一直有个暴论，AI通用搜索是个伪命题，模型的能力才是问答场景的核心竞争力。非常建议常常比较联网和不联网两种情况下回答的质量，如果不是时效性很高的新闻，我的体感是很多情况下差别不大，如果对时效性有要求，可能Grok是唯一合适的模型，因为可以实时采集到X数据
- 文件上传：企业场景是刚需，而且很难做好，但个人使用没想到什么高频场景
- 推理（“思考”）：还没有探索出来什么时候是必选项，体感是如果快就把它设置成默认开启，如果慢就算了，为了一个答案等那么久，搜索熟练工表示大可不必，除非是不熟悉的领域
- 深度研究：本人辣评是，花拳绣腿，看上去好像很厉害，但你也不知道它是不是在胡言乱语，最有用的是捞出来的链接，但这样为什么不直接谷歌呢？
场景场景场景，体感体感体感。少看榜单数据，多自己体验，毕竟基座模型不管怎么进化都有做不好的地方，以后咱的核心技能就是知道怎么调教人工智障，而这个技能的习得唯有靠大量消耗token和多多反思如何能调教的更好。今年给自己立下了SaaS产品订阅和模型token消耗的flag，过段时间来看有没有新的心得

附Andrej Karpathy原视频时间戳

00:00:00 Intro into the growing LLM ecosystem
00:02:54 ChatGPT interaction under the hood
00:13:12 Basic LLM interactions examples
00:18:03 Be aware of the model you’re using, pricing tiers
00:22:54 Thinking models and when to use them
00:31:00 Tool use: internet search
00:42:04 Tool use: deep research
00:50:57 File uploads, adding documents to context
00:59:00 Tool use: python interpreter, messiness of the ecosystem
01:04:35 ChatGPT Advanced Data Analysis, figures, plots
01:09:00 Claude Artifacts, apps, diagrams
01:14:02 Cursor: Composer, writing code
01:22:28 Audio (Speech) Input/Output
01:27:37 Advanced Voice Mode aka true audio inside the model
01:37:09 NotebookLM, podcast generation
01:40:20 Image input, OCR
01:47:02 Image output, DALL-E, Ideogram, etc.
01:49:14 Video input, point and talk on app
01:52:23 Video output, Sora, Veo 2, etc etc.
01:53:29 ChatGPT memory, custom instructions
01:58:38 Custom GPTs
02:06:30 Summary