本期内容来自这期播客节目,非常值得听。
pc收听地址:
https://www.xiaoyuzhoufm.com/episode/648ffa1886eb9d7e47b43fd0
【嘉宾】季逸超Peak Magi创始人、真格基金EIR
【时间轴】
02:15 有限制的舞台给了创业者更多机会
05:14 不属于你,但与你共生的数据是真正的壁垒
09:29 别把解决了最显眼的技术瓶颈当做自己唯一的护城河
11:20 不仅是技术,行业、规模、利益分配都是历史包袱
12:27 合规是一个动态的问题,审核一定要与核心解耦
22:54 向量数据库无法让模型突破自身的上下文限制
26:36 懂 AI 的产品经理是稀缺资源
31:13 真正的多模态模型还未到来
32:54 RLHF 是手段而不是目的,其本身复杂且不稳定
36:25 大量AI创新将诞生在看不⻅的地方
37:54 AI 人才面临价值危机
40:06 前所未有的技术平权,是一个新的开始
金句提炼(TLDR)来自推友@GPTDAOCN
• 在 128MB 的内存和缓慢的 3G ⽹速⾯前,创业者与巨头是平等的;
• 今天 AI 领域的本地之于云端,就像 15 年前 App 领域的⼿机之于 PC;
• To C 可以关注 on-device(本地运行), To B 可以关注 on-premise(私有化部署);
• 隐私、合规、成本,以及信创指标都可以作为 leverage(杠杆)。共⽣的数据是 AI 产品的壁垒
• Openly accessible 的数据不值⼀提, curated 的数据也不再安全;• 不属于你,但与你共⽣的数据是真正的壁垒;
• 虽然 in-context learning 就能解决,但 fine-tune 是⼀种共建策略;
• 企业场景的数据汇聚于协同⼯具,个⼈场景的数据汇聚于终端设备。当前的 Limitations 预⾔着下⼀个 Innovation Trigger
• 预测 the next big thing 是什么很难,但预测它会解决什么问题却相对简单;
• 专家对未来的预测有惯性,但眼前的 limiations 是有共性的;
• 回头看从 Word2Vec 到 LLM,共性的 limitations ⼀直在引导变⾰;
• 别把解决了最显眼的 limitation 当做⾃⼰唯⼀的护城河!三年内的是经验,剩下的是历史包袱
• AI 的发展在产品层⾯上创造新的可能性,但技术层⾯上是替换既有的实践;
• 底层技术有⼀定延续性,但 AI 创业是 80% 的产品⼯程 + 20% 的底层技术;
• 不仅是技术,⾏业、规模、利益分配都是历史包袱;
• 年轻⼈和新公司的灵活性在任何时候都是优势。监管与合规是可利⽤的竞争维度
• 只要监管是⼀视同仁的,就没什么好抱怨的;
• 合规是⼀个动态的问题, moderation(审查) ⼀定要与核⼼解耦;
• 主导报备、坦诚沟通、积极响应,然后去做别⼈不敢做的事。⼩天才变成技术派是个危险信号
• 从⼩天才熬成技术派,正在做操盘⼿,快要当⽼司机;
• 创业后⼩天才变成技术派是⼀种 zoomability 的丧失;
• ⼩天才可能不是主动变成技术派的,⽽是没得选。观察Low-hanging Fruits 在迅速耗尽
• 超过 65% 的场景可归纳为信息检索、汇总、再⽣成;
• 约 20% 的需求是流程⾃动化和决策辅助相关;
• 主流⼚家的⽅案同质化严重,已经进⼊价格战。LLM 没有解决 AI 落地难与复制难的问题
• LLM 确实加速了落地,可能是因为短期的反向筛选;
• ⽣成式 AI 的随机性限制了落地场景,且优化周期⻓;
• LLM 统⼀了 NLP 的范式,但⽆法统⼀解决⽅案;
• ChatGPT 把⽤户的期望拔到了最⾼。热潮过后⽐的是运营兜底能⼒
• ⽬前 LLM 的准确度与过往产品化的 AI ⽐是偏低的,惊艳但不可靠;
• 运营反馈机制的建⽴也是⼀种与客户数据共⽣的途径;
• 现场运营能⼒是 LLM ops 可以发⼒的⼀个⽅向;
• 未来运营能⼒可能以 online learning 的形式融合进 LLM 本身。先⾏者已经陷⼊ Premature Optimization
• 在⼯程中的 “临时⽅案” ⼀般会伴随产品的终身;
• 本次浪潮会在多轮技术创新的刺激下持续较久,新的团队总有后发优势。创业者⽆需过度关注模型本身
• 各种 benchmark 和 evaluation 是⾮常局限的,与具体业务相差甚远;
• 在产品规划时默认⾃⼰可以 access 已知最好的模型;
• LLM 是⼀种⾮常标准化的产品,输⼊输出形式决定了其易于被替换;
• 做好抽象层,建⽴⾃⼰的 baseline,频繁尝试,快速迭代。低代码 LLM 平台⽬前是个伪需求
• AirTable:标准 -> 繁琐 -> 标准;LLM:标准 -> 简明 -> ⾮标准;
• 对开发者来说低代码 LLM 平台解决的问题很少,反⽽限制发挥;
• 在未来 LLM 产品套路更清晰后可能低代码会有⽤,但现在还早。向量数据库不是 Long-term Memory
• 向量数据库⽆法让模型突破⾃身的 context limit;
• Embedding 并不是直接输⼊ LLM,⽽只是⽤于召回相关⽂本;
• 纯向量化召回在多项 BEIR benchmark 上甚⾄不如 BM25;
• 在⽂本场景下没有不可替代性,但多模态是个机会。Embedding 模型和⽂档模型被低估
• Embedding 模型是 GPT 之外的⼀个单独的 encoder 模型;
• 开源的 embedding 模型较 OpenAI 和 Cohere 的专有模型差距较⼤;
• 正确地处理 PDF ⽂档并从中获取信息⽐想象中的复杂;
• Embedding 与⽂档模型的应⽤场景远不⽌ LLM。懂 AI 的产品经理是稀缺资源
• ⽣成式 AI 产品从不确定性、响应速度、服务成本等⻆度都与此前⼤不相同;
• 任何产品都必须考虑如何应对 AI 的冲击。不要⽤技术热点指导创投,尤其是现在
• 顺着技术发展的脉络做产品很容易跑到⼤公司的航道上然后被卷死;
• 此刻接收到的信息和看到的热点很多是妥协后的结果;
……
来源:https://mp.weixin.qq.com/s/RupJu4jdrutnp-ekTImp-Q
本文地址:https://www.163264.com/4318