有了感兴趣的话题，先找找有没有相关的播客，逐渐成了一种习惯。幸运的是，今年开始关注的data infra这个话题，已经有不少播客谈论过。摘取其中一些，与各位看官分享。今日第一par，必须聊聊（仍然是）该领域的当红炸子鸡Snowflake和Databricks这对“欢喜冤家”。

如果您只是好奇本文提到的播客，请直奔相关播客。注：本文仅包含了Snowflake和Databricks产品相关内容，更全内容请听播客

Snowflake

Summary

在 What’s Next 科技早知道 - #45 股神加持云端独角兽 Snowflake，SaaS 的黄金 10 年来了？ 这一期当中，一位早期（90+号）员工讲述了了他眼中的Snowflake相对其他于云厂商的竞争优势：

对于小公司来讲，能够根据计算的复杂度弹性收费，最后的效果就是更便宜
对于大公司来讲，由于cloud agnostic，能够做到跨云备份，也不需要跟任一云厂商绑定，如果需要的话可以做到低成本的迁移
存算分离，存储和计算可以分别Scale，还可以为不同部门提供单独的计算资源
基于用量的计费模式，用的越多收费越高，net retention 158%是一个比较高的水平，迁移成本高所以不易替换
独特的产品形态，例如早期的数据仓库即服务，后期的data sharing（零拷贝，类似数据领域的远程协同）

以及提到一个fun fact，Snowflake的双重意义：创始人都是滑雪爱好者，以及雪花型数据模型。

这一期还采访了Howie Xu 徐皞，他从投资人的角度讲述了对Snowflake这家公司的看法：

正面看法：

Snowflake的种子投资基金Sutter Hills在硅谷创业人眼里是一家低调但特别优秀的基金，被他们投资是一种荣誉
- Sutter Hills的传统，是帮助几个厉害的工程师共同打造一家公司，投资人即公司CEO，公司起来之后换成有大公司管理经验的CEO，上市之前再换
- Sutter Hills是一家Evergreen常青基金，投资人无需融资，Snowflake的70万投资多数来自投资人自己的钱
同期SaaS公司集中上市，主要因为时机合适，股市特别好，总统大选结果未出暂无震荡
Snowflake的成功与CEO Frank Slootman有关，ServiceNow的CEO加入也是一个强大的signal
Net dollar retention亮眼
2012年，在市场觉得关系型数据库走到尽头，以及对数据上云持怀疑态度的情况下坚持做云上数仓，创始人也没什么名气，但最终建立起护城河
同期亚马逊在Redshift上犯错，使用了比较烂的源代码，团队质量不高
产品技术好、便宜、易用（不懂技术懂商业就能用），“数据仓库里的zoom”
- 用户变化了，产品的易用性变得非常重要
Covid使得对数字化的要求变高了（云、企业软件、网络安全、数据）
- 被逼数字化：教育

负面看法：

至今仍然亏本，股价仍然太贵，虚胖
客户数量几千个，还刚刚起步，市值几十亿美元比较合理
11%的营收来自一个客户（思科），说明公司还非常早期
赛道非常拥挤，还是一个非常小的player
亚马逊花大量力气在修正Redshift的错误，谷歌BigQuery + Looker足够打败Snowflake + Tableau
公司文化是否健康，存疑，例如CEO的更换不讲人味

But，可能的误判原因：

Net dollar retention惊人的出色，说明客户满意度非常高，六七百亿的市值是值得的
Market timing非常好，正好处在数据即服务的爆发期
第一次把data as a service做的特别易用，易用性的佼佼者
人性通常高估一年的估计，但低估指数增长的效应，如果能保持超过100%的增速，前途无量
I don’t know what I don’t know. 外部视角雾里看花，不能完全appreciate

Databricks

Summary

What’s Next 科技早知道 - S6E06 硅谷徐老师｜对话Databricks联合创始人Reynold Xin：380 亿美元估值背后的长期主义 这一期，Howie Xu 徐皞采访了Databricks的联合创始人Reynold Xin。以下是他的观点：

Spark的起源：为Netflix的基于电影评分的推荐系统比赛开发的计算框架（最后算法并列第一但晚交了二十分钟，没有赢到一百万，啊）
早期坚持长期主义的三个大方向
- 只做云，不做on premise：从长期角度来看，云是未来，能做到更快的部署，客户维护成本低，但直到19年才不被新executive，投资人和客户challenge
- 只做data science, data engineering和AI产品，不做data warehouse：data warehouse竞争太激烈，当年不被看好，因为data science还未被广泛接受，后面第一个产品获得得天独厚的优势，市场上没有可以竞争的产品
- 不纯粹做support：2014/2015年Spark小有名气，有比较大的support需求（e.g. 砸一千万支持data center），但坚持做产品和平台
头三年，产品营收远低于Spark峰会营收，一些中间层有问题的决定
- 过于依赖开源：对标错了做很多定制化的cloudera；云厂商直接把开源服务封装成产品，从工程角度要求低，然后以非常低的价格卖出，从价格角度Databricks无法竞争
- 未重视top down的销售：infra产品难以bottom up，越基础越需要上层push
2015/2016左右两个大决定
- 引入top down销售团队
- 产品层面做出竞争壁垒：性能、scalability、安全
  - 对开源产品比别人理解更深，做的更快，有时间壁垒
  - 好的engineer
  - 运维自动化，每天在三大云上run 1200万台虚拟机，几百号工程师编写程序维护，已经是竞争壁垒之一
  - 培养开源社区，带来bottom up sales（但有限），培养人才
Azure Databricks：Databricks开发，微软销售
- 对于Databricks，因为支持直接把客户的微软的budget转到Databricks，不需要那么多销售，利润提高，时间缩短
- 对于微软，一年之间从没有大数据和数据科学产品，完全没有竞争优势，到业界领先，带来营收，是Azure上最成功的服务之一，也带来了计算和存储层面的提高
对未来的展望
- 从纯计算层面，到做存储：2018年客户问题一半与存储有关，诞生第二个大的开源项目delta lake
- 最终决定做data warehouse：绝大多数企业客户的架构是，基于data lake 10%的数据做data warehouse
  - 问题：数据的拷贝、性能（技术问题），不同团队不同权限不同数据，得出不同决策，导致商业团队不相信数据（业务问题）
- 未来的数据架构：统一的数据平台
- SQL很重要，但更复杂的应用需要Python

Fun fact: cloudera = cloud + era，一开始是准备做云，但08/09年经过市场调研，发现云的时代还未到来，于是改做on premise

Snowflake vs Databricks

What’s Next 科技早知道 - Bonus｜Clubhouse 爆火，美股声网起飞，下一个会是谁？

What’s Next 科技早知道 - S5E02 硅谷徐老师｜云数据存储和分析市场千亿美元机会的格局和前景

大数据产品三个应用场景：BI、ETL和data warehouse、机器学习
Databricks本是Snowflake的上游，但二者都开始做对方领域的事情
- Databricks: Delta Lake
- Snowflake: 布局机器学习（投资datarobot）、自建spark服务、ELT
- 长期来看哪种方式更有效，未知
商业模型、收费模式上都是按使用量付费
- 数据增长快过人头增长；已经上云，对这种收费模式很熟悉
- Snowflake将底层云计算的成本隐藏：如果能通过底层优化省更多云的成本利润会更高，但要承担更多风险
- Databricks分别计算：无法通过优化计算效率来提高利润，但不用承担云的成本
- 二者实际盈利可能相当，Databricks毛利高过Snowflake
三种竞争关系
- Snowflake和Databricks和其他竞品之间的竞争
- On premise和cloud之间的的竞争
- Snowflake和Databricks与平台已有服务的竞争
  - 对于云厂商，AWS要考虑跟GCP的竞争，需要先吸引客户上自己的云，所以不会把Snowflake或者Databricks剔除

(Personal taste) What’s Next?

站在现在（2022年10月）来看，Snowflake上述的技术优势是不是保持到了现在，存疑。特别是存算分离这个feature，现在已经有不少数据库产品都能支持，Snowflake的独特之处在哪里？
很好奇Howie Xu如果两年后的现在再录一期节目，有没有改变看法？Snowflake目前仍然亏损，股价~170，市值~540亿
我个人也是信统一数据架构那一挂的，但离大规模使用还有多远？

名词解释

Data Infrastructure 数据基础设施

“大数据”这个概念在中文语境恐怕已经被说烂了，但在技术领域，it is a real thing。所谓Data Infrastructure，或者Data Infra，指的是与大数据应用有关的一系列技术基础设施，包括不限于数据获取、存储、加工、分析、展示等各个环节使用到的工具产品。一般来说Data Infra有两类上层应用，一类是分析向的，目的是支持商业决策，还有一类是运营向的，例如一个搜索或者推荐系统中的机器学习模块。这两类应用独立发展出了各自的infra体系，不过目前有一种融合的趋势。详情可参考其他链接。

Data Warehouse 数据仓库

Data Warehouse主要的应用场景，是上文提到的商业决策。它由一系列结构化的数据表组成，可类比为很多相关联的excel表格，分析师以其作为数据源，来寻找业务优化方向，也是Snowflake主要的产品形态。

Data Lake 数据湖

与Data Warehouse只支持结构化数据不同，Data Lake可支持任意格式的数据，包括半结构化及非结构化数据（简单来讲，所有无法用简单的行和列来表示和分析的数据格式）。它的主要应用场景是上文提到的机器学习，主要的使用者则是机器学习研发人员，以及机器学习系统，也是Databricks主要的应用领域。

SQL, or Structured Query Language 结构化查询语言

Structured Query Language 顾名思义，用来查询结构化数据的一种语言，所以主要用来做基于Data Warehouse的查询，不过近年来Data Lake也逐步开始支持类似的查询机制。

Spark

最大的开源的大数据框架。Databricks是由Spark的creators们创立的，基于Spark做商业化的公司。

On Premise vs Cloud Computing 云计算 & SaaS Software as a service 软件即服务

传统的软件开发，从购买或者租用服务器机器开始，称On Premise。当下更新的模式是，亚马逊、微软、谷歌、阿里等厂商负责维护服务器并对外提供租赁服务，使用者按需订阅并付费，称Cloud Computing。基于Cloud Computing又诞生了，连上层应用都给封装好，无需开发开箱即用的商业模式，称SaaS。 Data Infra领域的SaaS，就包括存储（Data Warehouse or Data Lake）和计算（e.g. Spark）相关的软件。

相关的还有IaaS和PaaS，有兴趣的看官请自行查阅。。

参考资料

其他链接

Future (a16z) - Emerging Architectures for Modern Data Infrastructure

Future (a16z) - Emerging Architectures for Modern Data Infrastructure: 2020

Data Infra: What's Next 科技早知道 × Snowflake & Databricks

Snowflake

Summary

Databricks

Summary

Snowflake vs Databricks

(Personal taste) What’s Next?

名词解释

Data Infrastructure 数据基础设施

Data Warehouse 数据仓库

Data Lake 数据湖

SQL, or Structured Query Language 结构化查询语言

Spark

On Premise vs Cloud Computing 云计算 & SaaS Software as a service 软件即服务

参考资料

相关播客

其他链接