将直觉转化为数学语言
本文旨在解释 BA02 篇中涉及的贝叶斯引擎的数学原理及其有效性。其目的是在不确定的商业环境中精确预测销售成功概率。文章核心内容涵盖了结合将过去经验数值化的贝塔分布和捕捉现场实时信号的二项分布,从而得出最佳决策指标的过程。特别是,文章强调了通过利用共轭先验分布,无需复杂运算即可实现即时更新,从而最大化系统的实时性和运算效率。此外,该模型采用了每当数据产生时即刻做出判断的递归估计方式,确保了针对现代商业优化的技术合理性。结果表明,本资料明确展示了精密的数学建模如何将模糊的直觉转化为值得信赖的数据驱动型洞察。
在商业的迷雾中,必须做出决断的销售本部长、管理者及高管们总是感到饥渴。他们渴望“此时此刻,胜率是百分之几?”这个问题的答案。Exa 系统的心脏——“贝叶斯引擎 (Bayesian Engine)”将这一抽象过程翻译成了最精密的语言——数学。
本文将深入分析在销售环境或类似情况下支撑该引擎架构的数学支柱,以及为何它是企业环境中的“最佳解法”。
另一方面,基于 MCMC 或深度学习的贝叶斯模型是解决高维复杂问题的人类伟大资产。尽管如此,强调贝塔-二项模型所具备的“数学效率”和“明晰性”在销售成功概率推断等特定领域是最强大的武器,这也是确保技术客观性的途径。
参考: Exa 的 AI 引擎根据个别情况使用合适的贝叶斯数学。由于应用情况多样,大部分贝叶斯数学都会被应用,且 ML(机器学习)、DL(深度学习)、RL(强化学习)、LLM(生成式 AI)等已在现场得到验证的 AI 技术会根据商业需求在引擎内部被调用。本文仅针对销售篇中使用的数学技术内容。
反映这一背景,在尊重每种技术存在理由的同时,我打算从逻辑上阐述为何本篇中使用的技术是该领域的“黄金标准 (Golden Standard)”。
1. 经验的数值化:作为先验分布的“贝塔分布 (Beta Distribution)”
所有贝叶斯推断都始于本人(利益相关者)的主观、直觉、信念或该领域已研究或已知的经验数据,换句话说,始于“相信什么并开始”。对于本场景类型,模型将商业的初始状态或积累的经验装入名为贝塔分布的容器中。
1.1 数学定义
贝塔分布是优化用于处理 0 到 1 之间概率值的概率密度函数。该函数定义如下公式。(贝塔分布的详细内容将在另一篇解剖贝塔分布的文章中说明。)
$$f(x; \alpha, \beta) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)}$$
这里,分母 是使总概率之和为 1 的归一化常数——贝塔函数,核心动力是两个参数 和 。
- (Alpha): 对成功的累积证据强度
- (Beta): 对风险或失败的累积证据强度
1.2 解释
让我们看看公式中分子形式 的结构。 越大,分布的中心越向 1(成功)移动; 越大,越向 0(失败)移动。
我们在事业初期,可以根据市场统计赋予如 的值。这是将“至今为止 10 次中有 2 次成功”的“先验经验知识”形象化为数学曲线。
概率计算为 。正如“成功率、不良率、响应率……是 20%”一样,可以将先验经验和知识或领域直觉建模为数值。这里 2 和 8 是信念的强度,数字越大,信念的强度也越大。例如,20 和 80 虽然与 2 和 8 一样是 20% 的成功率,但信念的强度要大得多。
和 是我们为了能够对先验知识进行建模而自行赋予(或从过去业绩数据中测量)的超参数。随着数据(证据)的积累,该值会被贝叶斯引擎调整为实际值。这正是追踪主观概率与实际数据符合程度的过程的起点。
换句话说,该模型的出发点并非在完全没有数据的状态下开始,而是以拥有经验的智能开始。
2. 现场的信号:作为似然函数的“二项分布 (Binomial Distribution)”
销售现场发生的事件(会议、报价请求等)最终归结为“成功的信号”或“不成功的信号”这一离散结果。捕捉这一点的工具就是二项分布。
2.1 数学定义
成功概率为 的事件进行 次试验,成功 次的概率如下:
$$P(X=k) = {n \choose k} p^k (1-p)^{n-k}$$
该公式将现场传来的“事实 (Evidence, 证据)”数值化 (Likelihood, 似然)。 测量我们要设的概率 与实际结果 的一致程度。系统将销售人员输入的每个阶段的结果视为该二项试验,将粗糙的互动置换为精炼的数学信号。
2.2 证据权重 (Weight of Evidence, WoE)
为什么有的信号权重高,有的信号权重低?
本篇中使用的贝叶斯模型将克劳德·香农 (Claude Shannon) 的信息论和阿兰·图灵 (Alan Turing) 用于解密的证据权重 (WoE, Weight of Evidence) 概念反映在似然函数即二项分布的证据数据中。
它是将某信号出现时,其出现在“成功”组的概率与出现在“失败”组的概率之比 (Likelihood Ratio) 进行对数 (log) 化的结果。“在最终合同谈判阶段提及竞争对手”之所以是致命的,是因为在该阶段产生该信号时的信息增益 (Information Gain) 远大于初期阶段。
使用对数标度权重正是从数学上反映这一“信息密度”的结果。
2.3 解释
该公式反映 WoE 将现场传来的“事实 (Evidence)”数值化。 测量我们要设的概率 与实际结果 的一致程度。系统将销售人员输入的每个阶段的结果视为该二项试验,将粗糙的互动置换为精炼的数学信号。
3. 知识的结合:共轭先验分布 (Conjugate Prior) 的魔法
贝叶斯引擎的顶点在于将“昨日的知识”加上“今日的信号”,创造“明日的确信”的更新过程。
3.1 数学结合 (Posterior Update)
根据贝叶斯定理,后验概率 (Posterior) 计算如下:
$$P(p|Data) \propto P(Data|p) \times P(p)$$
此时,如果结合贝塔分布(Prior,先验分布:先验知识、主观信念)和二项分布(Likelihood,证据数据),就会发生惊人的数学调和。这种结合的数学过程将在另一篇解剖贝塔分布的文章中说明,但下面的结果公式可以通过各种数学书籍进行确认。
$$P(p|k) = \frac{p^{(\alpha+k)-1}(1-p)^{(\beta+n-k)-1}}{B(\alpha+k, \beta+n-k)}$$
看结果可知,后验分布也成为以 为参数的贝塔分布,即先验贝塔分布的形式。
3.2 解析解 (Analytical Solution) 的优雅
这正是共轭先验分布的力量(包含先验知识的贝塔分布与作为证据数据分布的二项分布结合后的后验分布,再次收敛为贝塔分布)。无需复杂的积分运算,只需简单地在现有值上加上信号即可完成更新。在计算机工程上,这是运算复杂度为 的常数时间运算。这也是即使实时处理数千、数万个订单,服务器负载也几乎不产生的原因,即**“计算轻如鸿毛,结果重如泰山”**这一命题的依据。
4. 技术正当性:为何对该问题使用“贝塔-二项模型”?
深度学习贝叶斯和 MCMC (Markov Chain Monte Carlo) 所具备的技术价值是现代数据科学的核心资产。但是,所有工具都有能将其能力最大化的最佳使用处。
例如,通过 Exa 贝叶斯引擎计算采购订单 (PO) 的准时入库概率时,MCMC 模拟模型非常有效。因为 MCMC 模型不仅可以进行大规模批量 (Batch) 计算,还能精密地反映平均的正常交货期数据以及“交货延迟”等所谓的“异常 (Outlier)”数据。
最终,根据现场的复杂变量选择并应用最佳模型的灵活性至关重要,这种适材适所的模型运用无论如何强调都不为过。
4.1 MCMC 和深度学习贝叶斯的作用
MCMC 在近似数千个变量交织的高维概率分布方面表现卓越。基于深度学习的贝叶斯对于从非结构化数据(图像、语音等)中提取复杂模式至关重要。它们是通过无数次模拟和采样寻找正解的强大解决方案。
$$A(x^*, x_t) = \min \left( 1, \frac{P(x^*)g(x_t|x^*)}{P(x_t)g(x^*|x_t)} \right)$$
(MCMC 的样本接受概率公式:需要数万次重复试验)
4.2 贝塔-二项模型的独有优势
相反,像销售成功率预测一样,在拥有“成功与失败”这一明确目标的领域,贝塔-二项模型提供的解析解 (Analytical Solution) 成为“黄金标准”。
- 实时性: 无需繁重的采样即可即时响应。
- 可解释性: 可以通过 $\alpha$ 和 $\beta$ 的增减明确解释概率为何变化。
对于更复杂的问题,我们会使用深度学习和 MCMC,但在要求商业快速决策的这一点上,我们选择了这一最明晰、优雅的方式。
5. 架构的革命:递归贝叶斯估计 (Recursive Bayesian Estimation)
在数据激增的时代,每次重新加载“过去的所有数据”是低效的。该模型的引擎采用专注于“信息精髓”的递归 (Recursive) 架构。
这是该模型最深的根基:
过去的所有会议日志已经完美地压缩 (Compression) 在当前状态(由先验知识和数据证据结合更新的后验分布)的 和 这仅仅两个数字中。当新信号进入时,系统无需翻阅过去的日志,只需在当前状态上加上信号即可。
NASA 的轨道修正与自动驾驶汽车的实时位置校正原理
该理论作为每当数据按顺序进入时实时推断状态的技术,与 NASA 阿波罗计划中追踪宇宙飞船位置的卡尔曼滤波 (Kalman Filter) 拥有数学上完全相同的谱系。
传统统计在“收集所有数据后”开始分析,但递归贝叶斯在“信息产生即时”做出判断。这是在实时性至关重要的 ERP 环境中管理不确定性的最严密的算法。
当数学成为商业工具时
通过 [附录第 1 部],我们看到了隐藏在贝叶斯引擎巨大冰山下的数学秩序。
- 贝塔分布是承载你经验的容器,
- 二项分布是接纳现场火热信号的过滤器。
- 通过共轭先验分布这一祝福,系统以最轻便的方式得出最准确的确信。
这不仅仅是单纯的统计工具。它是像宇宙飞船轨道一样精密追踪并引导你商业的“决策指南针”。
[下期预告:第 2 部]
在没有任何数据进入的“沉默”之日,为何概率会下降?
下一次,是时候从信息论 (Information Theory) 的角度检视“沉默的悖论和对数权重”的内部了。
