직관을 수학적 언어로 치환
이 아티클은BA02 에피소드에서 다뤘던 베이지안 엔진의 수학적 원리와 그 효과성을 설명한다. 불확실한 비즈니스 환경에서 영업 성공 확률을 정교하게 예측하기 위함이다. 핵심적으로 과거의 경험을 수치화하는 베타 분포와 현장의 실시간 신호를 포착하는 이항 분포를 결합하여 최적의 의사결정 지표를 도출하는 과정을 다룬다. 특히 복잡한 연산 없이도 즉각적인 업데이트가 가능한 켤레 사전 분포를 활용함으로써 시스템의 실시간성과 연산 효율성을 극대화하는 점을 강조한다. 또한, 이 모델은 데이터가 발생할 때마다 즉시 판단을 내리는 재귀적 추정 방식을 채택하여 현대 비즈니스에 최적화된 기술적 타당성을 확보한다. 결과적으로 본 자료는 정교한 수학적 모델링이 어떻게 막연한 직관을 신뢰할 수 있는 데이터 기반의 통찰로 변환시키는지를 명확하게 보여준다.
비즈니스의 안개 속에서 영업 본부장이나 결정을 내려야 하는 관리자, 경영진은 늘 갈증을 느낀다. “지금 이 상황에서 승률은 몇 퍼센트인가?”라는 질문에 대한 답 말이다. Exa 시스템의 심장부인 ‘베이지안 엔진(Bayesian Engine)’은 이 추상적인 과정을 수학이라는 가장 정교한 언어로 번역해낸다.
본 글에서는 영업환경 또는 유사한 상황에서 이 엔진의 아키텍처를 지탱하는 수학적 기둥들과, 왜 이것이 엔터프라이즈 환경에서 ‘최적의 해법’인지를 깊이 있게 분석해 본다.
한편 MCMC나 딥러닝 기반의 베이지안 모델은 고차원의 복잡한 문제를 해결하는 인류의 위대한 자산이다. 그럼에도 불구하고, 영업 성공 확률 추론과 같은 특정 도메인에서는 베타-이항 모델이 가진 ‘수학적 효율성’과 ‘명쾌함’이 가장 강력한 무기가 된다는 점을 강조하는 것이 기술적 객관성을 확보하는 길이기도 하다.
참고: Exa의 AI 엔진은 개별 상황에 따른 적합한 베이지안 수학을 사용한다. 적용되는 상황이 다양하므로 대부분의 베이지안 수학이 적용되며, ML(머신러닝), DL(딥러닝), RL(강화학습), LLM(생성형 AI) 등 이미 현장에서 검증된 AI 기술들이 엔진 내부에서 비즈니스의 필요에 의해 동원된다. 본 글은 영업 에피소드에 사용된 수학의 기술적인 내용 만을 대상으로 한다.
이러한 맥락을 반영하여, 각 기술의 존재 이유를 존중하면서도, 본 에피소드에서 사용된 기술들이 왜 이 분야의 ‘골든 스탠다드’인지를 논리적으로 서술하고자 한다.
1. 경험의 수치화: 사전 분포로서의 ‘베타 분포(Beta Distribution)’
모든 베이지안 추론은 본인(이해 당사자들)의 주관, 직관, 신념 또는 해당 도메인의 연구되거나 알려진 경험적 데이터 다른말로 ‘무엇을 믿고 시작하는가’에서 출발한다. 본 시나리오 유형의 경우 모델은 비즈니스의 초기 상태나 축적된 경험을 베타 분포라는 그릇에 담는다.
1.1 수학적 정의
베타 분포는 0과 1 사이의 확률 값을 다루는 데 최적화된 확률 밀도 함수이다. 함수는 아래와 같은 수식으로 정의된다. 베타분포의 자세한 내용은 베타분포를 해부하는 다른 글에서 설명한다.
$$f(x; \alpha, \beta) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)}$$
여기서 분모 α, β는 전체 확률의 합을 1로 만드는 정규화 상수인 베타 함수이며, 핵심 동력은 두 매개변수 α와 β이다.
- α (Alpha): 성공에 대한 누적 증거의 강도
- β (Beta): 리스크 또는 실패에 대한 누적 증거의 강도
1.2 해석
수식에서 분자의 형태 xα-1(1-x)β-1 의 구조를 보자. α가 커질수록 분포의 중심은 1(성공)을 향해 이동하고, β가 커질수록 0(실패)을 향해 이동하게 된다.
우리는 사업 초기, 시장 통계를 바탕으로 α=2, β=8과 같은 값을 부여할 수 있다. 이는 “지금까지 10번 중 2번은 성공했다”는 ‘사전 경험적 지식’을 수학적인 곡선으로 형상화한 것이다.
확률은 α/(α+β)로 계산한다. 바로 “성공율, 불량률, 반응률..이 20%이다” 와 같이 사전의 경험과 지식 또는 도메인 직관을 수치로 모델링 할 수 있는 것이다. 여기서 2와 8은 믿음의 강도이며 숫자가 클수록 믿음의 강도도 크다. 예를 들어 2와 8보다 20과 80이 같은 성공율 20%이지만 믿음의 강도는 더욱 크다.
α와 β는 우리가 사전지식을 모델링 할 수 있도록 우리 스스로가 부여(또는 과거 실적 데이터로부터 측정)하는 하이퍼 파라미터이다. 이 값은 데이터(증거)들이 쌓이면서 실제의 값으로 베이지안 엔진에 의해 조정된다. 바로 주관적 확률이 실제 데이터에 얼마나 부합하는지 추적하는 과정의 시작지점이다.
다시말해 데이터가 전혀 없는 상태가 아니라, 경험을 가진 지능으로 시작한다는 점이 이 모델의 출발점이다.
2. 현장의 신호: 가능도 함수로서의 ‘이항 분포(Binomial Distribution)’
영업 현장에서 발생하는 사건(미팅, 견적 요청 등)은 결국 ‘성공적인 신호’ 혹은 ‘그렇지 않은 신호’라는 이산적인 결과로 귀결된다. 이를 포착하는 도구가 이항 분포이다.
2.1 수학적 정의
성공 확률이 p인 사건을 n번 시행하여 k번 성공했을 때의 확률은 다음과 같다.
이 수식은 현장에서 들려오는 ‘사실(Evidence, 증거)’을 수치화(우도, likehood)한다. pk(1-p)n-k는 우리가 가정한 확률 p가 실제 결과 k와 얼마나 일치하는지를 측정한다. 시스템은 영업 사원이 입력하는 매 단계의 결과를 이 이항 시행으로 간주하여, 거친 상호작용을 정제된 수학적 신호로 치환한다.
2.2 증거 가중치 (Weight of Evidence, WoE)
왜 어떤 신호는 가중치가 높고 어떤 신호는 낮은가?
이 에피소드에서 사용된 베이지안 모델은 클로드 섀넌(Claude Shannon)의 정보 이론과 앨런 튜닝(Alan Turing)이 암호 해독에 사용했던 증거 가중치(WoE, Weight of Evidence) 개념을 가능도 함수 이항 분포의 증거 데이터에 반영한다.
어떤 신호가 나타났을 때, 그것이 ‘성공’ 그룹에서 나타날 확률과 ‘실패’ 그룹에서 나타날 확률의 비율(Likelihood Ratio)을 로그(log)화한 것으로 “마지막 계약 상담 단계에서 경쟁사 언급”이 치명적인 이유는, 그 단계에서 해당 신호가 발생했을 때의 정보 획득량(Information Gain)이 초기 단계보다 훨씬 크기 때문이다.
로그 스케일 가중치를 사용한 것은 바로 이 ‘정보의 밀도’를 수학적으로 반영한 결과이다.
2.3 해석
이 수식은 현장에서 들려오는 ‘사실(Evidence)’을 WoE를 반영하여 수치화한다. pk(1-p)n-k는 우리가 가정한 확률 p가 실제 결과 k와 얼마나 일치하는지를 측정한다. 시스템은 영업 사원이 입력하는 매 단계의 결과를 이 이항 시행으로 간주하여, 거친 상호작용을 정제된 수학적 신호로 치환한다.
3. 지식의 결합: 켤레 사전 분포(Conjugate Prior)의 마법
베이지안 엔진의 정점은 ‘어제의 지식’에 ‘오늘의 신호’를 더해 ‘내일의 확신’을 만드는 업데이트 과정에 있다.
3.1 수학적 결합 (Posterior Update)
베이즈 정리에 의해 사후 확률(Posterior)은 다음과 같이 계산된다.
$$P(p|Data) \propto P(Data|p) \times P(p)$$
이때 베타 분포(Prior, 사전분포: 사전지식, 주관적 신념)와 이항 분포(Likelihood, 증거 데이터)를 결합하면 놀라운 수학적 조화가 일어난다. 이 결합의 수학적 과정은 베타분포를 해부하는 별도의 글에서 설명할 것이지만, 아래 결과수식은 여러 수학서적을 통해서도 확인할 수 있다.
$$P(p|k) = \frac{p^{(\alpha+k)-1}(1-p)^{(\beta+n-k)-1}}{B(\alpha+k, \beta+n-k)}$$
결과를 보면 사후 분포 역시 사전 베타분포의 형태인 α’ = α + k, β’= β+ (n-k)를 파라미터로 갖는 베타 분포가 된다.
3.2 해석적 해(Analytical Solution)의 우아함
이것이 바로 켤레 사전 분포의 힘(사전지식을 담은 베타분포와 증거 데이터 분포인 이항분포와 결합한 사후분포가 다시 베타분포로 수렴)이다. 복잡한 적분 연산 없이 단순히 기존 값에 신호를 더하기만 하면 업데이트가 완료된다. 컴퓨터 공학적으로 이는 연산 복잡도가 O(1)인 상수 시간 연산이다. 수천, 수만 개의 수주 건을 실시간으로 처리해도 서버 부하가 거의 발생하지 않는 이유, 즉 “계산은 깃털처럼 가볍지만, 결과는 바위처럼 묵직하다”는 명제의 근거이다.
4. 기술적 정당성: 왜 이 문제에 ‘베타-이항 모델’인가?
딥러닝 베이지안과 MCMC(Markov Chain Monte Carlo)가 지닌 기술적 가치는 현대 데이터 과학의 핵심 자산이다. 하지만 모든 도구에는 그 역량을 극대화할 수 있는 최적의 사용처가 따로 있다.
예를 들어, Exa 베이지안 엔진을 통해 구매 주문(PO)의 정시 입고 확률을 산출할 때는 MCMC 시뮬레이션 모델이 매우 효과적이다. MCMC 모델은 대량의 배치(Batch) 계산이 가능할 뿐만 아니라, 평균적인 정상 납기 데이터는 물론 ‘납기 지연’과 같은 이른바 ‘사고 발생(Outlier)’ 데이터까지 모두 정교하게 반영할 수 있기 때문이다.
결국 현장의 복잡한 변수에 맞춰 최적의 모델을 선택하고 적용하는 유연성이 무엇보다 중요하며, 이러한 적재적소의 모델 활용은 아무리 강조해도 지나치지 않다.
4.1 MCMC와 딥러닝 베이지안의 역할
MCMC는 수천 개의 변수가 얽힌 고차원적인 확률 분포를 근사하는 데 탁월하다. 딥러닝 기반 베이지안은 비정형 데이터(이미지, 음성 등)에서 복잡한 패턴을 추출하는 데 필수적이다. 이들은 수많은 시뮬레이션과 샘플링을 통해 정답을 찾아가는 강력한 솔루션이다.
(MCMC의 샘플 수용 확률 수식: 수만 번의 반복 시행이 필요함)
4.2 베타-이항 모델의 독보적 강점
반면, 영업 성공률 예측처럼 ‘성공과 실패’라는 명확한 타겟을 가진 도메인에서는 베타-이항 모델이 제공하는 해석적 해(Analytical Solution)가 ‘골든 스탠다드‘가 된다.
- 실시간성: 무거운 샘플링 없이 즉각적인 응답이 가능하다.
- 설명 가능성: 확률이 왜 변했는지 α와 β의 증가, 감소를 통해 명확히 설명할 수 있다. 우리는 더 복잡한 문제에는 딥러닝과 MCMC를 사용하겠지만, 비즈니스의 빠른 의사결정이 요구되는 이 지점에서는 가장 명쾌하고 우아한 이 방식을 선택한 것이다.
5. 아키텍처의 혁명: 재귀적 베이지안 추정 (Recursive Bayesian Estimation)
데이터가 폭증하는 시대, ‘과거의 모든 데이터’를 매번 다시 불러오는 것은 비효율적이다. 이 모델의 엔진은 ‘정보의 정수’에 집중하는 재귀적(Recursive) 아키텍처를 채택한다.
이 모델의 가장 깊은 뿌리이다;
과거의 모든 미팅 로그는 이미 현재의 (사전지식과 데이터 증거의 결합에 의해 업데이트 된 사후분포의) α와 β 라는 단 두 개의 숫자속에 완벽하게 압축(Compression)되어 있다. 새로운 신호가 들어오면 시스템은 과거 로그를 뒤적이는 대신 현재 상태에 신호를 더하기만 하면 된다.
NASA의 궤도 수정, 자율주행차의 실시간 위치 보정 원리
이 이론은 데이터가 순차적으로 들어올 때마다 실시간으로 상태를 추론하는 기법으로 NASA의 아폴로 계획에서 우주선의 위치를 추적하던 칼만 필터(Kalman Filter)와 수학적으로 동일한 계보를 갖는다.
전통적인 통계는 “모든 데이터가 모인 후”에 분석을 시작하지만, 재귀적 베이지안은 “정보가 발생하는 즉시” 판단을 내린다. 이는 실시간성이 생명인 ERP 환경에서 불확실성을 관리하는 가장 엄밀한 알고리즘이다.
수학이 비즈니스의 도구가 될 때
[부록 1부]를 통해 우리는 베이지안 엔진의 거대한 빙산 아래 숨겨진 수학적 질서를 보았다.
- 베타 분포는 당신의 경험을 담는 그릇이며,
- 이항 분포는 현장의 뜨거운 신호를 수용하는 필터이다.
- 그리고 켤레 사전 분포라는 축복을 통해, 시스템은 가장 가벼운 방식으로 가장 정확한 확신을 도출해낸다.
이것은 단순한 통계 도구가 아니다. 당신의 비즈니스를 우주선 궤도처럼 정교하게 추적하고 인도하는 ‘의사결정 나침반’이다.
[다음 예고: 제2부]
아무런 데이터가 들어오지 않는 ‘침묵’의 날, 왜 확률은 떨어지는 걸까?
다음 시간에는 정보 이론(Information Theory)의 관점에서 ‘침묵의 역설과 로그 가중치’의 내부를 검토할 차례이다.
