ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

算法进阶--最大似然,赔率,Fuzzywuzzy库,主成分分析,onehot

2021-10-17 14:58:09  阅读:207  来源: 互联网

标签:似然 ... Fuzzywuzzy 进阶 Ai maxP 样本 赔率


算法进阶--第一天

故地重游之最大似然估计

首先从贝叶斯公式开始:
给定某些样本D,在这些样本中计算某结论A1,A2…An出现的概率,即P(Ai|D),若求maxP(Ai|D),则有以下式子:

– 当样本给定时,P(D)是常数,可以忽略

m a x P ( A i ∣ D ) = m a x P ( D ∣ A i ) P ( A i ) P ( D ) = m a x ( P ( D ∣ A i ) P ( A i ) ) maxP(A_i|D)=max\frac{P(D|A_i)P(A_i)}{P(D)}=max(P(D|A_i)P(A_i)) maxP(Ai​∣D)=maxP(D)P(D∣Ai​)P(Ai​)​=max(P(D∣Ai​)P(Ai​))
– 若A1,A2,…An的先验概率相等(或者近似),则得到以下结论:
m a x P ( A i ∣ D ) → m a x P ( D ∣ A i ) maxP(A_i|D)→maxP(D|A_i) maxP(Ai​∣D)→maxP(D∣Ai​)
–也就是说,问题从在求给定样本D下, A 1 , A 2 , . . . A i A_1,A_2,...A_i A1​,A2​,...Ai​中哪一个结论的发生的可能性最大,转变为给定一个结论 A i A_i Ai​,该样本D产生的概率最大(最大似然估计)。

  • 最大似然估计MLE):
    – 设总体分布为 f ( x , θ ) f(x,\theta) f(x,θ), X 1 , X 2 . . . X n X_1,X_2...X_n X1​,X2​...Xn​为该总体采样得到的样本。因为 X 1 , X 2 . . . X n X_1,X_2...X_n X1​,X2​...Xn​独立同分布,故他们的联合密度函数为:
    L ( x 1 , x 2 . . . . x n ) ; θ 1 , θ 2... θ k = ∏ i = 1 n f ( x i ; θ 1 , θ 2... θ k ) L(x_1,x_2....x_n);\theta1,\theta2...\theta k=\prod _{i=1}^{n}f(x_i;\theta1,\theta2...\theta k) L(x1​,x2​....xn​);θ1,θ2...θk=i=1∏n​f(xi​;θ1,θ2...θk)
    –其中, θ \theta θ被看做固定但未知的参数,同时因为样本已经存在,则可以将样本看成是固定的,即将 L ( x , θ ) L(x,\theta) L(x,θ)看成是关于 θ \theta θ的函数,这个函数就叫做似然函数,求参数 θ \theta θ的值,使得似然函数取最大值,这种方法就要做最大似然估计.
  • 最大似然估计的求解:等式两边取对数,求偏导

赌徒之赔率

  • 赔率:假设在一个赌球中,买甲队赢的赔率是3,乙队赢的概率为4,假设一张票为10元,若张三买甲队赢,则张三赚20元(30-10,其中10元给庄家),而庄家亏10元(10-20,收了张三10元再赔给张三20元)
  • 公平赔率:
    –如图:
甲球队乙球队
败率( Y )0.80.2
赔率( P )1.255

假设票价为一元,所有人中,有a人买甲球队赢,b人买乙球队赢,则庄家在比赛前收入为(a+b)元,同时,庄家的赔付期望为:
E ( y ) = ∑ Y i P i = 0.8 × 1.25 × a + 0.2 × 5 × b = a + b E(y)=\sum{Y_i}{P_i}=0.8×1.25×a+0.2×5×b=a+b E(y)=∑Yi​Pi​=0.8×1.25×a+0.2×5×b=a+b
由此可见,庄家不亏不赚,故当赔率为 P = 1 Y P=\frac{1}{Y} P=Y1​时,为公平赔率

–在实际中,庄家会将公平赔率乘以某一个小于1的系数 α \alpha α,即得到真实赔率:
y = α ⋅ P f a i r y=\alpha \cdot P_{fair} y=α⋅Pfair​

Fuzzywuzzy库-Levenshtein distance

  • 通过编辑距离来做模糊查询

API:Fuzzywuzzy

主成分分析(PCA)

  • 大佬讲解的很牛逼了,直接进去啃就完事了

参考视频:用最直观的方式告诉你:什么是主成分分析PCA

参考文章:github

One-hot编码

  • 定义:又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效.
  • 在机器学习中,一个特征会有多个值,也就是多个状态,如性别,有男或者女,财富分为:贫穷,温饱,小康,富裕,四个状态,如图:
    –将性别用数字1,2表示男,女,财富用1,2,3,4分别代表着贫穷,温饱,小康,富裕四个状态
性别财富
样本一14
样本二22
样本三11
样本四23

–如果转换成用one-hot编码,则有下图:

性别男性别女贫穷温饱小康富裕
样本一100001
样本二010100
样本三101000
样本四010010

标签:似然,...,Fuzzywuzzy,进阶,Ai,maxP,样本,赔率
来源: https://blog.csdn.net/WslWslYYX/article/details/120806241

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有