数据分析师的福音,5个机器统计方法了解一下?

  关注我,你的眼睛会辣    

来源|网络

编辑|猿姐



在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。

 

因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项,所以机器统计学便成了程序猿的必备技能。

 

为什么要学习统计学?因为了解各种技术背后的想法是非常重要的,以便知道如何以及何时使用它们。此外,这是一个非常有前景的研究领域,在科学,工业和金融领域有着重要的应用,而且统计学是培养现代数据科学家的基本要素。

 



对于渴望了解机器学习基础知识的机器学习新人来说,这儿有份数据科学家使用的五大机器统计学习算法,猿姐为你介绍这五大算法的特性,便于大家更好地理解和应用,快来瞧一瞧啊。

 

1.线性回归



线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。


由于预测建模主要关注最小化模型的误差,或者以可解释性为代价来做出最准确的预测。 我们会从许多不同领域借用、重用和盗用算法,其中涉及一些统计学知识。


线性回归用一个等式表示,通过找到输入变量的特定权重(B),来描述输入变量(x)与输出变量(y)之间的线性关系。


2.逻辑回归



逻辑回归是机器学习从统计领域借鉴的另一种技术。 这是二分类问题的专用方法(两个类值的问题)。


逻辑函数看起来像一个大S,并能将任何值转换为0到1的范围内。这很有用,因为我们可以将相应规则应用于逻辑函数的输出上,把值分类为0和1(例如,如果IF小于0.5,那么 输出1)并预测类别值。


3.重采样方法(ResamplingMethods)


重采样是从原始数据样本中绘制重复样本的方法。这是统计推断的非参数方法。换句话说,重采样方法不涉及使用通用分布表来计算近似p个概率值。

重采样根据实际数据生成唯一的采样分布。它使用实验方法而不是分析方法来生成独特的抽样分布。它产生无偏估计,因为它是基于研究者所研究数据的所有可能结果的无偏样本。为了理解重采样的概念,您应该理解术语拔靴法(Bootstrapping)和交叉验证(Cross-Validation):




拔靴法是一种技术,可以帮助您在很多情况下验证预测模型的性能、集成方法、估计模型的偏差和方差。它通过对原始数据进行替换进行采样,并将“未选择”的数据点作为测试用例。我们可以多做几次,并计算平均分作为我们的模型性能的估计。


另一方面,交叉验证是验证模型性能的一种技术,它是通过将训练数据分成k个部分来完成的。我们以k – 1部分作为训练集,并使用“伸出部分”作为我们的测试集。我们重复k次不同的方式。最后,我们将k分数的平均值作为我们的业绩估计。


通常对于线性模型来说,普通最小二乘法是要考虑将其纳入数据的主要标准。接下来的3种方法是可以为线性模型的拟合提供更好的预测精度和模型可解释性的替代方法。


4.基于树的方法


基于树的方法可以用于回归和分类问题。这些涉及将预测空间分层或分割成若干简单区域。由于用于分割预测变量空间的分裂规则集合可以在树中进行概括,所以这些类型的方法被称为决策树方法。下面的方法生成多个树,然后结合在一起产生一个单一的共识预测。


套袋(Bagging)是减少预测方差的方法,通过使用重复组合来生成原始数据集中的训练数据,从而生成与原始数据相同的多样性。通过增加你的训练集的大小,你不能提高模型的预测力,但只是减少方差,狭义地调整预测到预期的结果。


随机森林算法(randomforest)是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

    

5. 朴素贝叶斯



朴素贝叶斯是一种简单但极为强大的预测建模算法。


该模型由两种类型的概率组成,可以直接从你的训练数据中计算出来:1)每个类别的概率; 2)给定的每个x值的类别的条件概率。 一旦计算出来,概率模型就可以用于使用贝叶斯定理对新数据进行预测。 当你的数据是数值时,通常假设高斯分布(钟形曲线),以便可以轻松估计这些概率。



朴素贝叶斯被称为朴素的原因,在于它假设每个输入变量是独立的。 这是一个强硬的假设,对于真实数据来说是不切实际的,但该技术对于大范围内的复杂问题仍非常有效。



猿姐瞎BB

即使是一位经验丰富的数据科学家,在尝试不同的算法之前,也无法知道哪种算法会表现最好。 虽然还有很多其他的机器学习算法,但这些统计算法是最受欢迎的算法。 如果你是机器学习的新手,这是一个很好的学习起点。



广告


牛B程序猿


孤独地写程序时,你需要一些陪伴,一些快乐,一些”干“货。

扫码关注!

Back To Top