机器学习和统计模型的差异 2015-7-19彩民之家论坛

2019-10-11 05:35 来源:未知
  1. 数据、统计、数学或其他定量方法

  2. 编程、计算机科学或计算机系统工程

  3. 正在调查的域名

彩民之家论坛9066777 1

级数、总和和不等式

编程、计算机科学或计算机系统工程

产生时间

假设检验、A / B检验、置信区间、p值,

对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享!

Logistics回归同样拥有很多的假设。即使是非线性回归也要遵守一个连续的分割边界的假设。然而机器学习却从这些假设中脱身出来。机器学习最大的好处在于没有连续性分割边界的限制。同样我们也并不需要假设自变量或因变量的分布。

What:社交网络软件上的朋友推荐、音乐APP中的歌曲推荐以及使用深度迁移学习将自拍照转换为其它风格的图像,这些都有用到线性代数的知识。线性代数是数学领域的一个重要分支,用于理解大多数机器学习算法如何在数据流上工作以创建洞察力。以下是要学习的基本内容:

数据科学家需要先进的编程技能来处理数据,计算复杂的指标以及进行高级机器学习。这些程序需要结构良好,以便于维护和性能——计算机科学或计算机系统工程的技能和知识。编程语言包括Python、R、SAS和SPSS。

原文链接:

为了创造知识,数据科学家应该理解描述性和推论性统计数据。描述性统计表征现实样本并且包括诸如中心(例如,平均值,中值),离差(即,观察的分布如何),形状之类的度量。如果测量多个变量,它还测量变量之间的依赖关系。

输出(Y)——> 输入(X)

最优化、运筹学

数据科学家需要对数据存储技术有所了解,包括数据库、数据仓库和数据湖。

商业案例

作为一名数据科学家,需要掌握这么多的知识,看起来似乎有些让人绝望,但你不需要感到害怕,网络上资源很多,可以根据个人需求定制自己的学习资源列表。在复习这些知识并学习新概念之后,个人能力会有很大的提升,这是成为数据科学家的一大飞跃。

知识和技能领域

预测效果和人力投入

示例:在面试时,作为一名潜在的数据科学家,如果你能掌握上面提到的所有概念,你会很快地给对方留下深刻的印象。作为数据科学家,你几乎每天都会使用上述中的一些概念。

彩民之家论坛9066777 2

以上提到的方面都能从每种程度上区分机器学习和统计模型,但并不能给出机器学习和统计模型的明确界限。

What:这部分内容通常是“数据科学数学”方案中较少讨论的主题,但事实是所有现代数据科学都是在计算系统的帮助下完成的,离散数学是这类系统的核心。要学习的内容:

彩民之家论坛9066777 3

机器学习和统计模型的差异:

考虑一个Web开发人员,他可能每天需要处理大量的数据和信息,但可能没有强调对该数据进行建模。通常,数据分析的任务重点在于“ 根据需求利用数据并继续推进项目 ”,而不是深入探索,数据科学应该始终关注科学。某些工具和技术会变得不可或缺,其中大多数是科学处理过程的特点:

要成为一名全面的数据科学家,应对每个领域中的内容都有所涉猎。如果没有运行高级机器学习和部署生产模型的编程技能,只在统计学方面做得好,一个人不一定能成为优秀的数据科学家。

在给出了两种模型在输出上的差异后,让我们更深入的了解两种范式的差异,虽然它们所做的工作类似。

对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

领域知识是一种捷径,数据科学家利用已有的知识更好地创造新知识,并有助于将研究范围缩小到该领域尚未知晓的范围,以便数据科学家不重复研究。

可获得数据:两个驱动-A&B

确定性优化 ——edX

数据是根据世界上观察到的内容创建的。由于无法观察所有现实,它几乎总是现实的样本。数据样本来自一组数据——完全观察到的宇宙。

在统计模型中,我们试图估计f 函数 通过

可汗学院的微积分全部内容

编程是构建执行任务的计算机程序的过程。编程通常是计算机科学和计算机系统工程等领域的中心。

诞生年代不同

对数、指数、多项式函数、有理数

数据科学家不一定需要是合格的计算机科学家或计算机系统工程师,但他们确实需要对这些领域的技术有足够的了解,才能有效地进行数据科学研究。

这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者的区别似乎仅仅在于数据量和模型建立者的不同。这里有一张覆盖机器学习和统计模型的数据科学维恩图。

虽然这些领域的工作中也涉及电子表格、数值计算和预测方面的内容,但在数据科学实践中对必要的数学技能要求却大不相同。

数据科学家遵循数据分析流程来创建知识。一个常见的过程是跨行业标准数据挖掘过程,其中包括以下六个步骤:

机器学习:一种不依赖于规则设计的数据学习算法。

What:从基本的知识开始,如线的方程式到二项式定理及其性质。

数据科学的核心是将数据转化为知识。这些知识可以包括对事物的分类或估计。分类是离散值的预测,并且可以包括将电子邮件分组为垃圾邮件或非垃圾邮件,估计或回归是连续变量的预测。例如,预测客户的未来收入。

使用的技术

一般而言,没有通用的蓝图。就其本质而言,数据科学并不依赖于特定的学科领域,并且可能是在单个项目中处理各种现象,如癌症诊断和社会行为分析等,这会产生各种令人眼花缭乱的n维数学对象、统计分布、优化目标函数等。

技能的结合增加了价值

数据区别

介绍

领域知识也有助于更好地定义问题,确定已知的内容,并准确地解释结果。

虽然机器学习和统计模型看起来为预测模型的不同分支,但它们近乎相同。通过数十年的发展两种模型的差异性越来越小。模型之间相互渗透相互学习使得未来两种模型的界限更加模糊。

矩阵分解、高斯/高斯-若尔消除法,求解Ax = b方程的线性系统

《哈佛商业评论》曾评价,“数据科学家”是21世纪最“性感”的工作。性感不性感不知道,但是“有钱”是真的。在某求职网站随便输入“数据科学家”,跳出来的薪资怕都是小编的10倍了……

所属的学派

6. 部署:部署模型,以便用户可以将其与未来数据一起使用,以及制定维护计划。

因变量(Y)=f(自变量) 扰动 函数

很多同学想从事数据科学岗位,对于这个岗位而言,数学知识的储备重要吗?

  1. 业务理解:将在下文中描述的领域知识。

  2. 数据理解:描述性统计和数据质量评估。

  3. 数据准备:数据清理、构建新变量和合并数据集。

操作和对象的术语

示例:使用最小平方损失函数的简单线性回归问题通常具有精确的解析解,但逻辑回归问题却没有,要理解其中的原因,需要了解优化中凸性的概念,这也将阐明为什么我们必须对大多数机器学习问题中的“近似”解决方案能够满意。

数据科学家也可能了解其他定量方法,包括预测。比如:服装店的未来销售预测——这取决于季节。

彩民之家论坛9066777 4

线性代数基础—— edX

他们还需要使用适当的数据可视化来传达数据的结果。这些可视化包括饼图、条形图和折线图。

统计模型基于一系列的假设。例如线性回归模型假设:

答案显而易见,掌握好数学对于从事该岗位而言是很重要的。数学一直是任何当代科学学科的基础,几乎所有的现代数据科学技术(包括所有的机器学习)都有一些深刻的数学知识。在本文中,我们将讨论想成为一名优秀的数据科学家应该掌握的基本数学知识,以便在各个方面都能很好地适应。

4. 建模:模型是对数据观察样本的假设结构的描述。建模包括选择技术(机器学习有许多构建模型的算法)并运行它们。

分属不同的学派

严格评估数据源的质量

数据科学家不一定必须是这三个领域中任何一个领域的专家。 然而,他们肯定需要具备良好的跨学科知识,才能从数据中创造有价值的领域知识。

两种方法的分析目标是相同的。现在让我们详细的探究一下其定义及差异。

使用Python进行数据科学的统计和概率—— edX

事实上,数据科学现今的概念还较为模糊。它是一门基于数据价值研究的交叉学科,堪称“全方位、多层次、宽领域”。既包含大量应用技术,与应用数学、统计学、运筹学等多个学科相关,又与最新的技术领域,机器学习、深度学习、人工智能、物联网等紧密相联。

机器学习还被应用在YouTube 和Google的引擎推荐上, 机器学习通过瞬间分析大量的观测样本给出近乎完美的推荐建议。 即使只采用一个16 G 内存的笔记本,我每天处理数十万行的数千个参数的模型也不会超过30分钟。 然而一个统计模型需要在一台超级计算机跑一百万年来来观察数千个参数。

彩民之家论坛9066777 5

在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么?

彩民之家论坛9066777 6

它试图找到n维变量X的袋子,在袋子间Y的取值明显不同。

彩民之家论坛9066777 7

数据科学家还需要对领域知识库有一个很好的理解,以便为该领域贡献更多有价值的知识。

假设程度差异

示例:如何实现逻辑回归算法,它很有可能使用一种称为“梯度下降”的方法来找到最小损失函数。要了解其如何工作,需要使用来自微积分的基本概念——梯度、导数、极限和链式法则。

  1. 评估:评估所选模型与业务目标的匹配程度。

结束语

计算机科学专业的离散数学概论—— Coursera

简而言之,数据科学家就是可以通过定量和编程方法以及所研究领域的知识,从数据中创造知识和价值的高素质人才。他们同时拥有程序员和数学家的部分基础技能。

机器学习放弃采用函数f的形式,简化为:

结束语

彩民之家论坛9066777 8

彩民之家论坛9066777 9

彩民之家论坛9066777 10

从上图中你观察到了什么?统计模型在分类问题中得到一个简单的分类线。 一条非线性的边界线区分了高风险人群和低风险人群。 但当我们看到通过机器学习产生的颜色时, 我们发现统计模型似乎没有办法和机器学习算法进行比较。 机器学习的方法获得了任何边界都无法详细表征的信息。这就是机器学习可以为你做的。

Beta和Gamma函数

领域知识

麦肯锡接下来的展示足够让人兴奋。盯住下图来理解一下统计模型和机器学习算法的差别。

中值定理、不确定性和洛必达法则

数据科学是数学plus?

彩民之家论坛9066777 11

方差分析、t检验

数据,统计或其他定量方法

处理数据的类型

数据科学家应具备以下领域的技能和知识:

统计模型:以数学方程形式表现变量之间关系的程式化表达

为什么以及如何与众不同——这是科学而不是数据

数据科学家需要充分了解数据收集和通用的数据管理方法。

定义

推论统计基于样本数据的描述得出关于总体的结论。数据科学家需要了解先进的推理技术,例如机器学习——基于观察创建新知识的技术和手头任务的绩效测量。

原文作者:TAVISH SRIVASTAVA

微积分

示例:如果想了解在排序后在百万项目数据库上搜索的运行速度,你将会遇到二进制搜索的概念。为了理解它的行为,需要理解对数和递推方程。或者是分析时间序列的话,可能会遇到周期函数和指数衰减等概念。

(1) 自变量和因变量线性相关 (2) 同方差 (3) 波动均值为0 (4) 观测样本相互独立 (5) 波动服从正态分布

对于喜欢从实际应用中了解概念的人,上述表达也许并不明确。让我们看一个商务的案例。

对“新手”特别重要

案例:分析理解电信公司一段时间内客户的流失水平。

机器学习应用广泛。 在线学习工具可飞速处理数据。这些机器学习工具可学习数以亿计的观测样本,预测和学习同步进行。一些算法如随机森林和梯度助推在处理大数据时速度很快。机器学习处理数据的广度和深度很大。但统计模型一般应用在较小的数据量和较窄的数据属性上。

量化数据和预测的不确定性

在这篇文章中,我将尽最大的努力来展示机器学习和统计模型的区别,同时也欢迎业界有经验的朋友对本文进行补充。

函数、变量、方程、图

预测效果和人力投入

图表属性——连接组件、度、最大流量/最小切割概念、图形着色

机器学习:计算机科学和人工智能的一个分支,通过数据学习构建分析系统,不依赖明确的构建规则。 统计模型:数学的分支用以发现变量之间相关关系从而预测输出。

最大值、最小值、凸函数、全局解

让我们用麦肯锡发布的一个有趣案例来区分两个算法。

计数函数、组合学、可数性

在我开始之前,让我们先明确使用这些工具背后的目标。无论采用哪种工具去分析问题,最终的目标都是从数据获得知识。两种方法都旨在通过分析数据的产生机制挖掘 背后隐藏的信息。

培养个人从信息流中识别隐藏模式的感觉

下面一些命名几乎指相同的东西:

学习资源:

虽然统计模型和机器学习的最终目标是相似的,但其公式化的结构却非常不同

命名公约

基本概率:基本概念、期望、概率演算、贝叶斯定理、条件概率

公式:

上面提到的那些东西是什么?如果你对其补熟悉的话,以下是我们需要学习、吸收的内容建议。

自然在事情发生前并不给出任何假设。 一个预测模型中越少的假设,越高的预测效率。机器学习命名的内在含义为减少人力投入。机器学习通过反复迭代学习发现隐藏在数据中的科学。由于机器学习作用在真实的数据上并不依赖于假设,预测效果是非常好的。统计模型是数学的加强,依赖于参数估计。它要求模型的建立者,提前知道或了解变量之间的关系。

What:成长为数据科学家必须知道的知识。在关于数据科学的讨论中,再如何强调掌握统计和概率的基本概念的重要性都不为过。该领域的许多从业者实际上称经典机器学习只是统计学习。该主题内容非常广泛,重点规划大多数的基本概念即可。

基于的假设

大学前掌握的微积分——edX

统计模型的历史已经有几个世纪之久。但是机器学习却是最近才发展起来的。二十世纪90年代,稳定的数字化和廉价的计算使得数据科学家停止建立完整的模型而使用计算机进行模型建立。这催生了机器学习的发展。随着数据规模和复杂程度的不断提升,机器学习不断展现出巨大的发展潜力。

学习资源:

普通和偏微分方程的基础知识

What:这些主题与应用数学中的传统话语没什么不同,因为它们在专业领域——理论计算机科学、控制理论或运筹学中最为相关和最广泛使用。实际上,每种机器学习算法旨在最小化受各种约束影响的某种估计误差,这就是优化问题。要学习的内容:

这类的培训,大多数没有考虑正数而是讲解抽象的数学实体(及其属性和相互关系),被认为是四年制大学学位课程标准课程的一部分。个人不需要以优异的成绩从顶尖大学毕业来获得这种水平的数学知识,但不幸的是,过去的访问量几乎在变少。

代数——可汗学院

展示成功的蓝图

整数规划

基本数据结构——堆栈、队列、图、数组、哈希表、树

泰勒级数、无穷级数求和/积

多变量函数、极限、连续性、偏导数

学习资源:

清楚地了解模型的局限性

线性回归,正则化

代数简介——edX

归纳、演绎和命题逻辑的基础知识

集合、子集和幂集

彩民之家论坛9066777 12

机器学习数学:多变量微积分——Coursera

示例:在任何社交网络分析中,你需要知道图的属性和快速算法以搜索和遍历整个网络。在选择任何算法时,都需要通过使用 O表示法来了解时间和空间复杂度。

数据摘要和描述性统计、集中趋势、方差、协方差及相关性

图表和绘图、笛卡尔和极坐标系统、圆锥曲线

有时候,作为一名数据科学家(甚至是团队的初级分析师),你必须全心全意地学习那些基础的数学知识,或者正确地应用这些技术,有时候你可以通过使用一些API或者拿来即用的算法完成相关任务。

函数的增长和O符号概念

业务分析中的优化方法 ——edX

R专业统计学——Coursera

商业统计与分析专业—— Coursera

线性代数

单变量、极限、连续性和可微性的函数

约束编程、背包问题

优化的基础——如何制定问题

资源:

毫无疑问,想成为一名顶级的数据科学家还需要掌握其他领域的知识,比如编程能力、具有一定的商业头脑,以及对数据的独特分析和好奇心态。本文所要做的就是整理一份最基本的数学技能指南,以帮助你更好地完成这项工作。

矢量空间、基、跨度、正交性、线性最小二乘,

矩阵和向量的基本属性——标量乘法、线性变换、转置、共轭、秩、行列式

但是,如果你对用于为用户创建有意义的产品推荐算法背后的数学知识有充分的了解,这将永远不会对你有任何损害。通常情况下,懂得这些知识应该能让你在同龄人中占有一席之地。

What:无论你在大学期间喜欢它还是讨厌它,在数据科学或机器学习领域的许多地方都会应用微积分的概念。它隐藏在线性回归中最小二乘问题的简单分析解决方案背后,或者嵌入到神经网络学习新模式的每个反向传播中。以下是要学习的内容:

理解数学证明及其背后的所有抽象逻辑

线性规划、单纯形算法

离散数学

递归关系和方程

对于那些在其他领域花费大量时间并想进入这一领域的专业人士来说,基础学知识显得尤其重要,比如硬件工程、零售、化学加工工业、企业管理等领域。

积分计算和中值定理、对有限和不正确积分的评价,

特殊矩阵——方阵、单位矩阵、三角矩阵、稀疏和密集矩阵、单位向量、对称矩阵、埃尔米特矩阵、斜埃尔米特矩阵和酉矩阵,

学习资源:

机器学习数学:线性代数——Coursera

基本几何和定理,三角恒等式

乘积和链式法则

采样、测量、错误、随机数生成

通过探测潜在的动态来建模过程

离散优化—— Coursera

彩民之家论坛9066777 13

彩民之家论坛9066777 14

实数和复数的基本属性

极大值和极小值

对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

学习资源:

基本证明技术——归纳法、反证法

内积外积、矩阵乘法法则和各种算法、逆矩阵

数学思维导论——Coursera

构建假设

概率分布函数:均匀、标准、二项式、卡方、学生t分布、中心极限定理、

数据科学数学技能——Coursera

掌握离散数学:集合、数学逻辑—— Udemy

特征值、特征向量和对角化,奇异值分解

彩民之家论坛9066777 15

统计

彩民之家论坛9066777 16

示例:如果你使用过主成分分析降维技术,那么你可能已经使用过奇异值分解来实现数据集的紧凑维度表示,使得参数更少。所有神经网络算法都使用线性代数技术来表示和处理网络结构和学习操作。

版权声明:本文由彩民之家高手论坛发布于编程技术,转载请注明出处:机器学习和统计模型的差异 2015-7-19彩民之家论坛