处理大数据需要一个综合、复杂、多方位的基本流程

时间：2022-07-25 11:01:13来源：网络整理

处理大数据需要一个全面、复杂和多方面的系统。系统中有很多处理模块，数据挖掘技术存在于整个系统中，将大数据作为一个独立的身份进行处理，并与其他模块相连接。互补协调发展。大数据时代，数据挖掘技术的地位无可比拟。

数据挖掘的基本过程

在正式讲数据挖掘知识清单之前，先跟大家说说数据挖掘的基本流程。

数据挖掘的过程可以分为以下六个步骤。

业务理解：数据挖掘不是我们的目的，我们的目的是更好的帮助业务，所以第一步是从业务的角度去理解项目需求，并在此基础上定义数据挖掘的目标。数据理解：尝试收集一些数据，然后对数据进行探索，包括数据描述、数据质量验证等。这将帮助你对收集到的数据有一个初步的认识。数据准备：开始收集数据，进行清洗、数据整合等操作，完成数据挖掘前的准备工作。模型构建：选择并应用各种数据挖掘模型并对其进行优化以获得更好的分类结果。模型评估：评估模型并检查构建模型的每个步骤，以确认模型是否达到预定的业务目标。在线发布：模型的作用是从数据中寻找金矿，也就是我们所说的“知识”。获得的知识需要转化为用户可以使用的方式。演示可以是报告的形式，也可以是更复杂和可重复的数据挖掘过程的实现。如果数据挖掘结果是日常操作的一部分，那么后续的监控和维护就变得很重要。十大数据挖掘算法

为了执行数据挖掘任务有哪几种数据挖掘技术，数据科学家提出了各种模型。在众多数据挖掘模型中，国际权威学术组织ICDM（IEEE International Conference on Data Mining）选出了十个经典算法。

根据不同的目的，我可以将这些算法分为四类，以便你更好地理解。

l 分类算法：C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART

l 聚类算法：K-Means、EM

l 关联分析：Apriori

l 连接分析：PageRank

1. C4.5

C4.5算法是得票最多的算法，可以说是十大算法之首。 C4.5是一种决策树算法，在决策树构建过程中创造性地进行剪枝，可以处理连续属性和不完整数据。可以说是决策树分类中的里程碑式算法。

2. 朴素贝叶斯

朴素贝叶斯模型基于概率论原理。其思路如下：如果要对给定的未知物体进行分类，需要求解在未知物体出现的条件下，每个类别出现的概率。以最大者为准，未知物体属于哪个类别。

3.支持向量机

SVM在中文中称为Support Vector Machine，英文中称为Support Vector Machine，简称SVM。 SVM 在训练期间建立超平面分类模型。如果你不懂超平面也没关系，我会在后面的算法章节给你介绍。

4.KNN

KNN也叫K最近邻算法，英文是K-Nearest Neighbor。所谓K最近邻，是指每个样本都可以用其最近的K个邻居来表示。如果一个样本的 K 个最近邻都属于 A 类，则该样本属于 A 类。

5.AdaBoost

Adaboost 在训练期间构建联合分类模型。 Boost在英文中是boosting的意思，所以Adaboost是一种构建分类器的boosting算法。它允许我们将多个弱分类器组成一个强分类器，因此Adaboost也是一种常用的分类算法。

6.购物车

CART代表Classification and Regression Tree，英文是Classification and Regression Trees。和英语一样，它构建了两棵树：分类树和回归树。和C4.5一样有哪几种数据挖掘技术，是一种决策树学习方法。

7.先验

Apriori 是一种挖掘关联规则的算法。它通过挖掘频繁项目集揭示项目之间的关联。广泛应用于商业挖矿和网络安全。频繁项集是经常一起出现的项的集合，关联规则暗示两个项之间可能存在强关系。

8.K 均值

K-Means 算法是一种聚类算法。你可以这样理解，最终我想把对象分成K个类。假设在每个品类中，都有一个“中心点”，即意见领袖，是这个品类的核心。现在我有一个新点要分类。这时候我只需要计算这个新点到K个中心点的距离。离它最近的中心点将成为哪个类别。

9.EM

EM算法也称为最大期望算法，是一种获取参数最大似然估计的方法。原理是这样的：假设我们要对参数A和参数B求值，这两个参数在起始状态都是未知的，知道A的信息就可以得到B的信息，反过来知道B就可以得到信息的一个。可以考虑先给A一个初始值得到B的估计值，然后从B的估计值开始重新估计A的值，这个过程一直持续到收敛。

EM算法常用于聚类和机器学习领域。

10.PageRank

PageRank源于一篇论文影响力的计算方法。一篇论文被介绍的次数越多，论文的影响力就越强。同样，PageRank 被谷歌创造性地应用到网页权重的计算上：当一个页面链接出的页面越多，就意味着该页面有更多的“引用”；引用次数越高。根据这个原理，我们可以得到网站的权重划分。

算法可以说是数据挖掘的灵魂，也是最本质的部分。这 10 种经典算法在整个数据挖掘领域的票数最高，后面的一些算法基本都是在此基础上改进和创新的。今天，大家对排名前十的算法有了一个初步的了解。你只需要意识到它。看不懂具体内容也没关系。稍后我会为你详细解释。

数据挖掘的数学原理

我说了那么多数据挖掘中的经典算法，但是如果你不懂概率论和数理统计，还是很难掌握算法的精髓；如果你不懂线性代数，很难理解矩阵和向量在数据挖掘中的Value中是如何工作的；如果你没有优化方法的概念，你对迭代收敛没有深入的了解。因此，要想更深入地理解数据挖掘的方法，了解其背后的数学原理是非常有必要的。

1.概率论与数理统计

我们上大学的时候基本都学过概率论，但是大学老师讲的内容偏概率比较多，统计部分比较少。在数据挖掘中使用概率论的地方很多。如条件概率、独立性的概念、随机变量的概念、多维随机变量等。

很多算法的本质都与概率论有关，所以概率论和数理统计是数据挖掘的重要数学基础。

2.线性代数

向量和矩阵是线性代数中的重要知识点，广泛应用于数据挖掘。例如，我们经常将物体抽象成矩阵表示，而一张图像可以抽象成矩阵，我们经常计算特征值和特征向量，并利用特征向量来逼近物体的特征。这就是大数据降维的基本思路。

基于矩阵的各种运算以及基于矩阵的理论的成熟可以帮助我们解决许多实际问题，如PCA方法、SVD方法、MF、NMF方法等在数据挖掘中得到广泛应用。

3.图论

社交网络的兴起使得图论的应用越来越广泛。人与人之间的关系可以通过图论中的两个节点来连接，一个节点的度可以理解为一个人的朋友数量。我们都听说过网络六度理论，在 Facebook 上证明，平均需要 3.57 人才能将一个人与另一个人联系起来。当然，图论对于网络结构的分析非常有效，图论在关系挖掘和图像分割中也发挥着重要作用。

4.优化方法

优化方法相当于机器学习中的自学习过程。当机器知道目标，训练后的结果与结果有偏差时，需要进行迭代调整，那么优化就是调整的过程。通常，这种学习和迭代过程是漫长而随机的。优化方法的提出是为了在更短的时间内获得收敛并取得更好的效果。

随着大数据时代的到来，社会对“挖掘”数据的要求越来越严格，每一个准确的结果都有自己的“价值”。这时，大数据时代的新属性——“价值”被诠释得淋漓尽致。数据挖掘（DM）是一门新兴的跨学科学科，汇集了多个学科。提取过程。 1989年8月，在美国底特律召开的第11届人工智能联合会议座谈会上，知识发现（KDD）首次由科学家提出。数据挖掘，但两者并不完全等价。 1995年，在加拿大蒙特利尔召开的第一届知识发现与数据挖掘国际会议上，KDD一词被接受，该会议分析了数据挖掘的全过程。本质上，数据挖掘是知识发现的一个子过程。

数理统计与数据挖掘的区别

更普遍的观点是，数据挖掘是数理统计的延伸和发展。如果一定要区分，它们之间有什么区别？数据挖掘与数理统计在以下几个方面有着明显的区别。数理统计的基础之一是概率论。分析人员在对数据进行数理统计分析时，往往需要对数据分布和变量之间的关系做出假设，确定用什么概率函数来描述变量之间的关系，以及如何检验参数。统计学意义。但是，在数据挖掘的应用中，分析师不需要对数据分布做任何假设，数据挖掘中的算法会自动找到变量之间的关系。因此，与海量、杂乱的数据相比，数据挖掘技术具有明显的应用优势。