数据库 2023-07-01

数据挖掘远非简单数据库爬取 (数据挖掘不是爬数据库)

随着大数据时代的到来，数据处理与应用成为了一个重要的领域。人们在对数据进行挖掘和分析的过程中，发现了许多难以预料的信息和规律，这使得数据挖掘成为了一个备受关注的领域。然而，有些人仍然认为数据挖掘只是简单的数据库爬取，这一观点实在是错误的。本文将深入探讨数据挖掘与普通数据库爬取的区别。

数据挖掘与数据库爬取的目的是不同的。数据库爬取一般是为了获取数据，而数据挖掘则是为了从数据中挖掘有价值的信息和模式。爬取数据只是数据挖掘的前置步骤，而数据挖掘的真正目的是通过有效的数据分析来提高商业价值，从而获得更多的收益。

数据挖掘需要更加复杂的技术。数据库爬取只需简单的编程知识和基本的网络爬虫即可完成。而数据挖掘需要更复杂的技术，例如机器学习、数据分析、数据挖掘算法等。这些技术不仅需要专业知识和数学基础，还需要对所要处理的特定领域有一定的了解。

第三，数据挖掘需要更强的分析能力和洞察力。在处理数据挖掘任务时，数据分析师需要运用自己的分析能力和洞察力来识别并解读数据中的规律、趋势和潜在的信息。同时，数据分析师还需将结果解释给非专业人员，因此他们需要有很强的沟通能力。

数据挖掘是一项长期的过程。数据库爬取一般只需爬取一次即可完成。而数据挖掘是一个长期的过程，在这个过程中需要不断地对数据进行分析，发掘数据中的价值，监测数据的变化以及更新数据挖掘模型等。

在现代商业环境中，数据挖掘已成为企业中的重要部分。它可以帮助企业更好地了解其客户、市场和竞争对手的情况，从而为企业提供更准确、更高效的商业策略。随着技术和数据分析的不断发展，数据挖掘的作用和重要性也在逐渐提升。

数据挖掘和数据库爬取是两个完全不同的概念。虽然数据挖掘需要一些类似于数据库爬取的技术，但是它更加复杂、更具挑战性。如果我们想要在数据挖掘领域中取得成功，就需要有更深入的了解和更专业的技能。

相关问题拓展阅读：

数据挖掘技术
请问什么是数据挖掘?

数据挖掘技术

数据挖掘技术是数据库技术、统计技术和人工智能技术发展的产物。从使用的技术角度，主要的数据挖掘方法包括：

（1）决策树方法：利用树形结构来表示决策，这些决策通过对数据集的分类产生规则。国际上最有影响和最早的决策树方法是ID3方法，后来又发展了其它的决策树方法。

（2）规则归纳方法：通过统计方法归纳，提取有价值的if-then规则。规则归纳技术在数据挖掘中被广泛使用，其中以关联规则挖掘的研究开展得较为积极和深入。

（3）神经网络方法：从结构上模拟生物神经网络，以模型和学习规则为基础，建立3种神经网络模型：前馈式网络、反馈式网络和自组织网络。这种方法通过训练来学习的非线性预测模型，可以完成分类、聚类和特征挖掘等多种数据挖掘任务。

（4）遗传算法：模拟生物进化过程的算法，由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。为了应用遗传算法，需要将数据挖掘任务表达为一种搜索问题，从而发挥遗传算法的优化搜索能力。

（5）粗糙集(RoughSet)方法：Rough集理论是由波兰数学家Pawlak在八十年代初提出的一种处理模糊和不精确性问题的新型数学工具。它特别适合于数据简化，数据相关性的发现，发现数据意义，发现数据的相似或差别，发现数据模式和数据的近似分类等，近年来已被成功地应用在数据挖掘和知识发现研究领域中。

（6）K2最邻近技术：这种技术通过K个最相近的历史记录的组合来辨别新的记录。这种技术可以作为聚类和偏差分析等挖掘任务。

（7）可视化技术：将信息模式、数据的关联或趋势等以直观的图形方式表示，决策者可以通过可视化技术交互地分析数据关系。可视化数据分析技术拓宽了传统的图表功能，使用户对数据的剖析更清楚。

请问什么是数据挖掘?

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的，然后发展到可对数据库进行查询和访问，进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段，它不仅能对过去的数据进行查询和遍历，并且能够找出过去数据之间的潜在联系，从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用，因为对这种技术进行支持的三种基础技术已经发展成熟，他们是：

– – 海量数据搜集

– – 强大的多处理器计算机

– – 数据挖掘算法

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘流程：

定义问题：清晰地定义出业务问题，确定数据挖掘的目的。

数据准备：数据准备包括：选择数据–在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理–进行数据再加工，包括检查数据的完整性及数据的一致性、去噪声，填补丢失的域，删除无效数据等。

数据挖掘：根据数据功能的类型和和数据的特点选择相应的算法，在净化和转换过的数据集上进行数据挖掘。

结果分析：对数据挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。

数据挖掘是从大量的数据中，抽取出潜在的、有价值的知识（模型或规则）的过程。

1. 数据挖掘能做什么？

1)数据挖掘能做以下六种不同事情（分析方法）：

· 分类（Classification）

· 估值（Estimation）

· 预言（Prediction）

· 相关性分组或关联规则（Affinity grouping or association rules）

· 聚集（Clustering）

· 描述和可视化（Des cription and Visualization）

2)数据挖掘分类

以上六种数据挖掘的分析方法可以分为两类：直接数据挖掘；间接数据挖掘

· 直接数据挖掘

目标是利用可用的数据建立一个模型，这个模型对剩余的数据，对一个特定的变量（可以

理解成数据库中表的属性，即列）进行描述。

· 间接数据挖掘

目标中没有选出某一具体的变量，用模型进行描述；而是在所有的变量中建立起某种关系

。

· 分类、估值、预言属于直接数据挖掘；后三种属于间接数据挖掘

3)各种分析方法的简介

· 分类（Classification）

首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分

类模型，对于没有分类的数据进行分类。

例子：

a. 信用卡申请者，分类为低、中、高风险

b. 分配客户到预先定义的客户分片

注意：类的个数是确定的，预先定义好的

· 估值（Estimation）

估值与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的

输出；分类的类别是确定数目的，估值的量是不确定的。

例子：

a. 根据购买模式，估计一个家庭的孩子个数

b. 根据购买模式，估计一个家庭的收入

c. 估计real estate的价值

一般来说，估值可以作为分类的前一步工作。给定一些输入数据，通过估值，得到未知的

连续变量的值，然后，根据预先设定的阈值，进行分类。例如：银行对家庭贷款业务，运

用估值，给各个客户记分（Score 0~1）。然后，根据阈值，将贷款级别分类。

· 预言（Prediction）

通常，预言是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用

于对未知变量的预言。从这种意义上说，预言其实没有必要分为一个单独的类。

预言其目的是对未来未知变量的预测，这种预测是需要时间来验证的，即必须经过一定时

间后，才知道预言准确性是多少。

· 相关性分组或关联规则（Affinity grouping or association rules）

决定哪些事情将一起发生。

例子：

a. 超市中客户在购买A的同时，经常会购买B，即A => B(关联规则)

b. 客户在购买A后，隔一段时间，会购买B （序列分析）

· 聚集（Clustering）

聚集是对记录分组，把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先

定义好的类，不需要训练集。

例子：

a. 一些特定症状的聚集可能预示了一个特定的疾病

b. 租VCD类型不相似的客户聚集，可能暗示成员属于不同的亚文化群

聚集通常作为数据挖掘的之一步。例如，”哪一种类的促销对客户响应更好？”，对于这一

类问题，首先对整个客户做聚集，将客户分组在各自的聚集里，然后对每个不同的聚集，

回答问题，可能效果更好。

· 描述和可视化（Des cription and Visualization）

是对数据挖掘结果的表示方式。

2.数据挖掘的商业背景

数据挖掘首先是需要商业环境中收集了大量的数据，然后要求挖掘的知识是有价值的。有

价值对商业而言，不外乎三种情况：降低开销；提高收入；增加股票价格。

1)数据挖掘作为研究工具（Research）

2)数据挖掘提高过程控制（Process Improvement）

3)数据挖掘作为市场营销工具（Marketing）

4)数据挖掘作为客户关系管理CRM工具(Customer Relationship Management)

3.数据挖掘的技术背景

1)数据挖掘技术包括三个主要部分：算法和技术；数据；建模能力

2)数据挖掘和机器学习（Machine Learning）

· 机器学习是计算机科学和人工智能AI发展的产物

· 机器学习分为两种学习方式：自组织学习（如神经网络）；从例子中归纳出规则（如决

策树）

· 数据挖掘由来

数据挖掘是八十年代，投资AI研究项目失败后，AI转入实际应用时提出的。它是一个新兴

的，面向商业应用的AI研究。选择数据挖掘这一术语，表明了与统计、精算、长期从事预

言模型的经济学家之间没有技术的重叠。

3)数据挖掘和统计

统计也开始支持数据挖掘。统计本包括预言算法（回归）、抽样、基于经验的设计等

4)数据挖掘和决策支持系统

· 数据仓库

· OLAP（联机分析处理）、Data Mart（数据集市）、多维数据库

· 决策支持工具融合

将数据仓库、OLAP，数据挖掘融合在一起，构成企业决策分析环境。

4. 数据挖掘的社会背景

数据挖掘与个人预言：数据挖掘号称能通过历史数据的分析，预测客户的行为，而事实上

，客户自己可能都不明确自己下一步要作什么。所以，数据挖掘的结果，没有人们想象中

神秘，它不可能是完全正确的。

客户的行为是与社会环境相关连的，所以数据挖掘本身也受社会背景的影响。比如说，在

美国对银行信用卡客户信用评级的模型运行得非常成功，但是，它可能不适合中国

转载的

数据挖掘不是爬数据库的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于数据挖掘不是爬数据库,数据挖掘远非简单数据库爬取,数据挖掘技术,请问什么是数据挖掘?的信息别忘了在本站进行查找喔。

数据运维技术 » 数据挖掘远非简单数据库爬取 (数据挖掘不是爬数据库)

分享到：

数据挖掘技术

请问什么是数据挖掘?

相关推荐