Differences between revisions 2 and 4 (spanning 2 versions)
Revision 2 as of 2018-06-10 02:03:19
Size: 366
Editor: localhost
Comment:
Revision 4 as of 2018-06-10 02:29:44
Size: 1088
Editor: localhost
Comment:
Deletions are marked like this. Additions are marked like this.
Line 9: Line 9:
== 数据归约 ==
  比如,我們要計算年齡分段(0-100歲),分成少年,青年,中年,老年。

= 托管表和外部表 =
  在数据仓库中,我们往往要做数据集成工作,但是我们做数据集成工作就要收集数据,这样会导致数据仓库的容量紧张。
  为了解决该问题,我们提出了托管表和外部表的两个概念。
  所谓托管表,就是数据完全传输并且存储在数据仓库中。
  所谓外部表,就是数据没有存储在数据仓库中,数据仓库只是创建了一个表空间,里面存储的是数据实际存储位置的映射。

  那么在实际做相关的分析工作的时候,托管表的速度最快。

BigData NA

数据挖掘

  • 想要做数据挖掘,我们首先需要做以下的几个步骤。

数据集成

  • 将多个数据源或者是异构数据源的数据,在数据仓库本地进行整合。

数据清洗

  • 对冲突的属性进行删减,对噪声数据进行剔除,进行离群点检测。

数据归约

  • 比如,我們要計算年齡分段(0-100歲),分成少年,青年,中年,老年。

托管表和外部表

  • 在数据仓库中,我们往往要做数据集成工作,但是我们做数据集成工作就要收集数据,这样会导致数据仓库的容量紧张。 为了解决该问题,我们提出了托管表和外部表的两个概念。 所谓托管表,就是数据完全传输并且存储在数据仓库中。 所谓外部表,就是数据没有存储在数据仓库中,数据仓库只是创建了一个表空间,里面存储的是数据实际存储位置的映射。 那么在实际做相关的分析工作的时候,托管表的速度最快。

首頁/2018-06-10 (last edited 2018-06-10 08:41:32 by localhost)