|
Size: 485
Comment:
|
Size: 1088
Comment:
|
| Deletions are marked like this. | Additions are marked like this. |
| Line 11: | Line 11: |
= 托管表和外部表 = 在数据仓库中,我们往往要做数据集成工作,但是我们做数据集成工作就要收集数据,这样会导致数据仓库的容量紧张。 为了解决该问题,我们提出了托管表和外部表的两个概念。 所谓托管表,就是数据完全传输并且存储在数据仓库中。 所谓外部表,就是数据没有存储在数据仓库中,数据仓库只是创建了一个表空间,里面存储的是数据实际存储位置的映射。 那么在实际做相关的分析工作的时候,托管表的速度最快。 |
BigData NA
数据挖掘
- 想要做数据挖掘,我们首先需要做以下的几个步骤。
数据集成
- 将多个数据源或者是异构数据源的数据,在数据仓库本地进行整合。
数据清洗
- 对冲突的属性进行删减,对噪声数据进行剔除,进行离群点检测。
数据归约
- 比如,我們要計算年齡分段(0-100歲),分成少年,青年,中年,老年。
托管表和外部表
- 在数据仓库中,我们往往要做数据集成工作,但是我们做数据集成工作就要收集数据,这样会导致数据仓库的容量紧张。 为了解决该问题,我们提出了托管表和外部表的两个概念。 所谓托管表,就是数据完全传输并且存储在数据仓库中。 所谓外部表,就是数据没有存储在数据仓库中,数据仓库只是创建了一个表空间,里面存储的是数据实际存储位置的映射。 那么在实际做相关的分析工作的时候,托管表的速度最快。
