咨询热线
来源:郑州百知教育 时间:2020/11/19 17:33:12
以下是小编为大家整理大数据知识点大数据预怎样了解处理整体架构的内容。
大数据预处理将数据划分为结构化数据和半结构化/非结构化数据
分别采用传统 ETL 工具和分布式并行处理框架来实现。
结构化数据可以存储在传统的关系型数据库中。
关系型数据库在处理事务、及时响应、增加数据的一致性方面有天然的优势。
非结构化数据可以存储在新型的分布式存储中,如 Hadoop 的 HDFSo 半结构化数据
可以存储在新型的分布式 NoSQL 数据库中,如 HBase。
分布式存储在系统的横向扩展性、存储成本、文件读取速度方面有着显著的优势。
结构化数据和非结构化数据之间的数据可以按照数据处理的需求进行迁移。
例如,为了进行并行处理,需要将传统关系型数据库中的结构化数据导入到分布式存储中。
可以利用 Sqoop 等工具,先将关系型数据库的表结构导入分布式数据库
然后再向分布式数据库的表中导入结构化数据。
1)单数据源定义层
违背字段约束条件(例如,日期出现 9 月 31 日),字段属性依赖冲突
(例如,两条记录描述同一个人的某一个属性,但数值不一致)
违反性(同一个主键 ID 出现了多次)等。
2)单数据源实例层
单个属性值含有过多信息,拼写错误,存在空白值,存在噪音数据,数据重复,数据过时等;
3)多数据源定义层
同一个实体的不同称呼(如 custom_id、custom_num)
同一种属性的不同定义(例如,字段长度定义不一致,字段类型不一致等);
4)多数据源实例层
数据的维度、粒度不一致(例如,有的按 GB 记录存储量,有的按 TB 记录存储量
有的按照年度统计,有的按照月份统计),数据重复,拼写错误等。
没有想要的答案?马上提问