大数据培训
达内IT学院

400-111-8989

数据迁移工具Sqoop

  • 发布:大数据培训
  • 来源:大数据教程
  • 时间:2020-12-16 15:22

从传统的数据库存储到大数据背景下的数据平台系统存储,不同数据库系统之间的数据迁移,是需要解决的一个重要问题。在大数据技术生态下,Sqoop作为数据迁移工具,应用程度还是比较高的。今天我们就来讲讲数据迁移工具Sqoop。

Sqoop可以理解为HadoopHadoop环境下连接关系数据库与Hadoop存储系统的桥梁,支持多种关系型数据源和Hive、HDFS、Hbase的相互导入。

具体来说,Sqoop 支持全表导入,也支持增量数据导入机制,Sqoop工作机制利用MapReduce分布式批处理,加快数据传输速度和容错性,在Hadoop生态集群当中,具有很高的友好性。

Sqoop工作原理

Sqoop利用MapReduce并行特点以批处理的方式加快数据传输,从而提供并发特征和容错。Sqoop主要通过JDBC连接关系型数据库,理论上只要关系型数据库支持JDBC都可以使用Sqoop与HDFS进行数据交互。

Sqoop从关系型数据库导入HDFS:

用户先输入一个Sqoop import 命令,Sqoop会从关系型数据库中获取元数据信息,包括库信息、表有哪些字段及字段类型等,获取信息后会将导入命令转换为基于Map的MapReduce任务。会开启很多Map任务,每个Map任务读取一部分数据,多个Map任务并行完成数据复制到HDFS分布式文件系统上。

使用Sqoop增量导入有append 和 lastmodified两种模式,lastmodified模式区别于apend是可以指定一个时间戳字段,按时间顺序导入,这个模型可以指定增量数据在HDFS的方式,比如最终增量结果为一个文件。

Sqoop导出功能:

用户输入export命令,Sqoop会获取关系型数据表结构信息,建立与Hadoop字段有关系型数据库表字段的映射关系,将命令转换为基于Map的MapReduce作用,生产很多Map任务,并行地从HDFS中读取数据文件,将这个数据复制到数据库中。

Sqoop版本和架构

Sqoop存在两个版本,1.4.x和1.99.x,通常简称为sqoop1和sqoop2

Sqoop1架构师使用Sqoop客户端直接提交的方式,访问方式是CLI控制台方式进行访问,在命令或脚本中指定数据库名及密码。

Sqoop2架构引入了Sqoop Server,集中化管理Connector,提供多种访问方式,如CLI、Web UI、REST API,同时Sqoop2通过CLI方式访问会有一个交互式界面,使输入的密码信息不被看到。

数据迁移工具Sqoop,在完成数据迁移任务上,Sqoop工具的性能还是值得称赞的,尤其从传统数据库到大数据系统的转型,这个工具不可或缺。

免责声明:内容来源于公开网络,若涉及侵权联系尽快删除!

预约申请大数据免费试听课

填写下面表单即可预约申请免费试听!怕钱不够?可就业挣钱后再付学费! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可全国推荐就业!

上一篇:零基础大数据学习路线图
下一篇:大数据分析技术原则有哪些?
大数据工程师需要掌握的知识点

大数据工程师需要掌握的知识点

大数据工程师必备的十大工具

大数据工程师必备的十大工具

大数据专业词汇帮你更好理解大数据

大数据专业词汇帮你更好理解大数据

大数据学习什么内容?

大数据学习什么内容?

  • 扫码领取资料

    回复关键字:视频资料

    免费领取 达内课程视频学习资料

  • 视频学习QQ群

    添加QQ群:1143617948

    免费领取达内课程视频学习资料

Copyright © 2018 Tedu.cn All Rights Reserved 京ICP备08000853号-56 京公网安备 11010802029508号 达内时代科技集团有限公司 版权所有

选择城市和中心
贵州省

福建省

  • 达内厦门软件园中心
广西省

海南省