Space-Art-Wallpaper-1920x1080_115

【dbdao Hadoop 大数据学习】Apache Hadoop YARN

dbDao.com 引导式IT在线教育

Hadoop 技术学习QQ群号  : 134115150

本文固定链接:http://t.dbdao.com/archives/hadoop-yarn.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html

 

 

 

Apache Hadoop YARN

 

 

YARN的基本思想是将基础的资源管理器和job 调度/监控分割为独立的进程。这个思想是有一个全局的资源管理(RM)和每一个进程的ApplicationMaster(AM)。一个应用进程既是一个单独的job也是一个job的DAG。
ResourceManager和NodeManager是从数据计算框架中而来。ResourceManager是最终的权威,用来仲裁在系统中应用程序的资源。NodeManager是每个机器的框架,代理负责容器,监控它们的资源使用(CPU、内存、磁盘、网络)并且报告给相同的ResourceManager/Scheduler。

(更多…)

Read More

182414fpppoydfuiynnyqf

【dbdao Hadoop 大数据学习】HDFS中的传输加密

dbDao.com 引导式IT在线教育

Hadoop 技术学习QQ群号  : 134115150

本文固定链接:http://t.dbdao.com/archives/hdfs-transparent-encryption.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/TransparentEncryption.html

 

 

 

 

1 简介

 

HDFS 实现透明的,端到端的加密。一旦配置,从指定的HDFS读取和写入数据都会透明的进行加密和解密,不需要用户应用程序代码的变更。这个加密是端到端的,也就意味着数据只能被客户端加密和解密。HDFS从来不会存储或访问未加密的数据或者为加密的加密key。这满足了2个典型的加密要求:静态加密(意思是数据在永久存储上,例如磁盘)以及在传输加密(例如当数据在网络中传输时)。

 

(更多…)

Read More

1_101227162638_1

【dbdao Hadoop 大数据学习】HDFS中的拓展属性

dbDao.com 引导式IT在线教育

Hadoop 技术学习QQ群号  : 134115150

本文固定链接:http://t.dbdao.com/archives/hdfs-extended-attributes.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/ExtendedAttributes.html

 

 

1 简介

拓展属性(缩写为 xattrs)是一个文件系统特性,允许用户应用程序管理额外的元数据到文件和目录。不同于系统级别的inode元数据例如文件权限或修改时间,拓展属性不会被系统解析,并被应用程序用来存储关于inode的额外信息。例如,可以对实例使用拓展属性,来指定一个纯文文档的字符编码(t.dbdao.com)。

(更多…)

Read More

349328

【dbdao Hadoop 大数据学习】hadoop hdfs 滚动升级

dbDao.com 引导式IT在线教育

Hadoop 技术学习QQ群号  : 134115150

本文固定链接:http://t.dbdao.com/archives/hadoop-hdfs-rolling-upgrade.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsRollingUpgrade.html#namenode_-rollingUpgrade

 

 

 

1介绍

HDFS 滚动升级允许对单独的HDFS进程升级。例如,datanodes可以被单独的升级而不依赖Namenodes。一个namenode可以被升级而不依赖其他的namenodes。Namenodes可以被升级而不依赖datanodes和journal 节点

2升级

在 hadoop v2,HDFS支持高可用的namenode服务和写兼用。这些功能可以让HDFS再升级的时候不需要停机、为了使HDFS集群无停机时间,集群必须设置为HA

如果在任何新版本中启用了任何新特性,升级后可能无法在旧版本上使用。在这种情况下(t.dbdao.com),升级应遵循下列步骤:

1.禁用新功能

2.升级集群

3.启用新功能

注意:滚动升级只能从hadoop-2.4.0之后

(更多…)

Read More

MYSQLV1

【MySQL学生手册】数据恢复

本文地址:http://t.dbdao.com/archives/mysql-data-recovery.html

dbDao 百度贴吧:http://tieba.baidu.com/dbdao

Mysql技术学习QQ群:146959374

 

11.8 数据恢复

进行数据恢复操作的前提是你需要一份备份,作为恢复所需的一部分。它可以是你数据库某个时间点所做的snapshot快照(当进行备份时)。不过,对于一个活动的服务端,数据会在最近的备份之后就会发生改变。因此恢复操作所需的另一部分材料则是服务端之后所做的数据变更记录 —— 也就是,binary log。因此一个恢复操作涉及到使用备份来恢复数据库并且之后重新执行在binary log中所包含的备份之后的数据修改操作。

 

通常恢复操作有以下步骤:

  1. 首先对数据存放目录进行拷贝,这是为了防止在恢复时出错而以防万一。
  2. 使用备份文件恢复数据库。如果你已经制作有一个二进制备份,那么这个步骤涉及到关闭服务端并使用这些备份来替换丢失或损坏的文件。
  3. 重新执行在备份后记录在binary log中的数据修改操作。

 

11.8.1 导入mysqldump输出

可以使用mysqldump工具来导出数据并生成SQL格式的dump文件,之后通过mysql客户端工具来执行此文件进行导入操作。例如,你可以使用如下语句来生成一份world数据库下Country表的dump文件:

之后的数据库导入,则使用mysql:

 

当mysqldump的输出文件中没有指定数据库时,你在使用mysql客户端工具命令时就有必要指定到某个需要操作的库。如果在mysqldump执行中带有 –database 或 –all-databases项时,所生成的dump文件则已包含有相应的 USE db_name语句。

 

mysqldump在使用时不仅仅可用于恢复表和数据库,同时和mysql一起使用也可起到类似”拷贝”的用途。mysql可以直接从管道支进行读取,因此两个命令可以组合成一条命令来将库中的表拷贝到另一个库中。例如,将world数据库中Country表拷贝到test库中,使用以下命令:

管道技术也可以将数据库或表通过网络拷贝到另一个远端库中。如,远端主机为other.host.com:

如果dump文件中包含有很长的INSERT语句,那么这可能会超出默认到通信缓冲(communication buffer: 1M)。你可以对mysqldump和mysql通过使用 --max-allowed-packet项来增大缓冲大小。这个命令项可以设置一个单位为byte的值或者值后加上K,M或G来指明大小。例如,--max-allowed-packet=32M定义了大小为32MB。服务端也需要在运行时使用 --max-allowed-packet值来增大其自身的通信缓冲,使其足够大。

当你使用mysqldump时使用了 --tab项,那么它会生成一个以tab制表符分隔的数据文件。对于这种dump文件,重新导入时则需要注意使用相应的方法。假设你的dump文件对应导出表world.City使用/tmp目录在作为输出目录:

输出将分两部分,一部分为一个包含有City表CREATE TABLE语句的City.sql文件,另一部分为一个City.txt文件包含了相应的表数据。当使用这些文件进行表导入时,首先切换当前路径到导出的目录,然后使用mysql来处理.sql文件,之后只用mysqlimport来导入.txt中的表数据。

如果你在使用 --tab项时还结合其它格式控制项如 --fields-terminated-by--fields-enclosed-by一起使用,那么在使用mysqlimport进行导入时,就需要使用对应相同的格式控制项来使得命令程序知道如何翻译数据文件以进行导入。【dbdao.com 数据岛】

(更多…)

Read More

2010070806111128

【dbdao Hadoop 大数据学习】 hdfs nfs 网关

dbDao.com 引导式IT在线教育

Hadoop 技术学习QQ群号  : 134115150

本文固定链接:http://t.dbdao.com/archives/hdfs-nfs-gateway.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsNfsGateway.html

 

 

1概述

 

NFS 网关支持NFSv3和允许HDFS 作为客户端文件系统的一部分被挂载。当前NFS 网关支持和以下列默认启用:

1.用户可以通过操作系统兼容的本地NFSv3客户端来阅览HDFS文件系统

2.用户可以从HDFS文件系统下载文档到本地文件系统

3.用户可以通过挂载点直接流化数据。支持文件附加,但是不支持随机写(t.dbdao.com)

 

NFS网关机器需要相同的HDFS客户端 例如Hadoop JAR 文件,HADOOP_CONF目录。NFS网关可以和任何主机在一起,例如:DataNode,NameNode.

(更多…)

Read More

Space-Art-Wallpaper-1920x1080_083

【dbdao Hadoop 大数据学习】hdfs 集中内存管理

dbDao.com 引导式IT在线教育

Hadoop 技术学习QQ群号  : 134115150

 

 

本文固定链接:http://t.dbdao.com/archives/hdfs-cache-management.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html

 

 

1介绍

 

在HDFS中的集中内存管理是一种显式的内存机制,允许用户指定HDFS的内存路径。

NameNode将于DataNode通信来获得磁盘上所需的块,并引导它们在堆缓存中缓存这些块。

集中缓存管理有许多明显的优点(t.dbdao.com)

1.显式的防止那些常用的块从内存中清除。这个对于当工作集的大小超过内存的时候非常重要,HDFS的工作量超过内存的情况很常见。

2.因为DataNode的内存被NameNode管理,应用程序在确定任务目标位置时可以查询到内存块位置。通过缓存块联合定位任务可以提高读性能。

3.当块已经被DataNode缓存时,客户端可以使用一个新的,更有效的零拷贝读API。一旦DataNode上的缓存数据校验完成,客户端在使用这个新API的时候基本上是零开销。

(更多…)

Read More

universe-wallpaper-3

【dbdao Hadoop 大数据学习】HDFS Short-Circuit Local Reads

dbDao.com 引导式IT在线教育

Hadoop 技术学习QQ群号  : 134115150

本文固定链接:http://t.dbdao.com/archives/hdfs-short-circuit-local-reads.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/ShortCircuitLocalReads.html

 

 

 

1.本地读

1.1背景

在HDFS,读一般是通过DataNode。因此,当客户端请求DataNode来读取一个文件时,DataNode从磁盘读取文件,然后通过TCP socket发送给客户端。所谓的本地读(短路读),是通过DataNode ,允许客户端直接去读取文件。短路读为很多应用提供了优秀的性能。

 

(更多…)

Read More

MYSQLV1

【MySQL学生手册】更多备份相关

本文地址:http://t.dbdao.com/archives/mysql-more-bk-related.html

dbDao 百度贴吧:http://tieba.baidu.com/dbdao

Mysql技术学习QQ群:146959374

 

11.5 备份日志和状态文件

除了备份数据库之外,你还应该备份以下文件:

  • 你的二进制日志文件。如果你不得不进行数据库恢复的话,binary log备份存储了你在备份之后的更新。
  • 由服务端所使用的配置项文件(cnf或my.ini文件),这些文件包含了在数据库发生奔溃后恢复所需的的配置信息。
  • Replication从库端(Slave)所建立的一个info文件,这个文件包含有所需连接的主库信息。以及relay-log.info文件,这个文件记录了当前处理relay日志的进度情况。
  • Replication从库在处理LOAD DATA INFILE语句时会建立数据临时文件。这些文件被放置在由slave_load_tmpdir系统变量所设置的目录位置下,此变量可以在服务端启动时通过 –slave-load-tmpdir项进行设置。当slave_load_tmpdir未被设置,那么文件就会被存放在操作系统变量tmpdir都指定的位置。其处理的文件会以SQL_LOAD- 打头。

 

为了备份以上这些文件,你可以使用一般的文件系统操作。静态文件如配置文件(option file)不需要特别的注意即可进行备份。动态文件如服务端正在运行且改变的日志文件,则需要停止服务端,然后进行备份。【dbdao.com 数据岛】

(更多…)

Read More

space-drawn-hd-wallapers-collection-vol2-8589_thumb

【dbdao Hadoop 大数据学习】C API libhdfs

dbDao.com 引导式IT在线教育

Hadoop 技术学习QQ群号  : 134115150

本文固定链接:http://t.dbdao.com/archives/hadoop-c-api-libhdfs.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/LibHdfs.html

1介绍

Libhdfs 是一个在HDFS中JNI 基础的C API 。它提供了一个HDFS APIs的子集C APIs来操作HDFS文件和文件系统。Libhdfs

Libhdfs是Hadoop分布式的一部分,并且在$HADOOP_HDFS_HOME/lib/native/libhdfs.so中预编译。Libhdfs 兼容Winddows并且可以通过hadoop-hdfs-project/hadoop-hdf根目录下的mvn来编译。(t.dbdao.com)

 

 

2 APIs

Libhdfs apis 时 Hadoop 文件系统API的一个子集。

在$HADOOP_HDFS_HOME/include/hdfs.h中的头文件描述了每个API的详细详细。(t.dbdao.com)

(更多…)

Read More