HRegionServer 里面存放了很多的HRegion,而且每一个HRegion都有一个唯一标识(表名+开始主键+唯一ID),这个唯一标识符在每一个HRegion中都有存储。
.mata.表存的数据为HRegion(标识符)和HRegionServer的映射关系,即某一个HRegion,到底在哪一个HRegionServer中。
.mata.是一张表,它也由许多的HRegion组成,所以在最开始数据量很少(HRegion很少时),.mata.只有一个HRegion,由于数据会不断的增加,所以会使得.mata.表不断的增加,所以.mata.也被split成许多的HRegion。为了定位这些HRegion,我们采用的就是就是_root_。
_root_表的结构和.mata.一样,里面存储的也是HRegion和HRegionServer的映射关系。不过这里的HRegion,是表.mata.的HRegion。所以根数据表保存的是元数据表的位置。_root_表和.mata.表的一个区别就是,_root_不能被分隔,只有一个。如果说_root_也变得很大了这么办呢?暂时,HBase就是这么设计的,没办法。
=============================================================================================
转自:
在《》中我们知道,HBase中有两个特殊的表:-ROOT-
和.META.
。
由于HBase中的表可能非常大,故HBase会将表按行分成多个region,然后分配到多台RegionServer上。数据访问的整个流程如下图所示:
注意两点:
- Client端在访问数据的过程中并没有涉及到Master节点,也就是说HBase日常的数据操作并不需要Master,不会造成Master的负担。
- 并不是每次数据访问都要执行上面的整个流程,因为很多数据都会被Cache起来。
从存储结构和操作方法的角度来说,-ROOT-
、.META.
与其他表没有任何区别。它们与众不同的地方是HBase用它们来存贮一个重要的系统信息:
- -ROOT-:记录.META.表的Region信息。
- .META.:记录用户表的Region信息。
其中-ROOT-表本身只会有一个region,这样保证了只需要三次跳转,就能定位到任意region,
一、META表结构
在 HBase Shell 里对.META.
表进行 scan 和 describe :
可以看出,.META.
表的结构如下:
.META.
表中每一行记录了一个Region的信息。
1) RowKey
RowKey就是Region Name,它的命名形式是TableName,StartKey,TimeStamp.Encoded.
。
其中 Encoded 是TableName,StartKey,TimeStamp
的md5值。
例如:
mytable,,1438832261249.ea2b47e1eba6dd9a7121315cdf0e4f67.
表名是mytable
,StartKey为空,时间戳是1438832261249
,前面三部分的md5是:
$ echo -n "mytable,,1438832261249" | md5sum # -n选项表示不输出换行符ea2b47e1eba6dd9a7121315cdf0e4f67 -
2) Column Family
.META.
表有两个Column Family:info
和 historian
。
其中info
包含了三个Column:
regioninfo
:region的详细信息,包括StartKey、EndKey以及Table信息等等。server
:管理该region的 RegionServer 的地址。serverstartcode
:RegionServer 开始托管该region的时间。
至于historian
:
That was a family used to keep track of region operations like open,
close, compact, etc. It proved to be more troublesome than handy so we disabled this feature until coming up with a better solution. The family stayed for backward compatibility.
大致的意思是:这个Column Family是用来追踪一些region操作的,例如open、close、compact等。事实证明这非常的麻烦,所以在想出一个更好的解决方案之前我们禁用了此功能。这个列族会保持向后兼容。
综上所述,.META.
表中保存了所有用户表的region信息,在进行数据访问时,它是必不可少的一个环节。当Region被拆分、合并或者重新分配的时候,都需要来修改这张表的内容 来保证访问数据时能够正确地定位region。
二、ROOT表结构
当用户表特别大时,用户表的region也会非常多。.META.
表存储了这些region信息,也变得非常大,这时.META.
自己也需要划分成多个Region,托管到多个RegionServer上。
这时就出现了一个问题:当.META.
被托管在多个RegionServer上,如何去定位.META.
呢? HBase的做法是用另外一个表来记录.META.
的Region信息,就和.META.
记录用户表的Region信息一样,这个表就是-ROOT-
表。
在 HBase Shell 里对-ROOT-
表进行 scan 和 describe :
-ROOT-
表的结构如下:
可以看出,除了没有historian
列族之外,-ROOT-
表的结构与.META.
表的结构是一样的。另外,-ROOT-
表的 RowKey 没有采用时间戳,也没有Encoded值,而是直接指定一个数字。
-ROOT-
表永远只有一个Region,也就只会存放在一台RegionServer上。—— 在进行数据访问时,需要知道管理-ROOT-
表的RegionServer的地址。这个地址被存在 ZooKeeper 中。