leveldb 源码分析 17¶

本系列《leveldb 源码分析》共有 22 篇文章，这是第十七篇

10 Version 分析之 2

10.5 Version::UpdateStats()¶

当 Get 操作直接搜寻 memtable 没有命中时，就需要调用 Version::Get() 函数从磁盘 load 数据文件并查找。如果此次 Get 不止 seek 了一个文件，就记录第一个文件到 stat 并返回。其后 leveldb 就会调用 UpdateStats(stat)。 Stat 表明在指定 key range 查找 key 时，都要先 seek 此文件，才能在后续的 sstable 文件中找到 key。该函数是将 stat 记录的 sstable 文件的 allowed_seeks 减 1，减到 0 就执行 compaction。也就是说如果文件被 seek 的次数超过了限制，表明读取效率已经很低，需要执行 compaction 了。所以说 allowed_seeks 是对 compaction 流程的有一个优化。函数声明：boolVersion::UpdateStats(const GetStats& stats) 函数逻辑很简单：

FileMetaData* f =stats.seek_file;  
if (f != NULL) {  
   f->allowed_seeks--;  
   if (f->allowed_seeks <=0 && file_to_compact_ == NULL) {  
       file_to_compact_ = f;  
       file_to_compact_level_ =stats.seek_file_level;  
       return true;  
  }  
}  
return false;

变量 allowed_seeks 的值在 sstable 文件加入到 version 时确定，也就是后面将遇到的 VersionSet::Builder::Apply() 函数。

10.6 Version::GetOverlappingInputs()¶

它在指定 level 中找出和[begin, end]有重合的 sstable 文件，函数声明为：

void Version::GetOverlappingInputs(int level,
           const InternalKey* begin, constInternalKey* end, std::vector<FileMetaData*>* inputs);

要注意的是，对于 level0，由于文件可能有重合，其处理具有特殊性。当在 level 0 中找到有 sstable 文件和[begin, end]重合时，会相应的将 begin/end 扩展到文件的 min key/max key，然后重新开始搜索。了解了功能，下面分析函数实现代码，逻辑还是很直观的。 S1 首先根据参数初始化查找变量。

inputs->clear();  
Slice user_begin, user_end;  
if (begin != NULL) user_begin =begin->user_key();  
if (end != NULL)  user_end = end->user_key();  
const Comparator* user_cmp =vset_->icmp_.user_comparator();

S2 遍历该层的 sstable 文件，比较 sstable 的{minkey,max key}和传入的[begin, end]，如果有重合就记录文件到 @inputs 中，需要对 level 0 做特殊处理。

for (size_t i = 0; i <files_[level].size(); ) {  
    FileMetaData* f =files_[level][i++];  
    const Slice file_start =f->smallest.user_key();  
    const Slice file_limit =f->largest.user_key();  
    if (begin != NULL &&user_cmp->Compare(file_limit, user_begin) < 0) {  
       //"f" 中的k/v全部在指定范围之前; 跳过  
    } else if (end != NULL&& user_cmp->Compare(file_start, user_end) > 0) {  
       //"f" 中的k/v全部在指定范围之后; 跳过  
    } else {  
       inputs->push_back(f); // 有重合，记录  
       if (level == 0) {  
         // 对于level 0，sstable文件可能相互有重叠，所以要检查新加的文件  
         // 是否范围更大，如果是则扩展范围重新开始搜索  
         if (begin != NULL&& user_cmp->Compare(file_start, user_begin) < 0) {  
             user_begin = file_start;  
             inputs->clear();  
             i = 0;  
         } else if (end != NULL&& user_cmp->Compare(file_limit, user_end) > 0) {  
             user_end = file_limit;  
             inputs->clear();  
             i = 0;  
            }  
         }  
     }  
}

10.7 Version::OverlapInLevel()¶

检查是否和指定 level 的文件有重合，该函数直接调用了 SomeFileOverlapsRange()，这两个函数的声明为：

bool Version::OverlapInLevel(int level,const Slice*smallest_user_key, 
                             const Slice* largest_user_key){
      return SomeFileOverlapsRange(vset_->icmp_,(level > 0), files_[level],
                                   smallest_user_key, largest_user_key);
}

bool SomeFileOverlapsRange(const InternalKeyComparator& icmp, 
                             bool disjoint_sorted_files,
                             const std::vector<FileMetaData*>& files,const  
                             Slice*smallest_user_key, 
                             const Slice* largest_user_key);

所以下面直接分析 SomeFileOverlapsRange() 函数的逻辑，代码很直观。 disjoint_sorted_files=true，表明文件集合是互不相交、有序的，对于乱序的、可能有交集的文件集合，需要逐个查找，找到有重合的就返回 true；对于有序、互不相交的文件集合，直接执行二分查找。

// S1 乱序、可能相交的文件集合，依次查找  
for (size_t i = 0; i <files.size(); i++) {  
     const FileMetaData* f =files[i];  
     if(AfterFile(ucmp,smallest_user_key, f) ||
        BeforeFile(ucmp, largest_user_key, f)){  

      } else 
         return true;  // 有重合  
}  

// S2 有序&互不相交，直接二分查找  
uint32_t index = 0;  
if (smallest_user_key != NULL) {  
     // Findthe earliest possible internal key smallest_user_key  
     InternalKeysmall(*smallest_user_key, kMaxSequenceNumber,kValueTypeForSeek);  
     index = FindFile(icmp, files,small.Encode());  
 }  
 if (index >= files.size())
     // 不存在比smallest_user_key小的key
     return false;   
 //保证在largest_user_key之后
 return !BeforeFile(ucmp,largest_user_key, files[index]);

上面的逻辑使用到了 AfterFile() 和 BeforeFile() 两个辅助函数，都很简单。

static bool AfterFile(const Comparator* ucmp,  
                       const Slice* user_key, constFileMetaData* f) {  
     return (user_key!=NULL&& ucmp->Compare(*user_key, f->largest.user_key())>0);  
}  

static bool BeforeFile(const Comparator* ucmp,  
constSlice* user_key, const FileMetaData* f) {  
    return (user_key!=NULL&& ucmp->Compare(*user_key, f->smallest.user_key())<0);  
}

10.8 Version::PickLevelForMemTableOutput()¶

函数返回我们应该在哪个 level 上放置新的 memtable compaction，这个 compaction 覆盖了范围[smallest_user_key,largest_user_key]。该函数的调用链为：

DBImpl::RecoverLogFile/DBImpl::CompactMemTable -> DBImpl:: WriteLevel0Table->Version::PickLevelForMemTableOutput;

函数声明如下：

int Version::PickLevelForMemTableOutput(const Slice& smallest_user_key, constSlice& largest_user_key);

如果 level 0 没有找到重合就向下一层找，最大查找层次为 kMaxMemCompactLevel = 2。如果在 level 0or1 找到了重合，就返回 level 0。否则查找 level 2，如果 level 2 有重合就返回 level 1，否则返回 level 2。函数实现：

int level = 0;  
//level 0无重合  
if (!OverlapInLevel(0,&smallest_user_key, &largest_user_key)) { 
    // 如果下一层没有重叠，就压到下一层，  
    // andthe #bytes overlapping in the level after that are limited.  
    InternalKeystart(smallest_user_key, kMaxSequenceNumber, kValueTypeForSeek);  
    InternalKeylimit(largest_user_key, 0, static_cast<ValueType>(0));  
    std::vector<FileMetaData*> overlaps;  
    while (level <config::kMaxMemCompactLevel) {  
       if (OverlapInLevel(level +1, &smallest_user_key, &largest_user_key))  
           break; // 检查level + 1层，有重叠就跳出循环  
       GetOverlappingInputs(level +2, &start, &limit, &overlaps); // 没理解这个调用  
       const int64_t sum =TotalFileSize(overlaps);  
       if (sum >kMaxGrandParentOverlapBytes) break;  
       level++;  
    }  
}  
return level;

这个函数在整个 compaction 逻辑中的作用在分析 DBImpl 时再来结合整个流程分析，现在只需要了解它找到一个 level 存放新的 compaction 就行了。如果返回 level = 0，表明在 level 0 或者 1 和指定的 range 有重叠；如果返回 1，表明在 level2 和指定的 range 有重叠；否则就返回 2（kMaxMemCompactLevel）。也就是说在 compactmemtable 的时候，写入的 sstable 文件不一定总是在 level 0，如果比较顺利，没有重合的，它可能会写到 level1 或者 level2 中。

10.9 小结¶

Version 是管理某个版本的所有 sstable 的类，就其导出接口而言，无非是遍历 sstable，查找 k/v。以及为 compaction 做些事情，给定 range，检查重叠情况。而它不会修改它管理的 sstable 这些文件，对这些文件而言它是只读操作接口。