Talent Plan TinyKV 白皮书

Smith • 2022年1月9日下午2:08 • Distributed System • 阅读 8333

文章导航

前言

最近参加了 PingCAP 的 2021 Talent Plan KV 学习营，大概就是在不到两个月的时间里完成 TinyKV。之前做完了 MIT 6.824 就被人安利过，不过那时候看了一眼 README 就被劝退了，太复杂了。好在项目最后是完成了，就是拿了个低分，挺抑郁的。

正确性：4 个项目的正确性接近了 100%，意料之中，自己是跑了 150 次 bug free 才交上去的。
文档：4 个项目的文档都是 80 分，感觉是一个保底分，没看过比我还低的。估计是因为文档是以教程的形式写的（那时候就打算贴出来启示后人），不符合比赛要求。
性能：0 分，原因未知，满分性能的 QPS 是 701，自己就 31.5，很明显是不正常的。我后面要了两份获奖的代码，一起跑了下测试用例，结果并不比他们的慢，甚至还快。但鉴于官方没有公布 QPS 的测法，我也懒得深究了。个人希望以后还是能开源下 QPS 的程序，避免性能 0 分的悲剧上演。

关于性能 0 分的猜想：
很可能是因为处理 raft_cmdpb.RaftCmdRequest 的时候，我是假设 requests 数组里面只有一个 request，虽然测试用例里面就是这样，但是我估计官方测 QPS 的时候很可能是 requests 数组里面会包含多个 request，故导致了 QPS 特别低。建议大家还是别和我一样了。

反正文档写也是写了，这里就直接贴出来，有不对的地方直接 PR 即可，传送门：

GitHub

Smith-Cruise/TinyKV-White-Paper

准备工作

良好的心态，在你解决 Project 3 的 BUG 时，要保持淡定，不要冲动砸键盘。

有钱，你的电脑至少要 5 核以上处理器，16GB 以上内存，SSD 固态。内存越多越好，每多 16 GB 内存你就可以多并发运行一个测试用例。固态是必须的，如果你使用机械硬盘，你会卡在 Project 3 中的 split 测试点，测试脚本给的时间很短，通常你都来不及 split。之前我用机械硬盘的服务器跑测试用例，老是报错，后来换成固态就 OK 了。

一台服务器，因为很多 BUG 都是随机复现，代码你要跑上百次才知道，我可不舍得自己的 MacBook 跑通宵。我最后交卷时是每个测试点运行 150 次不出现 BUG，就算 OK。（主要是真的跑不动了，看到一个 FAIL 就血压拉满，所以只要我不跑，它就没有 BUG）。

难点

PingCAP 官方是希望这个项目能给那些没有分布式经验的同学入门学习，不过我个人觉得，这个项目一点都不像是入门项目，门槛很高。一个人如果从没接触过分布式，Go 也不会，我觉得是很难在规定时间内完成这个项目。我个人推荐没基础的还是先去做 6.824，那个简单点（个人觉得，做完 6.824 的 Project 2 就可以来做 TinyKV 了）。

这里说说 TinyKV 的几个坑：

文档不全面，GitHub 上看起来密密麻麻英文写满，实际上还是忽略了很多东西，大家还是要花费大量的时间去了解整个工程。我个人是做到 Project 3 的时候才开始对整个项目有一定的了解，尤其是 Snapshot 的处理，那调用链复杂的可怕。当然这也是我为什么要写白皮书的原因。
测试用例没有完全覆盖，当你做完了 Project2 的时候，你以为你的 Raft OK 了？其实那是你的错觉。我个人还是希望，一个 Project 的测试用例能把当前 Project 方方面面都测试到，而不是非要等到后面才会发现前面有问题。当然我知道这很难，这非常考验测试用例的编写水平。
存在测试用例测不到的情况，比如即使我的 Raft 从来不执行 maybeCompact() 方法，测试也能过。在 Project 4 中，这种现象更加明显，比如它会提供 Latch 让我们对 key 进行上锁，但是你不上锁也没事，测试用例测不出来。虽然 TinyKV 的事务需要和 TinySQL 结合，但是我个人还是希望将来能完善一下，毕竟这个 Latch 挺重要，不然可能很多人对 Percolator 中的大前提单行原子性会不理解。此外你也许会注意到 Primary Key 的作用在这里也不清晰，具体这里不展开，白皮书里有说明。

这里我个人给每个 Project 的难度评个级，Project 1 < Project 4 << Project 2 <<<< Project 3。Project 1 和 4 是互相独立的，没有依赖。我推荐大家的做题顺序是 1->2->4->3 ，最后基本你的所有时间都是拿去解 Project 3 中的 BUG。

整个 TinyKV 我的耗时是 119 小时 42 分钟，这只是纯粹 IDE 时间，还没算网页浏览时间：

Project 1：2小时。
Project 2：2星期
Project 3：3 星期。
Project 4：5 天。

参考资料

这里我不多 BB，直接上我看过的链接。大家自己选看就行了，没必要一集一集看过去。

批量运行脚本

这里附上自己写的 shell 循环执行脚本，有需要的人可以 copy 走。

单线程版：

#!/bin/bash
for ((i=1;i<=150;i++));
do
    echo "ROUND $i";
    make project2c > ./out/out-$i.txt;
done

多线程版：

多线程版我没跑成功过，很容易出现 request timeout 问题，机器太拉胯了。。。

#!/bin/bash
start_time=$(date +%s)
[ -e /tmp/fd1 ] || mkfifo /tmp/fd1
exec 3<>/tmp/fd1
rm -rf /tmp/fd1
# 同时执行 3 个线程
for ((i = 1; i <= 3; i++)); do
  echo >&3
done

for ((i = 1; i <= 150; i++)); do
  read -u3
  {
    echo "ROUND $i"
    make project2c > ./out/out-$i.txt;
    echo >&3
  } &
done
wait

stop_time=$(date +%s)

echo "TIME:$(expr $stop_time - $start_time)"
exec 3<&-
exec 3>&-

比较简陋，凑合着用。

总结

个人还是很感谢 PingCAP 花费这么多的精力做 Talent Plan，虽然很可惜，没获奖，好在知识终究还是会进大脑的，就是不知道啥时候忘。

写完 TinyKV 后，本应该是一件骄傲的事情，然而甚是焦虑。马上就要春招了，数据库坑位少，肯定都招精英，自己又是半吊子水平，和群里的大佬比差太多了，怕是进不去。找 Java，八股又不如那些全力备战 Java 的人，反正就是不上不下，完犊子了。

原创文章，作者：Smith，如若转载，请注明出处：https://www.inlighting.org/archives/talent-plan-tinykv-white-paper

Database KV Raft

打赏

微信扫一扫

Smith

2021 MIT 6.824 札记

上一篇 2021年8月9日下午1:55

分布式原子提交协议大全

下一篇 2022年2月2日下午2:21

发表回复

评论列表（47条）

0010 2024年12月9日上午11:47

大佬您好，能分享一下源码吗，感谢

回复
- Smith 2024年12月9日下午1:04
  
  @0010：已发
  
  回复
- 0010 2024年12月9日下午2:29
  
  @Smith：收到了，感谢大佬
  
  回复
f 2024年10月23日下午7:40

能分享一下源码吗邮箱3993071979@qq.com

回复
- Smith 2024年10月23日下午9:53
  
  @f：发了
  
  回复
- f 2024年10月24日上午8:18
  
  @Smith：这个tinykv是6.824那个文件里面吗
  
  回复
- f 2024年10月24日上午8:19
  
  @Smith：这个tinykv是6.824那个文件里面吗
  
  回复
- Smith 2024年10月24日上午10:28
  
  @f：是的，6.824/tinykv 这个。当时目录懒得改了。
  
  回复
f 2024年10月23日下午7:38

大佬能分享一下源码吗

回复
feng 2024年10月14日下午4:50

大佬，能分享一下源码吗

回复
- Smith 2024年10月14日下午5:06
  
  @feng：已发
  
  回复
Pworz 2024年8月10日下午2:40

hello，也想学一下这个课程，能提供一下源码作为参考吗？

回复
- Smith 2024年8月10日下午7:49
  
  @Pworz：已发
  
  回复
sarailqaq 2024年7月18日上午11:49

在线评测是需要参加学习营吗

回复
- Smith 2024年7月18日下午12:15
  
  @sarailqaq：是的，不过自己本地跑跑ut也差不多了
  
  回复
lucsen 2024年7月13日下午8:54

大佬，感谢分享源码，邮箱：liu_xian.123@qq.com

回复
- Smith 2024年7月13日下午8:55
  
  @lucsen：发了
  
  回复
- lucsen 2024年7月13日下午8:56
  
  @Smith：已收到，感谢大佬
  
  回复
lucsen 2024年7月13日下午8:38

大佬，能分享一下源码参考吗

回复
- Smith 2024年7月13日下午8:48
  
  @lucsen：发了
  
  回复
Guest01 2024年6月5日下午7:44

你好，请问下lab2(raft)和lab4是独立的吗，已经写过6.824，不想重复写raft了，但是想做一下分布式事务

回复
- Smith 2024年6月5日下午8:27
  
  @Guest01：是的。不过此 raft 比 6.824 的有挑战很多。
  
  回复
浮光明月 2023年5月6日上午11:27

大佬能求份源码参考吗？⌇●﹏●⌇

回复
CrazyCollin 2022年11月27日上午5:16

大佬你好，请问就是做的时候会看etcd的，还有就是大佬这种博客会有问题嘛，感觉是不是抄袭的一种了呀，但是我自己又好难想出来😂

回复
- Smith 2022年11月27日上午11:00
  
  @CrazyCollin：没事的，系统这么复杂，只要不是对着源码抄，问题不大。
  
  回复
Bruce 2022年10月17日下午9:36

老哥，请问你的 raft 实现是完全按照 etcd 的来还是按自己的方法实现的，如果按自己的实现那么有哪些 etcd 实现中的优化是必须要的呢？

回复
- Smith 2022年10月17日下午9:39
  
  @Bruce：参考了 etcd 吧，但是 etcd 里面的所有优化都是不必要的，我觉得能先实现就行了。
  
  回复
- Bruce 2022年10月17日下午10:09
  
  @Smith：那我先试试看自己写一写，就是担心后面的project会受到影响。tinykv的测试用例的覆盖广度跟6824比起来怎么？
  
  回复
- Smith 2022年10月17日下午10:52
  
  @Bruce：比6.824覆盖更全面了，你做到 project3 就会怀疑人生了。
  
  回复
- kernel 2022年10月18日上午12:03
  
  @Smith：那我还是多参考etcd的raft吧
- xyh 2022年10月18日下午7:20
  
  @Smith：请问跟着 etcd 实现的话交过去打分会受影响吗？
  
  回复
- Smith 2022年10月18日下午7:44
  
  @xyh：没有影响，但是我觉得你想简单了，没那么容易跟着 ETCD 实现。
  
  回复
StLeoX 2022年10月14日下午5:32

膜，求拉数据库研发群

回复
- Smith 2022年10月14日下午6:18
  
  @StLeoX：额，我没有群
  
  回复
w1nd 2022年8月29日下午8:11

大佬，可以提供一份源码参考么？🙏

回复
陪你倒数 2022年6月13日下午8:01

发现了，是我在应用 Put 和 Delete 的时候没有更新 SizeDiffHint，添加之后 TestSplitRecoverManyClients3B 运行多次都没问题了，今天再测试一个整个 3B 看还有没有问题，需要 PR 一下吗？

回复
- Smith 2022年6月14日上午12:48
  
  @陪你倒数：如果经过多次测试真的解决该问题，欢迎 PR 呀。注意在【注意事项】那里添加内容。
  
  回复
- 陪你倒数 2022年6月14日下午2:05
  
  @Smith：3B 测试了 150 次，没有问题了。应该就是我忘了更新 SizeDiffHint 的原因，十分感谢哈，已经给 repo 提了 PR 了。
  
  回复
- Smith 2022年6月14日下午4:48
  
  @陪你倒数：感谢，已经合并了哈。
  
  回复
陪你倒数 2022年6月12日上午10:34

大佬，请问一下你在做 3B 的 Split 的时候，有没有遇到在运行 TestSplitRecoverManyClients3B 的过程中 Delete 阶段很慢的情况？这个测试也没有网络分区，而且我也实现了 leader alive check。注：3B 中的其他测试都能通过。

回复
- Smith 2022年6月12日上午11:14
  
  @陪你倒数：Delete 阶段慢的我倒是没有遇到过，你可以先尝试关闭 Recover 测试看看，会不会因为 Delete 操作和 Recover 组合在一起出错。
  
  回复
- 陪你倒数 2022年6月12日下午1:45
  
  @Smith：把 TestSplitRecoverManyClients3B 的 crash 设为 false 就一切正常了，会不会是我持久化的问题（我是在处理 proposals 前将对状态机的更新写入到 DB 中）或者是某些状态我没有持久化？而且我通过日志发现，在 Delete 阶段前的 Split 中，一个 key 会被 on split 多次（在 HandleMsg 函数中的 MsgTypeSplitRegion 这个分支中）。总的来说就是 nclient >= 8 && crash = true && split = true 时，测试就会在 Delete 阶段卡住。
  
  回复
- Smith 2022年6月12日下午7:12
  
  @陪你倒数：设置 crash 为 false 不出问题不一定代表你持久化有问题，我之前遇到过。Anyway，给你私发了一份源码，你参考下吧，毕竟每个人都问题都与众不同。如果你发现了新的需要注意的点，可以 PR 一下我的仓库哈。
  
  回复
bluswy 2022年5月29日下午5:56

请问下tinykv有实现客户端请求幂等性嘛，没找到相关代码。如果不实现幂等性，比如下一个任期提交上个任期日志如何回复诶

回复
- Smith 2022年5月29日下午7:10
  
  @bluswy：肯定是要实现幂等的，所以每当上一个请求执行完，要持久化这个 log 的 term 和 index。后序如果存在重复提交，会发现日志 term 或 index 小于之前持久化的信息，就拒绝执行该请求（因为 term 和 index 是保证递增的，这很好进行判断）。
  
  回复
- bluswy 2022年5月29日下午10:21
  
  @Smith：想再请教下，这个部分的逻辑是tinykv实现好的吗，我捋一下没找到，还是这部分是在事物lab4完成的。
  如果用index实现，客户端发过来的重复请求不是两次的index是不一样的，这怎么实现去重诶
  希望大佬能解答一下，万分感谢！
  
  回复
- Smith 2022年5月30日上午9:21
  
  @bluswy：这一部分需要自己实现，在 apply 这一层处理（非 Raft）。
  
  回复