Golang 技术分享｜我和 Dave Cheney 有个约会

Start

今天上午参加了 Go 语言项目开发成员 Dave Cheney 的分享。

分享的主题是《High Performance Go: Two tools, three types of profiling in 45 minutes》

High Performance Go

分享的内容来自 https://dave.cheney.net/high-performance-go-workshop/gopherchina-2019.html 非常有干货的分享！

两个工具分别是 pprof 和 trace，三种类型的分析例子 cpu 性能分析，内存性能分析，trace 性能分析

Dave 首先感谢了 Tencent Tarscloud，估计是 Tars 项目的同事邀请他来的。

第一个例子：CPU 性能分析

通过一个统计文件内容中单词的个数的 go 程序和 linux 自带的 wc 的性能对比来展示 go 的性能分析工具 pprof 的用法。

原始程序代码如下：

Golang 统计文件内容中单词的个数

编译运行后统计《Moby Dick》白鲸记这篇小说的单词个数。（moby dick 直译是大雕？？？《白鲸记》为赫尔曼·梅尔维尔发表于 1851 年的小说，被认为是美国最伟大的长篇小说之一。是一部以海上捕鲸业为题材的小说，一位名叫亚哈的“裴廓德号”捕鲸船船长带领全体船员，追捕一条叫做“莫比·迪克”的大白鲸的历险过程。https://www.gutenberg.org/files/2701/2701-h/2701-h.htm）

该程序大约 2 秒统计完成，而 wc 只要 0.012 秒，性能差距太大，经过分析优化后，性能接近 wc。

于是在代码中开始 CPU 性能分析，添加 profile 代码：

profile CPU 性能分析

go 默认的 pprof 有两个包: net/http/pprof 和 runtime/pprof，前者是通过后者实现的。这里的 pkg/profile 是第三方包，也是通过 runtime/pprof 实现的，更加好用。

使用 go run 运行后会生成 cpu.pprof 文件，接下来就可以通过执行命令 go tool pprof /path/to/cpu.pprof 来展示分析结果，执行 top 命令：

pprof 分析结果

可以通过在上面的命令中添加 -http=:PORT 参数来启动 http 服务，就会自动打开浏览器在里面展示 dot 图，里面可以交互可视化的查看 top，火焰图，调用图，源码信息，很强大，需要先安装 Graphviz，注意添加 bin 目录到 Path 中才行。

我这里测试是 windows 本地创建了一个有 320 万个英文字符文件，字符数量太少效果不太明显，调用图如下（和*nix 上的输出有所不同）：

pprof 分析结果

上面的 graph 可以看到 cpu 90+% 是在做 syscall.Syscall，因为 readbyte 直接对文件对象进行读取操作，每次读一个单词，于是这个程序有多少个单词就会调用多少次 syscall，系统调用通常都是比较昂贵的操作，大量的 syscall 就占用了 cpu，导致程序性能下降。

优化：因为 readbyte 接收的是 io.Reader 的 interface，所以可以把文件对象 f 通过 bufio 缓存起来就不用每次去读取文件导致 syscall 了。bufio 实现了 io.Reader 和 io.Writer。

bufio