最近做了一个好玩的工具,叫 xbin.io[1] 。其中有一项工作是为不同的工具来构建 docker 镜像,让他们都运行在 docker 中(实际上,是兼容 docker image 的其他 sandbox 系统,没有直接用 docker)。支持的工具越来越多,为了节省资源,build 的 docker image 就越小越好,文件越少,其实启动速度也会略微快一些,也会更安全一些。
这篇文章来介绍一下做 docker image 的一些技巧。
在之前的博客 docker (容器) 的原理[2] 中介绍过 docker image 是如何工作的。简单来说,就是使用 linux 的 overlayfs[3], overlay file system 可以做到,将两个 file system merge 在一起,下层的文件系统只读,上层的文件系统可写。如果你读,找到上层就读上层的,否则的话就找到下层的给你读。然后写的话会写入到上层。这样,其实对于最终用户来说,可以认为只有一个 merge 之后的文件系统,用起来和普通文件系统没有什么区别。
有了这个功能,docker 运行的时候,从最下层的文件系统开始,merge 两层,得到新的 fs 然后再 merge 上一层,然后再 merge 最上一层,最后得到最终的 directory,然后用 chroot[4] 改变进程的 root 目录,启动 container。
了解了原理之后,你会发现,这种设计对于 docker 来说非常合适:
如果 2 个 image 都是基于 ubuntu,那么两个 image 可以共用 ubuntu 的 base image,只需要存储一份; 如果 pull 新的 image,某一层如果已经存在,那么这一层之前的内容其实就不需要 pull 了; 后面 build image 的技巧其实都是基于这两点。
另外稍微提一下,docker image 其实就是一个 tar 包[5]。一般来说我们通过 dockerfile 用 docker built 命令来构建,但是其实也可以用其他工具构建,只要构建出来的 image 符合 docker 的规范[6],就可以运行。比如,之前的博文 build 一个最小的 redis docker image[7] 就是用 nix 构建出来的。
技巧1:删除缓存 一般的包管理器,比如 apt, pip 等,下载包的时候,都会下载缓存,下次安装同一个包的时候不必从网络上下载,直接使用缓存即可。
但是在 docker image 中,我们是不需要这些缓存的。所以我们在 dockerfile 中下载东西一般会使用这种命令:
run dnf install -y --setopt=tsflags=nodocs httpd vim && systemctl enable httpd && dnf clean all 在包安装好之后,去删除缓存。
一个常见的错误是,有人会这么写:
from fedorarun dnf install -y mariadbrun dnf install -y wordpressrun dnf clean all dockerfile 里面的每一个 run 都会创建一层新的 layer,如上所说,这样其实是创建了 3 层 layer,前 2 层带来了缓存,第三层删除了缓存。如同 git 一样,你在一个新的 commit 里面删除了之前的文件,其实文件还是在 git 历史中的,最终的 docker image 其实没有减少。
但是 docker 有了一个新的功能,docker build --squash。squash 功能会在 docker 完成构建之后,将所有的 layers 压缩成一个 layer,也就是说,最终构建出来的 docker image 只有一层。所以,如上在多个 run 中写 clean 命令,其实也可以。我不太喜欢这种方式,因为前文提到的,多个 image 共享 base image 以及加速 pull 的 feature 其实就用不到了。
一些常见的包管理器删除缓存的方法:
yum yum clean all
dnf dnf clean all
rvm rvm cleanup all
gem gem cleanup
cpan rm -rf ~/.cpan/{build,sources}/*
pip rm -rf ~/.cache/pip/*
apt-get apt-get clean
另外,上面这个命令其实还有一个缺点。因为我们在同一个 run 中写多行,不容易看出这个 dnf 到底安装了什么。而且,第一行和最后一行不一样,如果修改,diff 看到的会是两行内容,很不友好,容易出错。
可以写成这种形式,比较清晰。
run true && dnf install -y --setopt=tsflags=nodocs httpd vim && systemctl enable httpd && dnf clean all && true 技巧2:改动不频繁的内容往前放 通过前文介绍过的原理,可以知道,对于一个 docker image 有 abcd 四层,b 修改了,那么 bcd 会改变。
根据这个原理,我们在构建的时候可以将系统依赖往前写,因为像 apt, dnf 这些安装的东西,是很少修改的。然后写应用的库依赖,比如 pip install,最后 copy 应用。
比如下面这个 dockerfile,就会在每次代码改变的时候都重新 build 大部分 layers,即使只改了一个网页的标题。
from python:3.7-buster # copy sourcerun mkdir -p /opt/appcopy myapp /opt/app/myapp/workdir /opt/app # install dependencies nginxrun apt-get update && apt-get install nginxrun pip install -r requirements.txtrun chown -r www-data:www-data /opt/app # start serverexpose 8020stopsignal sigtermcmd [/opt/app/start-server.sh] 我们可以改成,先安装 nginx,再单独 copy requirements.txt,然后安装 pip 依赖,最后 copy 应用代码。
from python:3.7-buster # install dependencies nginxrun apt-get update && apt-get install nginxcopy myapp/requirements.txt /opt/app/myapp/requirements.txtrun pip install -r requirements.txt # copy sourcerun mkdir -p /opt/appcopy myapp /opt/app/myapp/workdir /opt/app run chown -r www-data:www-data /opt/app # start serverexpose 8020stopsignal sigtermcmd [/opt/app/start-server.sh] 技巧3:构建和运行 image 分离 我们在编译应用的时候需要很多构建工具,比如 gcc, golang 等。但是在运行的时候不需要。在构建完成之后,去删除那些构建工具是很麻烦的。
我们可以这样:使用一个 docker 作为 builder,安装所有的构建依赖,进行构建,构建完成后,重新选择一个 base image,然后将构建的产物复制到新的 base image,这样,最终的 image 只含有运行需要的东西。
比如,这是安装一个 golang 应用 pup 的代码:
from golang as buildenv cgo_enabled 0run go install github.com/ericchiang/pup@latest from alpine:3.15.4 as runcopy --from=build /go/bin/pup /usr/local/bin/pup 我们使用 golang 这个 1g 多大的 image 来安装,安装完成之后将 binary 复制到 alpine, 最终的产物只有 10m 左右。这种方法特别适合一些静态编译的编程语言,比如 golang 和 rust.
技巧4:检查构建产物 这是最有用的一个技巧了。
dive 是一个 tui,命令行的交互式 app,它可以让你看到 docker 每一层里面都有什么。
dive ubuntu:latest 命令可以看到 ubuntu image 里面都有什么文件。内容会显示为两侧,左边显示每一层的信息,右边显示当前层(会包含之前的所有层)的文件内容,本层新添加的文件会用黄色来显示。通过 tab 键可以切换左右的操作。
一个非常有用的功能是,按下 ctrl + u 可以只显示当前层相比于前一层增加的内容,这样,就可以看到增加的文件是否是预期的了。
按 ctrl + space 可以折叠起来所有的目录,然后交互式地打开他们查看,就像是 docker 中的 ncdu。
十年周期律再现,AI对安防新业态下的变革趋势以及市场竞争格局的影响
大功率超级快充来袭,哪些元器件需要更换
华为智能联接的产业创新方向,助力开启数字经济的万亿蓝海市场
UCSP封装的热考虑
AGV小车与人工叉车的区别
4个超实用的Docker镜像构建技巧
电源模块过温保护测试原理、测试步骤、测试标准详解
田中精机推动电子变压器和电感器行业发展
工业微服务实现工业APP高效开发和运行
最新科技量化自动交易机器人已开发,交易所量化对冲交易软件
基于低功耗蓝牙无线电的新型高质量无线音频LE Audio评测平台介绍
5分钟看透小米MIX2和小米Note3手机
仿真器和模拟器有什么不一样?
Intel取消停产Pentium G3420处理器决定 将再次长期启用这款产品
世界微波射频领域传奇人物
光伏跟踪支架的市场来临,“双面+跟踪”将成为趋势
富士康与ARM公司合作,将联合在深圳设立一个半导体开发和设计中心
激光甲烷传感器、激光瓦斯探测器、激光天然气报警器
《仿真分析小技巧5》---倾斜结构的巧妙构建
交互式音频剪贴簿的制作教程