曾多次想要在 Linux 下比较目录 a 和目录 b 中档案列表的差别,然后对目录 a 比目录 b 中多出的档案、少掉的档案分别做处理。但是,在网上搜寻了多次也都没找到能直接处理好的工具。
所以想了很多不少方法,自我感觉都不错,而且网上似乎没有这方面的文章,所以分享出来给大家。如果各位有更好的工具或者方法,盼请留下说明 (本文第 2 部分:图形化的比较结果搜集自网上,我也没有在图形化介面下操作的需要,所以没有多做介绍)
以下是本文有些地方涉及到的目录结构。
[root@node1 ~]# tree directory1 directory2
directory1
├── 1.png
├── 2.png
└── 3.png
directory2
├── 2.png
├── 3.png
└── 4.png
1. 命令列输出的结果
方法一:使用 diff
diff -r directory1 directory2
但是 diff 会对每个档案中的每一行都做比较,所以档案较多或者档案较大的时候会非常慢。请谨慎使用。
方法二:使用 diff 结合 tree
diff <(tree -Ci –noreport /mnt/f/自然马) <(tree -Ci –noreport /mnt/i/自然马) < /mnt/f/自然马 — > /mnt/i/自然马
87a88
> xyz.avi
488d488
< rsync.txt 534d533 < 542D0.mp4 说明: 1.tree的-C选项是输出颜色,如果只是看一下目录的不同,可以使用该选项,但在结合其他命令使用的时候建议不要使用该选项,因为颜色也会转换为对应的编码而输出; 2.-i是不缩排,建议不要省略-i,否则diff的结果很难看,也不好继续后续的档案操作; 3.–noreport是不输出报告结果,建议不要省略该选项。 4. 该方法效率很高。 方法三:find结合diff find directory1 -printf “%Pn” | sort > file1
find directory2 -printf “%Pn” | sort | diff file1 –
2d1
< 1.png 4a4 > 4.png
说明:
1.<代表的行是directory1中有而directory2没有的档案,>则相反,是 directory2 中有而 directory1 中没有。
2. 不要省略-printf “%Pn”,此处的%P 表示 find 的结果中去掉字首路径,详细内容 man find 。例如,find /root/ -printf “%Pn” 的结果中将显示/root/a/xyz.txt 中去掉/root/后的结果:a/xyz.txt 。
3. 效率很高,输出也简洁。
如果不想使用-printf,那么先进入各目录再 find 也行。
[root@node1 ~]# (cd /root/a;find . | sort >/tmp/file1)
[root@node1 ~]# (cd /root/b;find . | sort | diff /tmp/file1 -)
2d1
< ./1.png 4a4 > ./4.png
上面将命令放进括号中执行是为了在子 shell 中切换目录,不用影响当前所在目录。
方法四:使用 rsync
rsync -rvn –delete directory1/ directory2 | sed -n ‘2,/^$/{/^$/!p}’
deleting a/xyz.avi
rsync.txt
新建资料夹/542D0.mp4
其中 deleting 所在的行就是 directory2 中多出的档案。其他的都是 directory 中多出的档案。
如果想区分出不同的是目录还是档案。可以加上”-i” 选项。
rsync -rvn -i –delete directory1/ directory2 | sed -n ‘2,/^$/{/^$/!p}’
*deleting  a/xyz.avi
>f+++++++++ rsync.txt
>f+++++++++ 新建资料夹/542D0.mp4
其中>f+++++++++中的 f 代表的是档案,d 代表的目录。
上面的 rsync 比较目录有几点要说明:
1. 一定不能缺少-n 选项,它表示 dry run,也就是试著进行 rsync 同步,但不会真的同步。
2. 第一个目录 (directory1/) 后一定不能缺少斜线,否则表示将 directory1 整个目录同步到 directory2 目录下。
3. 其它选项,如”-r -v –delete” 也都不能缺少,它们的意义想必都知道。
4.sed 的作用是过滤掉和档案不相关的内容。
5. 以上rsync假定了比较的两个目录中只有普通档案和目录,没有软连结、块装置等特殊档案。如果有,请考虑加上对应的选项或者使用-a替代-r,否则结果中将出现skipping non-regular file的提示。但请注意,如果有软连结,且加了对应选项(-l或-a或其他相关选项),则可能会出现fileA–>fileB 的输出。
6. 效率很高,因为 rsync 的原因,筛选的可定制性也非常强。
2. 图形化的比较结果
方法一:使用 vimdiff
vimdiff <(cd directory1; find . | sort) <(cd directory2; find . | sort) # 或者 vimdiff <(find directory1 -printf “%Pn”| sort) <(find directory2 -printf “%Pn”| sort) 方法二:使用meld meld是python写的一个图形化档案/目录比较工具,所以必须先安装图形介面或设定好图形介面接受协议。它的功能非常丰富,和win下的beyond compare有异曲同工之妙。 meld具体的使用方式就不介绍了。 3. 将两目录中不同的档案筛选出来 个人建议使用命令列输出的结果中的方法方法三和方法四,因为它们都能很好地保留目录字首。 以方法三为例: find directory1 -printf “%Pn” | sort > file1
find directory2 -printf “%Pn” | sort | diff file1 –
以下是实验所需目录结构:
[root@node1 ~]# tree /root/a;tree /root/b
/root/a
├── 1.png
├── 2.png
└── 3.png
0 directories, 3 files
/root/b
├── 2.png
├── 3.png
├── 4.png
└── xen
└── scripts
└── block-drbd
首先比较这两个目录得到档案列表的差异。
find /root/a -printf “%Pn” | sort > /tmp/file1
find /root/b -printf “%Pn” | sort | diff /tmp/file1 – >diff.txt
然后从 diff.txt 中过滤出/root/a 中多出的档案和/root/b 中多出的档案。
# /root/a 中多出的档案
awk ‘//{printf(“%s%sn”,”/tmp/etc/”,$2)}’ diff.txt
/tmp/etc/4.png
/tmp/etc/xen
/tmp/etc/xen/scripts
/tmp/etc/xen/scripts/block-drbd
需要注意的是,如果多了某个目录,则这个目录和其内所有档案都会列出来。如果要将多出的档案复制到其他地方,应当要注意这一点。
如果只想要比较出/root/a 和/root/b 下的档案和目录的不同,不再递回到子目录中比较。那么可以在 find 上继续加工一番:
find /root/a -maxdepth 1 -printf “%Pn” | sort > /tmp/file1
find /root/b -maxdepth 1 -printf “%Pn” | sort | diff /tmp/file1 – >diff.txt
# /root/a 中多出的档案
awk ‘//{printf(“%s%sn”,”/tmp/etc/”,$2)}’ diff.txt
/tmp/etc/4.png
/tmp/etc/xen
这样一来,/root/b 中多出的档案就是 4.png 和 xen,xen 目录中的档案不再列出。