MS Office Word 的 .docx 档案如果包含了图片,在 Linux 下可以用以下方法将图片撷取。
MS 的 .docx 格式只是纯粹的 ZIP 压缩档, 直接用 unzip 解压可以直接取出里面的图片, 首先要安装有 unzip:
RHEL / CentOS
- # yum -y install unzip
Debian / Ubuntu / Mint
- # apt-get install –yes unzip
安装好 unzip 后, 可以用 unzip 指令先检视 .docx 档内的档案, .docx 的图片会储存在 word/media/ 目录下, 所以用 grep 指令过滤只显示 word/media/ 目录的内容:
- $ unzip -l filename.docx | grep word/media/
现在执行以下指令解压 word/media/ 目录下所有档案:
- $ unzip filename.docx “word/media/*”
如果只想解解 .jpg 结尾的图片, 其他 word/media/ 下的其他内容不解压, 可以这样:
- $ unzip filename.docx “*.jpeg”