MS Office Word 的 .docx 檔案如果包含了圖片,在 Linux 下可以用以下方法將圖片擷取。
MS 的 .docx 格式只是純粹的 ZIP 壓縮檔, 直接用 unzip 解壓可以直接取出裡面的圖片, 首先要安裝有 unzip:
RHEL / CentOS
- # yum -y install unzip
Debian / Ubuntu / Mint
- # apt-get install –yes unzip
安裝好 unzip 後, 可以用 unzip 指令先檢視 .docx 檔內的檔案, .docx 的圖片會儲存在 word/media/ 目錄下, 所以用 grep 指令過濾只顯示 word/media/ 目錄的內容:
- $ unzip -l filename.docx | grep word/media/
現在執行以下指令解壓 word/media/ 目錄下所有檔案:
- $ unzip filename.docx “word/media/*”
如果只想解解 .jpg 結尾的圖片, 其他 word/media/ 下的其他內容不解壓, 可以這樣:
- $ unzip filename.docx “*.jpeg”