作為 Scribus 檔案團隊的長期成員,我要隨時瞭解最新的原始碼更新,以便對檔案進行更新和補充。 我最近在剛升級到 Fedora 27 系統的計算機上使用 Subversion 進行檢出操作時,對於下載該檔案所需要的時間我感到很驚訝,檔案由 HTML 頁面和相關影象組成。 我恐怕該專案的檔案看起來比專案本身大得多,並且懷疑其中的一些內容是 “殭屍” 檔案——不再使用的 HTML 檔案以及 HTML 中無法訪問到的影象。
我決定為自己建立一個專案來解決這個問題。 一種方法是搜尋未使用的現有影象檔案。 如果我可以掃描所有 HTML 檔案中的影象引用,然後將該列表與實際影象檔案進行比較,那麼我可能會看到不匹配的檔案。
這是一個典型的影象標籤:

我對 src= 之後的第一組引號之間的部分很感興趣。 在尋找了一些站群解決方案後,我找到一個名為 BeautifulSoup 的 Python 模組。 指令碼的核心部分如下所示:
soup = BeautifulSoup(all_text, ‘html.parser’)
match = soup.findAll(“img”)
if len(match) > 0:
for m in match:
imagelist.append(str(m))
我們可以使用這個 findAll 方法來挖出圖片標籤。 這是一小部分輸出:






到現在為止還挺好。我原以為下一步就可以搞定了,但是當我在指令碼中嘗試了一些字串方法時,它返回了有關標記的錯誤而不是字串的錯誤。 我將輸出儲存到一個檔案中,並在 KWrite 中進行編輯。 KWrite 的一個好處是你可以使用正規表示式(regex)來做 “查詢和替換” 操作,所以我可以用 n‘, all_text)
if len(match)>0:
for m in match:
imagelist.append(m)
它的一小部分輸出如下所示:
images/cmcanvas.png” title=”Context Menu for the document canvas” alt=”Context Menu for the document canvas” />
,這被稱為貪婪,意味著它不一定停止在遇到 /> 的第一個例項。我應該補充一點,我也嘗試過 src=”(.*)”,這真的沒有什麼更好的效果,我不是一個正規表示式專家(只是做了這個),找了各種方法來改進這一點但是並沒什麼用。
做了一系列的事情之後,甚至嘗試了 Perl 的 HTML::Parser 模組,最終我試圖將這與我為 Scribus 編寫的一些指令碼進行比較,這些指令碼逐個字元的分析文字內容,然後採取一些行動。 為了最終目的,我終於想出了所有這些方法,並且完全不需要正規表示式或 HTML 解析器。 讓我們回到展示的那個 img 標籤的例子。

我決定回到 src= 這一塊。 一種方法是等待 s 出現,然後看下一個字元是否是 r,下一個是 c,下一個是否 =。 如果是這樣,那就匹配上了! 那麼兩個雙引號之間的內容就是我所需要的。 這種方法的問題在於需要連續識別上面這樣的結構。 一種檢視代表一行 HTML 文字的字串的方法是:
for c in all_text:
但是這個邏輯太亂了,以至於不能持續匹配到前面的 c,還有之前的字元,更之前的字元,更更之前的字元。
最後,我決定專注於 = 並使用索引方法,以便我可以輕鬆地引用字串中的任何先前或將來的字元。 這裡是搜尋部分:
index = 3
while index < linelength:
if (all_text[index] == '='):
if (all_text[index-3] == 's') and (all_text[index-2] == 'r') and (all_text[index-1] == 'c'):
imagefound(all_text, imagelist, index)
index += 1
else:
index += 1
else:
index += 1
我用第四個字元開始搜尋(索引從 0 開始),所以我在下面沒有出現索引錯誤,並且實際上,在每一行的第四個字元之前不會有等號。 第一個測試是看字串中是否出現了 =,如果沒有,我們就會前進。 如果我們確實看到一個等號,那麼我們會看前三個字元是否是 s、r 和 c。 如果全都匹配了,就呼叫函式 imagefound:
def imagefound(all_text, imagelist, index):
end = 0
index += 2
newimage = ''
while end == 0:
if (all_text[index] != '"'):
newimage = newimage + all_text[index]
index += 1
else:
newimage = newimage + 'n'
imagelist.append(newimage)
end = 1
return
我們給函式傳送當前索引,它代表著 =。 我們知道下一個字元將會是 ",所以我們跳過兩個字元,並開始向名為 newimage 的控制字串新增字元,直到我們發現下一個 ",此時我們完成了一次匹配。 我們將字串加一個換行符(n)新增到列表 imagelist 中並返回(return),請記住,在剩餘的這個 HTML 字串中可能會有更多圖片標籤,所以我們馬上回到搜尋迴圈中。
以下是我們的輸出現在的樣子:
images/text-frame-link.png
images/text-frame-unlink.png
images/gimpoptions1.png
images/gimpoptions3.png
images/gimpoptions2.png
images/fontpref3.png
images/font-subst.png
images/fontpref2.png
images/fontpref1.png
images/dtp-studio.png
啊,乾淨多了,而這隻花費幾秒鐘的時間。 我本可以將索引前移 7 步來剪下 images/ 部分,但我更願意把這個部分儲存下來,以確保我沒有剪下掉影象檔名的第一個字母,這很容易用 KWrite 編輯成功 —— 你甚至不需要正規表示式。 做完這些並儲存檔案後,下一步就是執行我編寫的另一個指令碼 sortlist.py:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# sortlist.py
import os
imagelist = []
for line in open('/tmp/imagelist_parse4.txt').xreadlines():
imagelist.append(line)
imagelist.sort()
outfile = open('/tmp/imagelist_parse4_sorted.txt', 'w')
outfile.writelines(imagelist)
outfile.close()
這會讀取檔案內容,並儲存為列表,對其排序,然後另存為另一個檔案。 之後,我可以做到以下幾點:
ls /home/gregp/development/Scribus15x/doc/en/images/*.png > ‘/tmp/actual_images.txt’
然後我需要在該檔案上執行 sortlist.py,因為 ls 方法的排序與 Python 不同。 我原本可以在這些檔案上執行比較指令碼,但我更願意以可視方式進行操作。 最後,我成功找到了 42 個影象,這些影象沒有來自檔案的 HTML 引用。
這是我的完整解析指令碼:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# parseimg4.py
import os
def imagefound(all_text, imagelist, index):
end = 0
index += 2
newimage = ”
while end == 0:
if (all_text[index] != ‘”‘):
newimage = newimage + all_text[index]
index += 1
else:
newimage = newimage + ‘n’
imagelist.append(newimage)
end = 1
return
htmlnames = []
imagelist = []
tempstring = ”
filenames = os.listdir(‘/home/gregp/development/Scribus15x/doc/en/’)
for name in filenames:
if name.endswith(‘.html’):
htmlnames.append(name)
#print htmlnames
for htmlfile in htmlnames:
all_text = open(‘/home/gregp/development/Scribus15x/doc/en/’ + htmlfile).read()
linelength = len(all_text)
index = 3
while index < linelength:
if (all_text[index] == '='):
if (all_text[index-3] == 's') and (all_text[index-2] == 'r') and
(all_text[index-1] == 'c'):
imagefound(all_text, imagelist, index)
index += 1
else:
index += 1
else:
index += 1
outfile = open('/tmp/imagelist_parse4.txt', 'w')
outfile.writelines(imagelist)
outfile.close()
imageno = len(imagelist)
print str(imageno) + " images were found and saved"
指令碼名稱為 parseimg4.py,這並不能真實反映我陸續編寫的指令碼數量(包括微調的和大改的以及丟棄並重新開始寫的)。 請注意,我已經對這些目錄和檔名進行了硬編碼,但是很容易變得通用化,讓使用者輸入這些資訊。 同樣,因為它們是工作指令碼,所以我將輸出傳送到 /tmp 目錄,所以一旦重新啟動系統,它們就會消失。
這不是故事的結尾,因為下一個問題是:殭屍 HTML 檔案怎麼辦? 任何未使用的檔案都可能會引用影象,不能被前面的方法所找出。 我們有一個 menu.xml 檔案作為聯機手冊的目錄,但我還需要考慮 TOC(LCTT 譯註:TOC 是 table of contents 的縮寫)中列出的某些檔案可能引用了不在 TOC 中的檔案,是的,我確實找到了一些這樣的檔案。
最後我可以說,這是一個比影象搜尋更簡單的任務,而且開發的過程對我有很大的幫助。