注意這個網站的翻頁參數比較典型。所以順帶做一個說明,這個網站的翻頁需要使用“方式2:參數值列表”的方式才能順利通過。因為對方網站的列表頁的第一頁,如果按照數值增減模式,網址應該是http://www.ccgp.gov.cn/cggg/dfgg/gkzb/index_0.htm ,但是該網址無法訪問通過。因此需要改用方式2:參數值列表方式來實現。注意參數值列表輸入框中,第一個逗號,的前面,是沒有內容的,意思是為空。
點擊“下一步設置>>”按鈕,進入“選擇內容頁”標簽,此時可以看到系統已經為你挑選了所有的內容頁。此時我們只需要檢查一下右邊瀏覽器中,紅框框選范圍是否對的,如果是對的,則直接忽略進入下一步,如果不對,則手工干預一下,或者點擊“方式1:直接指定內容頁頁面(的鏈接)”的右邊的“高級設定>>>",打開高級設定調整對話框,按需要調整后,再點擊”重定范圍>>>“即可。
點擊設置窗口左下的“項目高級設置”按鈕,打開項目高級設置對話框,選擇“采集”標簽。依次勾選“顯示內容頁面的Url”,“需要采集列表頁面中鏈接所轄的內容”。如下圖所示:
圖示3:項目高級設置的選項
然后返回到剛才的“選擇內容頁”設置對話框中,可以看到在方式1的列表下面,會多出一個復選項按鈕“需要同時采集該鏈接(在本頁面內)所轄內容”,勾選該按鈕即可。如下圖:
圖示4:勾選“需要同時采集該鏈接所轄的內容”
繼續點擊“下一步設置>>”按鈕,進入“內容頁面模板管理”標簽中,選擇默認的方式1:使用自定義模板。點擊“添加新模板”按鈕。打開默認設置對話框。如下圖:
圖示5:添加新模板
打開內容頁面設置對話框后,此時內容頁面設置對話框的左側上方的列表中,會羅列從列表頁中鏈接所轄內容。注意“可見性”列中,會標明這些信息的來源是來自于“父頁面”。依次點擊設置采集該項即可:
圖示6:內容頁面模板的采集設置
注意,如果只需要采集列表頁內容,則不必點擊“開始分析”按鈕,但此時需要采集“(入口網址)”項。因為系統為每條記錄都要區分來源網址,如果不選項采集“(入口網址)”項,則該列表頁內所轄的幾十條信息的數據來源網址,都會標注為該列表頁的網址,入庫存檔的時候就會判斷為重復數據而被舍棄。
圖示7:選擇采集“(入口網址)”
至此設置完成。依次點擊確定按鈕保存設置,回到軟件主界面,點擊界面中“項目屬性”框右側的“立即運行項目”按鈕,或者在界面左側項目名稱列表中,選擇該項目名稱,然后右鍵彈出的菜單中選擇“運行該項目”:
圖示8:項目的運行的截圖
電話:171 9219 7361
建議/合作: 139 1618 6547
郵箱:123jlxie@ 163.com