一、 項目概述
地情數據中心是關于地方經濟和社會發展情況的資料征集、存儲及利用的信息系統。內容涉及自然、政治、經濟、文化及社會等方面,以舊志、年鑒等為靜態數據來源,以年度征集到的資料及報刊內容為動態資料來源,以數據庫及檢索等信息技術為支撐。地情數據中心可為地方志書編纂、文化傳播、資政研究等提供資料支撐,同時,也是搶救性地保存、傳承非物質文化的必要手段。
二、 必要性和緊迫性
(一) 建立地情數據中心,完成市政府下派的任務
《<全國地方志事業發展規劃綱要(2015—2020年)》,提出了“打造地情信息數字資源庫,逐步推進地方志工作數字化... ”、 “建立地方志資料保障機制…建立地方志資料庫,為修志編鑒和地情開發服務”等兩項任務。地情數據中心建設需要經過系統建設、數據收集、機制建立等過程,當下,應著手地情數據中心建設,確保2020年完成該項任務,同時,為三輪修志提供資料籌備。
(二) 建設地情數據中心,提升志辦效能,服務好全市方志工作
修志是方志辦的主業。志書作為資料性性圖書,完整、詳實的資料,對提升志書質量和編纂效率起到關鍵性作用,同時,資料也為高效編制各類文化專題讀物提供支撐。
縣級志書編纂普遍需要8年左右,如何縮短編纂時間,提升編纂效率是一個問題。通過購買信息化服務,快速從方志、檔案、報社等部門收集資料,可有效為各區資料搜集提供支持,為按時完成修志任務創造條件。
(三) 迫切需要抓住文化保護、繼承和發展時間窗口
近40年,我國從農業社會快速走到了后工業社會,原生態的鄉土文化快速消失,中華文化與外來文化、傳統文化與商業文化之間的交鋒更加頻繁,中央于2017年1月,出臺了《關于實施中華優秀傳統文化傳承發展工程的意見》,指出了文化建設的迫切性,提出要厘清中華文化的歷史淵源、發展脈絡、基本走向,實現民族和諧及文化自信,并提出了包含“做好地方史志編纂工作…挖掘和保護鄉土文化資源,提升鄉土文化內涵…”在內的各項任務。
鄉村振興及全面小康社會建設戰略,都對文化創造性轉化、創新性利用提出了明確的目標,為此,迫切需要通過信息技術,提升資料征集、管理及利用的效率。
三、 總體思路
內容定位:地情數據中心以成果庫及資料征集庫為兩大子庫,以存儲、檢索及用戶利用為三大軟件子系統。成果庫以已出版的文獻及實物、錄音、錄像、圖片等為主要內容;資料庫以收集到的一手資料為內容。
價值定位:為本區域歷史文化保存、編纂、傳播等提供素材,促進基于史實及文化的各類決策,為文化自信提供事實支撐。
建設定位:以地方志事業十三五規劃為指導,確保地情庫與編纂系統、利用系統等具有良好的集成,并具有可擴展性、可維護性和健壯性。
管理定位:以利用為導向促進系統規劃優化,以內部人員及協作單位為隊伍支撐,以數據共享節約投資成本,以管理體系為機制保障,確保地情庫數據內容、質量及價值持續增長。
四、 項目可行性分析
政策可行性。國家、省地方志發展規劃綱要,明確提出了地方志等文化資源開發及利用的要求。
技術可行性。廣東等省實施了地情資料征集實施管理辦法,力爭在2018年前完成地情庫及志書編纂系統建設,為第三輪修志做好信息化準備;浙江省方志辦于2016年開通了浙江地情庫,先期導入了《(雍正)浙江通志》和《(民國)浙江通志稿》),并為《浙江通志》編纂人員及全省方志人提供了資料檢索服務。特別值得一提的是,當前基于時(歷史紀年)空(歷史地名追溯)及相關性組合(如農業、水利、災異等組合)這一具有史志行業特色的檢索技術,已經基本成熟,為地情數據中心建設提供了有益的借鑒。
經濟可行性。地情庫建設費用,由地情數據庫軟件購置費,書報數據版權授權和數據采集等費用構成,數據加工及導入等三個方面的費用。其中數據購置及加工費用,依照數據量來計費。為此,可以采用市、區縣、街道等共建的策略,即上級負責軟件系統的購置(開發)及市本級數據的導入,區(縣)負責本級數據的導入,并獲得區級地情庫。及采用共享共建的策略,在確保技術一致性的基礎上,還可以減少單個單位的建設投入費用。
實施可行性。地情庫項目實施,基于檢索技術的軟件部分的個性化適配及安裝,可由專業軟件企業去承擔。占據工作量最大部分的數據購置、采集及錄入等數據開發工作,可采用志辦領導監督、報社負責、大專院校師生參與的模式,協同做好數據規劃、實施方案設計、任務分工、數據采集、數據考訂、驗收、入庫等工作,以克服市、縣(區)、鄉(鎮、街道)等機構缺乏如人員不足的矛盾。
五、 項目目標
(一) 2017年,完成地情庫及檢索系統建設,創新存史及利用功能
以成熟的系統原型為基礎,完成地情庫的內容結構規劃,明確系統應滿足的用戶類型及其需求,完成系統的開發及部署,并通過驗收。
(二) 2018年前后,實現成果數據入庫,為區志編纂提供資料支持
在地情庫總體結構下建立志書、年鑒等分庫,分庫以專題(如《杭州年鑒2017》)為最小庫單位,完成已出版志書、舊志、年鑒等成果的入庫,建立與內容特征一致的索引庫,為全市志書編纂及研究人員,提供追溯事物發端、查證歷史脈絡等支持,提升方志編研效率。
同時,建立報刊數據子庫,字庫下開設社會、經濟、文化等專題,讓編研人員利用報刊數據,準確把握時代特征,查證地方及行業特色。
(三) 2018年后,建設資料征集子系統,為各類志書及讀物編纂做好準備
資料征集是為了對已經發生的事物、事件,進行及時地記錄、補充或糾錯,征集子系統以專題為單位(如2016年的地情年報),明確專題的內容范圍、用途、收集渠道、收集人等信息,為今后的綜合志書及專題志書(如西湖龍井茶葉志、錢塘鄉村志、運河志)及讀物編纂提供資料支撐。
六、 地情數據中心功能概述
地情數據中心,依照其使用對象不同,分成五大子系統。
(一) 成果庫子系統
成果子系統是由數據導入(錄入)人員使用的子系統,其數據是將已經出版的志書、年鑒、報刊等內容,采用統一格式的PDF文件(圖片及文字雙層格式),經技術人員分頁、數據清洗及關鍵詞提取等處理之后,形成可供用戶檢索及引用的數據源。成果庫具有庫結構管理功能,以提高資料的可利用性。
(二) 檢索利用子系統
檢索利用子系統是供讀者使用的子系統,讀者通過模糊檢索、分庫高級檢索等手段,從成果庫中檢索到需要的資料內容。
圍繞用戶搜索時的關鍵詞,系統具有自動向用戶推薦關聯詞匯、熱點詞匯的能力,并通過算法將檢索結果,按照與用戶意圖的緊密程度進行排序。系統考慮到方志編纂及研究等人員對資料引用需要,檢索結果可顯示資料的出處。下圖是志庫檢索系統檢索結果列表界面圖。
今后,還可以面向借閱管理需要,在系統中擴展讀者管理等功能。
(三) 資料征集子系統
征集子系統是滿足資料征集(采集)人員,依照征集方案協同開展資料收集的子系統。主要功能有面向征集負責人的專題開設、人員分工、績效統計等功能;面向資料供稿人員的數據錄入、數據審核等功能。征集子系統滿足對文本、音頻、視頻、圖片等不同介質類型數據的錄入,同時,滿足報刊、書籍、檔案、口碑等不同來源途徑的著錄登記。規范的數字格式,可滿足專業人員對資料正確性及完整性的需要。右圖是資料卡片類型。
(四) 倉庫及安全子系統
倉庫及安全子系統,是面向數據中心技術管理人員使用的子系統。用戶可以對既有的成果及資料,依照內容發生時間、行政區域及內容性質等條件,從總庫中抽取數據建立專題庫(如濱江2001~2005),以滿足不同利用的需要。也可以面向社會(如學生愛家鄉)、政府(“五水共治”)等需要建立專題庫。右圖是地方志資料庫一級目錄圖。
安全管理模塊,具有數據備份、數據接口授權等功能,以提升數據及系統的安全性。
(五) 系統管理子系統
系統管理子系統,是面向技術維護人員的,以提升系統的可擴展性及可維護性。主要功能有,對系統著錄字段、歷史紀年、地名等元數據進行管理,提升數據的規范性及可利用性;對系統角色權限、用戶帳號等進行管理,以提升系統權限安全性。
七、 項目實施方案
項目實施方法有多種形式可選。一種是自頂而下(瀑布法),即依照全面規劃、需求設計、架構設計和實現的順序執行,這種方法適合系統重構性質的項目,這種方法的優點是問題考慮全面,缺點是進度慢;另一種是迭代法,即系統先上線部分功能,之后再依照用戶需求,持續、增加發布系統的功能,優點是速度快,缺點是對開發團隊人員素質要求高。
鑒于志編纂人員對資料需求的迫切性,可以采用迭代法,即利用當前成熟可用的方志資料(成果)檢索系統,快速部署并導入數據,滿足用戶的部分需要,之后,再開啟增加、擴展、優化功能。
下面的實施方案,可以依次順序執行,也可以交替迭代執行。
(一) 成果庫子系統實施方案
第一步:設計成果庫數據拓撲結構。即擬定地情數據所有資料的分類方法,便于今后資料歸類及利用。
第二步:部署及優化成果庫系統。 將檢索系統部署在甲方指定的運行環境中,在志庫公司史志成果庫系統功能基礎上,依照甲方的專題管理、數據統計需要,對系統進行個性化二次開發。
(二) 成果庫數據導入(錄入)及系統初始化實施方案
第三步:成果數據導入。將不同格式的方志、年鑒、報刊等數據,以書籍自然頁或報紙自然版面為單位,將數據轉化為PDF文檔。首批導入的數據以市級志書、年鑒及報刊的部分或全部。
第四步:文檔切割及清洗。利用成果庫中的文檔分頁切割工具,將整個文檔切割成以書的自然頁或報刊的自然版面,并對頁面標注出處屬性,對數據格式進行清洗,確保數據格式與檢索系統運行環境要求相一致,為檢索系統提供干凈的數據源。
第五步:建立索引庫。依照方志內容及本區域地理人文特點,提取內容中的索引關鍵詞,并將志庫公司積累的方志關鍵詞導入檢索系統中,依照關鍵詞建立索引。
(三) 征集子系統建設實施方案
征集子系統可以與成果庫子系統的用戶有一定的交集,故兩個系統可以集成為統一平臺;考慮到資料數據的安全性,最佳策略是資料庫獨立運行,再依據需要人工將資料庫遷移到成果庫中,使成果庫可以檢索到新征集到的資料。
第一步:編制并確定技術解決方案。技術解決方案包含資料征集的總體職能、流程及人員組織等業務架構,依照業務架構設計系統功能及界面,甲方對該方案進行評審。
第二步:開發征集子系統。在志庫公司志書編纂信息系統的資料卡片模塊功能基礎上,進行資料征集系統的開發、測試及部署。
第三步:運行征集子系統。依照甲方資料征集工作安排,建立一個資料專題并明確征集分工,相關用戶協同在系統中征集資料,管理人員監控整個過程。在系統運行過程中,培養隊伍的IT應用能力,并為系統優化提供需求。
(四) 系統及數據維護實施方案
地情數據中心之下的成果庫、資料庫,其數據價值非常之高,資料利用用戶數量大,用戶對系統的穩定性要求高,因此,需要建立運維解決方案,確保應用系統及數據的安全,并確保系統穩定運行。
第一步:建立地情數據中心維護方案。明確所維護對象(網絡、數據、系統),依照維護對象分別建立安全策略、應急措施及績效監管等運維方案。
第二步:評維護方案。邀請地情業務、網絡安全等相關專家,對維護方案進行評審。