國之重器出版工程 大資料清洗技術 | 維持健康的好方法 - 2024年7月

國之重器出版工程 大資料清洗技術

作者:王宏志
出版社:人民郵電
出版日期:2019年12月01日
ISBN:9787560377537
語言:繁體中文
售價:459元

本書主要介紹了大資料清洗方面的研究成果。全書共分7章,重點面向大資料清洗中計算困難、錯誤混雜、缺少知識等難題,針對實體識別、真值發現、缺失值填充、不一致檢測與修復等問題提出了相應的技術和演算法,並在第7章提出了多資料品質問題綜合清洗與優化技術。

本書可作為高等院校和科研機構大資料、資料品質管理、資料治理等方面的教學和科研參考書。

王巨集志,哈爾濱工業大學電腦科學與技術學院教授、博士生導師,青年龍江學者。其研究方向為大資料、資料科學、資料管理與分析。在VLDB,SIGMOD等國內外重要會議和期刊發表學術論文200餘篇,出版學術專著兩本,先後主持國家自然科學基金重點專案等10餘個專案。獲得黑龍江省自然科學一等獎、教育部高等學校科技進步一等獎、黑龍江省青年科技獎等獎勵和榮譽。任ACMSIGMOD中國秘書長、中國資料庫專業委員會常務委員、ACM資料科學學科標準編寫組專家。

第 1章  緒論  1
 1.1 大資料的定義及其應用 2
 1.2 資料品質問題 4
 1.3 大資料的品質問題與挑戰 12
 1.4 資料清洗研究進展 13
 1.5 本書的內容 16
 本章參考文獻 17

第2章 大資料處理技術概述 21
 2.1 大資料平行計算平臺 22
 2.2 眾包技術 26
 本章參考文獻 29

第3章 實體識別 30
 3.1 實體識別概述 31
 3.2 串列實體識別演算法 35
 3.3 並行實體識別演算法 45
 3.4 增量實體識別演算法 77
 3.5 基於眾包的實體識別 94
 本章參考文獻 100

第4章 真值發現 107
 4.1 真值發現演算法概述 108
 4.2 並行真值發現演算法 109
 4.3 增量真值發現演算法 127
 4.4 基於眾包的真值發現 140
 本章參考文獻 144

第5章 缺失值填充 145
 5.1 缺失值填充演算法概述 146
 5.2 基於貝葉斯網路的串列缺失值填充演算法 150
 5.3 實驗結果及分析 175
 5.4 並行缺失值填充演算法 182
 5.5 基於眾包的缺失值填充演算法 196
 本章參考文獻 202

第6章 不一致資料檢測與修復 205
 6.1 不一致資料檢測與修復概述 206
 6.2 並行不一致資料檢測與修復演算法 211
 6.3 基於眾包的不一致資料檢測與修復演算法 225
 6.4 掃描資料一次的大資料不一致檢測演算法 229
 本章參考文獻 244

第7章 多資料品質問題綜合清洗與優化 249
 7.1 資料品質維度的關聯 250
 7.2 基於任務合併的並行資料清洗優化 274
 7.3 綜合大資料清洗系統 293
 本章參考文獻 303
名詞索引 307


相關書籍