中國網/中國發展門戶網訊 在年夜數據時代,海量數據作為各領域的主要資源,其更多的價值有待被發掘,更年夜的潛能有待釋放。此外,移動通訊設備的深度普及、互聯網的周全覆蓋,以及5G、人工智能(AI)等的高速發展,不斷推動年夜數據本身的更換新的資料和前進。從企業產生的內部數據在生產經營等環節中蘊含著主要價值,到個人產生的數據在安康治理及聰明醫療等應用場景發揮著主要感化;從海量數據采集困難重重到社會經濟活動隨時隨地產生數據司空見慣,數字已賦能全社會、各領域、各行業產業的發展。
在科學技術進步和社會發展變革的佈景下,當前年夜數據除了擁有宏大的體量,多源異構的特點也充足凸顯,對海量數據的剖析也產生了許多新需乞降新挑戰。是以,若何科學、有用、周全地融會多種來源、各種類型的“硬數據”和“軟數據”,化解多源異構年夜數據融會在理論和實踐中的難題,使數據的堆砌變為具有價值的“黃金”,成為有待解決的主要問題。
多源異構年夜數據新特征與數據融會新需求
互聯網連接了人們的生涯、企業的生產和當局的治理,也使得社會各參與者在無數活動中產生數據。這些數據來源廣泛,結構復雜多樣,同時,數據可獲得性的增強也使更多領域日益重視數據資源價值的發掘。是以,海量數據的新特征及更多領域的新需求,促使多源異構年夜數據融會成為年夜數據研討領域的主要內容。
多源異構年夜數據呈現的新特征總體可以歸納綜合為:穿插性、多元性、變化性和共識性。分歧活動、分歧業務的內容經常出現重疊,大批跨行業、跨媒體、跨數據庫的數據具有很強的穿插性。數據形態結構也呈現多樣化,既有數字、表格等結構化數據,也有文本、圖片、聲音、視頻等非結構化及半結構化數據。此外,多“為什麼?”藍玉華停下腳步,轉身看著她。元性不僅是數據類型、結構分歧,並且是數據中蘊含的內容和知識的多“維度”與多“粒度”,體現了數據和知識間復雜大安 區 水電 行的立體關系。數據的變化性指數據隨著時間的推移發生變化。數據的共識性是指人們對良多數據之間的關系及數據和知識之間的關系已經達成共識,這些關系和知識具有廣泛適用性,有助于樹立起數據、信息和知識間的關聯關系,發掘更多知識。
發掘多源異構數據中的信息和知識并將其轉化為價值,離不開數據融會。過往的數據融會也稱為信息融會,其內涵為組合和處理多來源的數據和信息,使其優勢互補、消除噪聲、化解牴觸,進步信息的完全性和可托度,獲得比單一信息更準確、更靠得住的估計或決策。信息融會的模子重要包含結構模子和效能模子。結構模子描寫了信息融會系統的任務方法,在融會效能的安排上分為集中式結構、分布式結構和混雜式結構。效能模子重要對信息融會系統及子系統的效能感化及各部門的關系進行建模,包含JDL模子(Joint Directors of Laboratories)、Omnibus模子、OODA模子(Observation,Orientation,Decision,Action)及其改進模子。JDL改進模子對多元信息融會任務構建了6級效能:次目標估計、目標評估、態勢評估、影響評估、過程優化、認知優化。OODA模子由觀測、定向、台北 水電 行決策和行動4部門組成,其擴展松山區 水電模子可以處理彼此影響的信息之間水電行的融會。信息融會形式可以抽象為3個層級,分別是水電師傅數據級融會、特征級融會和決策級融會。數據級融會重要指對雷同介質傳感器搜集的數據直接進行融會松山區 水電行;特征級融會是指先從原始數據中提取特征,然后對它們進行融會;決策級融會則是對特征或已經獲得的初步結果進行更高層次的融會,得出更綜合和系統的決策。分歧融會層次都有大批方式和技術,包含主成分剖析、Kalman濾波、貝葉斯估計、機器學習、D-S證據理論、智能計算等。從數據級融會到特征級融會再到決策級融會,融會的層次越來越高,計算量和精度下降,信息損掉增添,但穩健性和靈活性獲得晉陞。多元信息融會的應用重要在軍事、通訊、把持、醫療、路況等領域,融會的數據以傳感器產生的中山區 水電“硬數據”為主。
多源異構年夜數據對數據融會的新需求使數據融會在理論研討、方式技術和實際應用中都迎來了挑戰。當前由于多源異構年夜數據在全領域、各行業的滲透和價值的發台北 水電 行揮,數據發掘與融會的應用延長到企業治理、當局管理、銀行風險防范等諸多社會經濟問題中,這些新興的應用場景有別于信息融會傳統的應用領域,是以,企業、當局等眾多參與主體的應用場景對數據融會提出了新需求。在社會經濟和治理領域中,數據來源更具復雜性和開放性,研討問題往往參與主體較多,系統性較強,存在大批直接關聯或隱性關聯的數據,與傳統傳感器搜集的數據比擬,預設數據源的主要性能夠下降,開發和確定新數據變得主要。同時,社會活動離不開“人”的參與,是以充足考慮與“人”有關的“軟原因”和“軟數據”,將其與其他“硬數據”融會剖析,成為新的需求。在數據融會形式上,將多個層級的融會相結合而非單獨局限于某個層次的融會,使數據融會貫穿于數據發掘全過程成為未來發展標的目的。此外,社會、經濟和治理領域的應用場景需求強化前沿技術與領域專家知識的結合,增強方式東西在應用中的可懂得性及和實踐的聯系具有主要的意義。
基于WSR的多源異構年夜數據融會研討思緒
如前所述,鑒于當前跨媒體、跨行業等多源異構數據的穿插性、多元性、變化性和共識性,要實現對形態結構各異的數據進行統一剖析和發掘,離不開數據融會。李愛華等對比剖析了信息融會的3個層級和商務智能中“數據、信息、知識”3個層次的關聯和區別,以此為基礎,借鑒“物理—事理—人理”(WSR)系統科學方式論的思惟,提出了廣義數據融會的內容,將其貫穿于商務智能的剖析過程。
WSR系統科學方式論綜合考慮了系統實踐活動中“物”“事”“人”3個維度,強調了客觀世界、系統組織和人的動態統一和緊密聯系,它們三者構成整體,缺一不成。“物理”是對現實世界的組成、屬性和客觀規律的研討,“事理”是解決問題的方式,“人理”是對人的動態活動、思惟行為及和環境的彼此影響等的研討。在社會、經濟和治理等領域,人是各種台北 水電活動的主要參與者,實際問題的解決和決策制訂有賴于客觀狀況、解決方法,以及與人相關的原因等多個方面,這與W松山區 水電SR方式論中“物”“事”和“人”構成對應。基于WSR,本文提出的廣義數據融會的內涵是:綜合運用多種方式,對多源異構的原始數據進行發掘,將獲得的內涵、形式、決策及其他“軟原因”等進行綜合、周全地處理和剖析,最終實現高效的融會後果,為決策供給輔助和信義區 水電支撐。廣義多源異構年夜數據融會包括數據資源的融會、模子方式的融會和決策者知識和經驗的融會。在商務智能中,“數據”是通過各種渠道獲取的、未經加工的原始資源;“信息”是對數據初步剖析后發掘獲得的潛在特征、關聯和規律等;“知識”是通過進一個步驟推理獲得的更有價值的結論等。數據為解決問題供裴儀被西娘拽到新娘身邊坐下,跟著眾人往他們身上扔錢和五顏六色的水果,然後看著新娘被餵生餃子。西娘笑著問她是否還給了原資料,信息和知識為決策制訂供給了依據和支撐。由于基于WSR方式論的廣義數據融會貫穿于商務智能剖析“數據—信息—知識”的全過程,是以可以劃分為數據層融會、信息層融會和知識層融會3個層次(圖1)。
圖 1 基于“物理—事理—人理”(WSR)方式論的商務智能剖析場景中數據融會的3個層次
Figure1 Three levels of data fusion in business intelligence analysis scenarios based on WSR
WSR在多源異構數據層融會重要體現在數據源的確定和數據的搜集。在社會管理、她是昨天剛進屋的新媳婦。她甚至還沒有開始給長輩端茶,正式把她介紹給家人。結果,她這次不僅提前到廚房做事,還一個企業治理、經濟發展、風險治理等問題場景中,由移動設備、網絡等搜集的人的行為活動數據發揮著越來越主要的感化;研討問題的跨行業、跨領域、跨學科的穿插性,以及多源異構數據的跨媒體性,年夜年夜晉陞了數據源的數量,同時也增添了數據源選擇和確定的難度。數據的選擇具有必定的主中山區 水電行觀性,針對同樣的問題,選擇分歧的數據能夠有分歧角度的發現。數據的選取需求綜合考慮實際問題和領域專家經驗。是以,基于WSR可以從“物”“事”“人”信義區 水電行3個維度出發對數據進行選擇,即客觀數據、行為活動產生的數據和評價、觀點、情緒、判斷、預期等與“人”親密相關的數據。此外,多源異構數據轉化和綜合性指標的構建也是數據層融會的內容。結構化、半結構化、非結構化、分歧粗細粒度、動態、靜態的數據很難直接進行建模剖析。是以,需求對多源數據進行轉化,通過聚合、關聯、特征提取、文本發掘、計算新變量等多種方式技術使它們能夠進行統一剖析,為信息層融會構建綜合性模子和發掘深層次信息供給基礎。WSR中的“人理”表現為數據轉換和指標樹立過程中的可懂得性與實際意義。
WSR在數據融會信息層的應用不僅體現在將多種模子方式進行綜合集成,對數據層融會結果進行剖析,還體現在人們對模子方式的選擇,以及數據科學技術與社會、經濟大安區 水電等領域知識、道理和方式的結合。社會管理、經濟發展、企業治理領域有本身特點和基礎的理論、道理,數據融會的技術東西不克不及脫離原有學科領域的理論基石。是以,在方式的選擇上需求不斷摸索傳統方式與新興技術相互結合的路徑,尋求結果準確性和可解水電網釋性之間的均衡。信息層融會“事理”中模子樹立的常用方式包含分類、聚類、關聯規則發掘等機器學習、深度學習和人工智能方式,以及多種方式的集成模子等。此外,數據融會信息層中方式的選擇與“人理”親密相關,在解決實際的社會治理問題時,需求在周全考慮有關參與各方的基礎上,采用合適的方式和模子,而非一味地尋求方式的復雜和結果的精確。
WSR在知識層融會中的應用重要體現在最終的決策需求有機結合“人理”,將與人有關的原因與客觀數據剖析結果相融會依然為研討的熱點。知識層融會的“物理”是從信息層融會獲得的結果,通過結合專家意見、決策者偏好等更多原因,通過采用更高層次的推理、發掘方式,將低階段融會結果再次進行融會剖析,獲得深度關系和可領悟的知識,實現需求的滿足或決策的支撐。決策的制訂和知識的認知與人親密相關,專家意見、決策者偏好、社會環境等都能夠影響最終的結果,是以“人理”在數據融會知識層融會中的主要性不成輕視。
多源異構年夜數據融會在數據應水電用環節中碰到的問題和挑戰
在新應用場景中,多源異構年夜數據融會產生的新特點促使其內涵獲得擴展和延長,同時也給多源異構年夜數據融會在存儲、集成、剖析、治理等方面帶來新的挑戰和難題。
高質量的數據存儲問題亟待解決。數據存儲是數據剖析的基礎和前端任務,數據存儲越有用,后續的數據提取、預處理和剖析等將越便捷和高效,是以數據存儲在整個融會剖析過程中非常主要。但是,數據存儲任務自己繁瑣冗雜,當前爆炸式增長數據的多源異構性更給數據存儲增添了難度。面對繁雜的數據來源,數據存儲要解決的問題是:存儲哪些數據。對歷史數據的清算和往除可以節約存儲空間,但也能夠流掉有價值的數據資源,是以需求權衡數據主要性和空間占用的關系。若何存儲數據。針對多源異構年夜數據,若何條理清楚存儲形態各異的數據成為不成防止的問題。存儲的數據質量也至關主要。數據質量顯著影響剖析的結果,假如不重視存儲階段,導致數據保留不規范甚至出現錯誤,會嚴重影中山區 水電響后續剖析的效力和準確性。
數據孤島與應用壁壘導致數據集成融會困難。雖然每時每刻都有大批數據產生,但真正有用應用這些數據仍面臨困難,年夜部門數據以“數據孤島”的情勢存在,彼此之間互不連通,數據的應用存在明顯的壁壘。數據層的融會與集成中山區 水電行難度有2個方面:來源于主觀原因,即數據的應用權限,良多內部數據不對外開放,難以獲取;來源于客觀原因,即數據由分歧業務活動產生,即便在統一個企業或機構內部,數據也由于碎片化問題、分歧的結構情勢和存儲標準等,導致跨部門數據的應用困難。這些原因增添了數據資源融會的難度,晦氣于充足發松山區 水電掘數據價值。
多源、異構年夜數據增添了分歧場景下數據剖析與發掘的難度。多源異構年夜數據給數據融會技術帶來許多新挑戰。數台北 水電據融會不僅要實現多源異構數據的轉化和統一集成剖析,還需求關注數據背后的隱含知識,強化對數據意義的懂得,將共識性的知識與數字的剖析有機結合。在融會模子和方式中,解決跨領域、跨媒體、跨語言、多學科的融會依然為研討的前沿和難點。數據融會的對象以松山區 水電行數字、表格、文字、圖片、視頻、音頻,或許知識、規律、模子等多情勢共存,內容觸及分歧領域,甚至能大安 區 水電 行夠包括分他早就料到自己可能會遇到這個問題,所以準備了一個答案,但萬萬沒想到,問他這個問題的不是還沒出現的藍太太,也不是歧語言,需求充足考慮分歧數據資源的特點和分歧領域的差異及個性,跨語水電 行 台北言的融會則有賴于跨語言數據關聯和年夜規模知識庫。此外,當前海量、多源、異構數據也對數據處理和剖析速率提出新的請求,如良多價值蘊躲在高頻數據或許數據流中,需求高效疾速地實時處理數據技術;同時,數據融會方式和技術由于數據量的增添也需求不斷優化。
數據的維護、平安和隱私泄漏是當前數據治理需求關注的重點。多源異構年夜數據需求高機能的網絡架構和強年夜的數據中間支撐,是以數據倉庫和數據中間的運營維護也將成為挑戰。數據量龐年夜、動態演變使數據庫及知識庫的增量更換新的資料、錯誤恢復等操縱難度年夜年夜增添,若何保證數據穩定、支撐高并發的同時減少服務器的低負載情況也成為數據中間維護的重點內容。數據融會剖析中,需求進步對數中正區 水電行據平安的重視水平。硬件設備設施的毛病、網絡黑客的攻擊等都能夠導致數據資源的丟掉。是以,對數據的多正本與容災機制的樹立需求不斷加強。此外,信息平安問題水電師傅也獲得廣泛關注,人們對隱私的保護日益重視。數據融會增強了數據間關聯性,也使個人隱私、企業、國家平安信息等面臨更年夜的泄漏風險和威脅,是以在剖析過程中若何保護敏感信息,若何在靈活應用數據台北 水電時保證數據平安也是數據融會未來研討中主要的課題。
數據開放與共享、數據交換以及數據資產定價需求進一個步驟關注。數據潛在價值的發揮與數據的開放水平親密相關,往往開放水平越高的數據,越能被發掘出更多價值,應用于更多場景和領域。但是,數據的開放面臨良多復雜問題。由于商業好處、行業壟斷、信息平安等問題,數據的開放遭到極年夜的限制。對數據權責清楚界定存在必定困難,例如個人用戶經常是數據的生產者,也是數據的受害人。實際中數據一切者和權利往往不斷發生變化,一切者及其權利的界定尚未達成明確的共識。缺少數據共享相關的完美的政策法規也制約了數據的開放。數據的價值越來越遭到重視,數據的交換、買賣及相關市場隨之產生,若何界定數據買賣價值,維護買賣行為的平安和良性發展,保證個人、組織和國家的符合法規權益,成為多源異構年夜數據時代的新挑戰。
多源異構年夜數據融會發展的思慮
對于多源異構年夜數據,從復雜系統的研討視角來說,數據是客觀存在的“物理”、融會分歧數據的方式則是“事理”、對多源異構年夜數據的治理則和“人理”聯系親密。是以,針對多源異構數據在存儲、應用、剖析、維護等方面存在的挑戰,借鑒WSR3個維度協調統一的思惟,從數據、方式和中山區 水電治理3個方面針對數據融會在應用中的挑戰提出了3點思慮(圖2)。
圖2 基于“物理—事理—人理”(WSR)的數據融會發展的思慮
Figure 2 Thinking on development of data fusion based on WSR
從數據角度上看,繼續優化采集和存儲。對于數據宏大、結構類型復雜的數據而言,存儲和數據庫建設是復雜的工程。起首要明確業務需求,發揮數據工程師和領域專家、業務人員的配合感化,開發年夜數據應用場景,這有賴于對客觀數據自己特點(也即“物理”)的深刻剖析,對“人理”的充足懂得,以及數據和人們需求之間的聯系與協調。數據的存儲不克不及僅局限于當前的需求,由于技術的進步和業務的更換新的資料,新的需乞降潛在需求會不斷產生,可以基于WSR的“物”“事”“人”3個維度確定數據存儲資源。此外,對跨媒體多源異構年夜數據的搜集和存儲需求更先進的“事理”。在數據融會的新需求下,要進一個步驟強化數據庫的建設和維護,在數據存儲時考慮數據的多源異構性,實現對結構化數據、半結構化和非結構化數據的兼容,樹立數據融會溯源機制,從而進步數據庫增量更換新的資料和部分修正的靈活性與簡便性。高效、高質量的數據存儲是年夜數據融會剖析的基石,數據的存儲需求最年夜限制地為數據的應用供給方便,清楚的格局、統一的標準等有利于高效的數據調用、處理、剖析、更換新的資料和維護等,能夠極年夜地節約資源和本錢。松山區 水電
從方式上看,需求多維度晉陞數據融會後果。晉陞海量多源異構數據的融會後果,有賴于硬件設備和技術的配合進步。復雜結構、數量龐年夜數據和信息的融會對硬件設備提出了更高的請求,進步硬件設備的機能,完美相關基礎設施的建設,能夠為未來進一個步驟年夜數據融會的發展奠基堅實的基礎。在融會方式方面,不斷進行技術創新,針對數據層融會、信息層融會和決策層融會各層的特點、區別和需求,對原有算法、模子等進行改進、集成和融會。充足借鑒多學科的思維,從分歧角度獲取處理多源數據、融會多元知識的啟示。此外,加強穿插學科人才的培養,在數據融會的理論研討和實際運用中,充足發揮數據科學家、領域專家、領域知識庫的配合感化,構成“1+1>2”的互補優勢。
從治理角度看,需求樹立共享機制,保證數據開放和數據平安。當前數據作為一種新興的要素,能夠產生越來越多的價值,無論企業還是當局,都日益進步對數據的重視水平,不斷增強年夜數據治理,提出與時俱進的數字化發展戰略。是以,若何充足、高效、平安的實現數據價值成為主要的問題。數據價值的發揮和潛能的釋放離不開數據的開放和共享,而數據的開放不成防止影響數據的平安。是以,需求周全、綜合考慮各方好處,樹立健全數據共享機制,不斷完美相關法規政策,為數據共享、數據平安等供給強無力的法規保證,實現數據共享的同時遏制數據濫用,樹立可持續發展的良性數據共享生態系統。保護數據與信息的平安還可以采取物理隔離與權限把持相結合的方式,通過隔離避免不符合法令訪問;研討下降隱私泄漏風險的戰略和評估模子,及時進行風險預警和保護戰略更換新的資料;強化年夜數據網絡平安的構建等。在多源異構數據融會治理中,“人理”至關主要,連接數據孤島、打破數據壁壘,離不開各個部門之間高效的溝通和協同一起配合。年夜數據共享生態系統需求全社會各主體參與共建共治,才幹實現數據共享、好處保護、平安保證的良性環境,為未來數據融會的發展和數據價值的增長供給基石。
結語
在新興應用場景下,多源異構年夜數據融會在數據層、信息層和知識層中有了新的特點和內涵,借鑒WSR系統科學方式論,綜合物、事、人3個維度對數據融會的各個層次進行剖析和研討,有利于更好地解決多源異構數據融會問題,為決策供給更具綜合性的支撐。數據融會對人類駕馭數據的才能提出新挑戰,使數據在存儲、應用、治理等多個方面產生了新的難題,但也為人們獲得更為深入、系統和綜合的洞察才能以及更充足的數據價值發掘和應用,供給了宏大的空間與潛力。
(作者:李愛華、續維佳,中心台北 水電行財經年夜學治理科學與工程學院;石勇,中國科學院年夜學經濟與治理學院 中國科學院虛擬經濟與數據科學研討中間 中國科學院年夜數據發掘與知識治理重點實驗室;編審:黃瑋,《中國科學院院刊》供稿)
發佈留言