簡(jiǎn)單而言大數(shù)據(jù)是數(shù)據(jù)多到爆表。即是一種規(guī)模大到在獲取,存儲(chǔ),管理,分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合。
大數(shù)據(jù)的定義是什么
對(duì)于“大數(shù)據(jù)”研究機(jī)構(gòu)Gartner給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
隨著云時(shí)代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注。分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)。
大數(shù)據(jù)的特點(diǎn)是什么
容量(Volume):數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價(jià)值和潛在的信息。
種類(Variety):數(shù)據(jù)類型的多樣性。
速度(Velocity):指獲得數(shù)據(jù)的速度。
可變性(Variability):妨礙了處理和有效地管理數(shù)據(jù)的過程。
真實(shí)性(Veracity):數(shù)據(jù)的質(zhì)量。
復(fù)雜性(Complexity):數(shù)據(jù)量巨大,來源多渠道。
價(jià)值(value):合理運(yùn)用大數(shù)據(jù),以低成本創(chuàng)造高價(jià)值。
大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越成為數(shù)據(jù)的主要部分。據(jù)IDC的調(diào)查報(bào)告顯示:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。
溫馨提示
溫馨提示