★學習要求:大數據的類型,了解每個類型的相關含義、特點
★考察方向:
1.大數據的類型有哪些?
2.通過場景判斷是那種類型?
3.各類型的特點
★可能難以理解的點
●對于非專業(yè)考生來說,可能這些名詞都比較陌生,所以有可能都比較難理解
●“先有結構,再有數據”
●“先有數據,再有結構”
●“自描述的結構”
?考點講解:
必須記住——從數據結構化的程度來看,大數據的類型可以分為:結構化數據、半結構化數據和非結構化數據。
什么是“數據的結構化”?
簡單說,“結構化”就是數據的“組織形式”——就像咱們教室里的座位,每個位置都有固定的行和列,誰坐第幾排第幾號一目了然。數據的結構化程度,本質就是“數據有沒有固定的、整齊的‘座位表’”。根據這個“座位表”的清晰程度,大數據分為三類:結構化數據、半結構化數據、非結構化數據。
結構化的數據一般是指可以使用關系型數據庫表示和存儲,可以用二維表來邏輯表達實現(xiàn)的數據。它就像咱們的“學生成績表”:表頭固定是“姓名、學號、語文、數學、英語”,每一行對應一個學生,每一列對應一個科目,數據必須填在對應的格子里,不能亂套。
怎么理解“先有結構,再有數據”
可以這樣理解:比如學校要統(tǒng)計成績,肯定是先設計好“姓名、學號、科目”這個表格結構(也就是先定好“座位表”),然后才把每個學生的成績填進去。再比如銀行的賬戶信息,一定是先有“卡號、戶主、余額、開戶日期”這些固定字段,再記錄每個人的具體信息——結構是“框架”,數據是“填充的內容”,框架先于內容存在。
半結構化數據是個“中間派”——它不像結構化數據那樣有嚴格的二維表格框架,但會用一些“標記”來區(qū)分數據的含義。比如咱們寫作文,沒有固定的“表頭”,但會用“標題、段落、標點”來分隔內容,這些“標記”就幫數據形成了隱性的結構。
怎么理解“先有數據,再有結構”和“自描述的結構”
- 先有數據,再有結構:比如你發(fā)朋友圈,先寫“今天去看了電影,超好看!”(這是數據),然后微信系統(tǒng)會自動用標記區(qū)分“發(fā)布人、內容、時間、點贊數”(這是結構)——數據先產生,結構是后續(xù)通過標記“提煉”出來的,和結構化數據正好相反。
- 自描述:數據自己會“說明”自己的含義。比如HTML文檔里的“<標題>大數據分類”,這個“<標題>”標記就告訴電腦“后面的內容是標題”,不用依賴外部表格,數據自帶“說明書”。
非結構化數據最大的特點就是“沒有任何固定的結構”——你沒法用表格拆分它,也沒有明顯的標記來區(qū)分語義,只能作為一個“整體”來處理。比如一張照片,你不能像拆成績表那樣把“人臉、背景、顏色”拆成固定字段;一段語音,也沒法直接拆成“語氣、內容、停頓”的表格形式。
因為沒有固定結構,非結構化數據一般以“二進制格式的數據格式”存儲——比如圖片存成JPG/PNG,視頻存成MP4,音頻存成MP3,都是電腦能識別的二進制代碼,直接整體保存,不用拆分字段。
信管網訂閱號
信管網視頻號
信管網抖音號
溫馨提示:因考試政策、內容不斷變化與調整,信管網網站提供的以上信息僅供參考,如有異議,請以權威部門公布的內容為準!
信管網致力于為廣大信管從業(yè)人員、愛好者、大學生提供專業(yè)、高質量的課程和服務,解決其考試證書、技能提升和就業(yè)的需求。
信管網軟考課程由信管網依托10年專業(yè)軟考教研傾力打造,教材和資料參編作者和資深講師坐鎮(zhèn),通過深研歷年考試出題規(guī)律與考試大綱,深挖核心知識與高頻考點,為學員考試保駕護航。面授、直播&錄播,多種班型靈活學習,滿足不同學員考證需求,降低課程學習難度,使學習效果事半功倍。
| 發(fā)表評論 查看完整評論 | |