www.467cc.cn-无人在线观看高清电影电视剧,无码少妇一区二区三区免费,午夜福利视频,欧美爆乳乱妇高清免费888

<sup id="a8eos"><samp id="a8eos"></samp></sup>
  • <strike id="a8eos"></strike>
  • <strike id="a8eos"><menu id="a8eos"></menu></strike>
  • <fieldset id="a8eos"><input id="a8eos"></input></fieldset>
  • <fieldset id="a8eos"><input id="a8eos"></input></fieldset>
    產(chǎn)品展廳收藏該商鋪

    您好 登錄 注冊(cè)

    當(dāng)前位置:
    東莞市宇匠數(shù)控設(shè)備有限公司>技術(shù)文章>一種基于數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法

    技術(shù)文章

    一種基于數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法

    閱讀:167          發(fā)布時(shí)間:2020-8-12

    描述

    [0001]本發(fā)明涉及大數(shù)據(jù)處理描述,特別是一種基于數(shù)據(jù)加工中心的數(shù)據(jù)流式處理
    方法。
    背景
    [0002]無論用海量數(shù)據(jù)還是大數(shù)據(jù)來表征這個(gè)時(shí)代,數(shù)據(jù)規(guī)模龐大、增長(zhǎng)迅速、類型繁 多、結(jié)構(gòu)各異已成為無法回避的現(xiàn)實(shí)問題。如何把繁雜的大數(shù)據(jù)變成我們能應(yīng)付的、有效的 “小”數(shù)據(jù),即針對(duì)特定問題而構(gòu)建一個(gè)千凈、完備的數(shù)據(jù)集,這一過程變得尤為重要。
    [0003]大數(shù)據(jù)治理和分析是在大數(shù)據(jù)處理過程中非常棘手的問題,如何做到處理的及時(shí) 性、靈活性和準(zhǔn)確性尤為重要。目前在互聯(lián)網(wǎng)行業(yè)中通常采用犧牲靈活型和準(zhǔn)確性(甚至允 許丟失部分?jǐn)?shù)據(jù))的方式來?yè)Q取數(shù)據(jù)處理的及時(shí)性,但是在某些行業(yè)中,數(shù)據(jù)處理的準(zhǔn)確性 是非常重要的,同時(shí)又要確保其及時(shí)性和穩(wěn)定性。針對(duì)這種需求就生出的內(nèi)存池,共享內(nèi)存 以及管道等技術(shù)拼裝出數(shù)據(jù)加工中心,數(shù)據(jù)處理規(guī)則可以在數(shù)據(jù)加工中心中靈活配置,數(shù) 據(jù)流在加工中心“流”過后,加工中心就會(huì)根據(jù)配置業(yè)務(wù)規(guī)則提供相應(yīng)的組件對(duì)數(shù)據(jù)進(jìn)行實(shí) 時(shí)處理,經(jīng)過加工中心處理后的數(shù)據(jù)可以通過統(tǒng)一源管理對(duì)外提供數(shù)據(jù)。
    [0004]傳統(tǒng)的數(shù)據(jù)處理中心,數(shù)據(jù)處理步驟過程中數(shù)據(jù)落地,數(shù)據(jù)處理如排序,剔重,過 濾等等功能固化,增加特性化數(shù)據(jù)處理難,功能可擴(kuò)展性差,數(shù)據(jù)處理流向無法靈活控制。 目前許多的大數(shù)據(jù)應(yīng)用平臺(tái)不能夠靈活的配置各種數(shù)據(jù)源之間的互通,只能單一的從一種 數(shù)據(jù)源同步到另外一種數(shù)據(jù)源。同時(shí)大多數(shù)的大數(shù)據(jù)應(yīng)用平臺(tái)不能夠支持流式處理,即在 一個(gè)數(shù)據(jù)加工治理流程中需要多次的對(duì)數(shù)據(jù)進(jìn)行讀寫,這樣不僅使得機(jī)器的10負(fù)載過高, 而且整個(gè)數(shù)據(jù)加工和治理的速度將大打折扣,在很多時(shí)候都不能滿足數(shù)據(jù)的及時(shí)性要求。 也有一些大數(shù)據(jù)應(yīng)用平臺(tái)不能夠支持很多種數(shù)據(jù)的加工方法,也不能夠靈活的配置加工方 法,只能夠單一的滿足一些業(yè)務(wù)要求。
    [0005]阿里大數(shù)據(jù)應(yīng)用平臺(tái)是阿里公司旗下產(chǎn)品的數(shù)據(jù)管理與分析平臺(tái),其靈活的配置 任意數(shù)據(jù)源互通,具備統(tǒng)一的數(shù)據(jù)交換協(xié)議,可插件化開發(fā)數(shù)據(jù)處理功能,具有功能全面的 流式計(jì)算集群。該應(yīng)用平臺(tái)處理來自云梯和飛天以及HBase和OceanBase等系統(tǒng)數(shù)據(jù),但 是就該平臺(tái)而言目前在系統(tǒng)處理中應(yīng)用相對(duì)獨(dú)立,沒有將數(shù)據(jù)流串聯(lián)起來。
    [0006]相關(guān)術(shù)語(yǔ):
    ETL: ETL是Extract-Transform-Load的縮寫,中文名稱為數(shù)據(jù)提取、轉(zhuǎn)換和加載。是 構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,終按照預(yù) 先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。
    [0007]流式處理:流式處理利用管道模式使海量數(shù)據(jù)在生產(chǎn)線中流動(dòng),加工組件實(shí)現(xiàn)對(duì) 數(shù)據(jù)清洗,轉(zhuǎn)化,拆分,入庫(kù)等操作。
    [0008]數(shù)據(jù)加工中心:一套完備的數(shù)據(jù)處理中心,可以對(duì)海量數(shù)據(jù)排重,維度替換,加密
    去隱私化,數(shù)據(jù)分類,聚類等等。
    內(nèi)容
    [0009]本發(fā)明要解決的技術(shù)問題為:通過利用大數(shù)據(jù)平臺(tái)采用數(shù)據(jù)流式處理,提高大數(shù) 據(jù)處理速度,擴(kuò)大可支持的數(shù)據(jù)加工方法種類范圍,同時(shí)在大數(shù)據(jù)處理過程中能夠靈活的 配置各種數(shù)據(jù)源之間的互通。
    [0010]本發(fā)明采取的技術(shù)手段具體為:一種基于數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法,所 述數(shù)據(jù)加工中心中預(yù)定義有包括數(shù)據(jù)校驗(yàn)、排序、聚合和分組的加工方法步驟,以及兩個(gè)不 同加工方法步驟之間的連接關(guān)系;數(shù)據(jù)加工中心還設(shè)置有用于連接數(shù)據(jù)源的數(shù)據(jù)源接入端 口、用于連接用戶界面的數(shù)據(jù)加工方法及流程定義接入端口、目標(biāo)數(shù)據(jù)輸出端口以及用于 連接流程監(jiān)控單元的加工流程監(jiān)控接口;
    基于上述數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法包括以下步驟:
    1)數(shù)據(jù)獲取:通過數(shù)據(jù)源接入端口獲取數(shù)據(jù)源;數(shù)據(jù)源接入端口連接的數(shù)據(jù)源類型包 括傳統(tǒng) oracle、db2、mysql 數(shù)據(jù)庫(kù),MPP 數(shù)據(jù)庫(kù) Greenplum、teradata,以及 hdfs、HBASE、 HIVE數(shù)據(jù)庫(kù);
    2)流式處理配置:為已獲取的數(shù)據(jù)配置“管道”節(jié)點(diǎn),利用共享內(nèi)存存儲(chǔ)已獲取到的數(shù) 據(jù);
    3)數(shù)據(jù)加工方法配置:根據(jù)用戶通過數(shù)據(jù)加工方法及流程定義接入端口配置的數(shù)據(jù)加 工方法及數(shù)據(jù)加工流程,選擇和配置相應(yīng)的加工方法及多個(gè)加工方法的流程排序;為已保 存在共享內(nèi)存中的數(shù)據(jù)配置“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn),各“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn)分別對(duì)應(yīng)一種加工方法; 同時(shí)在相鄰“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn)之間配置“管道”節(jié)點(diǎn),使得數(shù)據(jù)通過管道在依次連接的轉(zhuǎn)換 計(jì)算節(jié)點(diǎn)之間流轉(zhuǎn)同時(shí)被處理;
    4)目標(biāo)數(shù)據(jù)源的獲得:將步驟3)中個(gè)轉(zhuǎn)換計(jì)算節(jié)點(diǎn)輸出的數(shù)據(jù)通過目標(biāo)數(shù)據(jù) 輸出端口輸出至目標(biāo)數(shù)據(jù)源中。
    [〇〇11] 步驟1)中,本發(fā)明支持多種數(shù)據(jù)源的數(shù)據(jù)獲取。數(shù)據(jù)獲取,即在加工配置系統(tǒng)中 配置“抽取”節(jié)點(diǎn),如數(shù)據(jù)源為DB2,則配置“DB2抽取”,同時(shí)配置抽取的詳細(xì)規(guī)則,如抽取的 表名規(guī)則等。本發(fā)明對(duì)數(shù)據(jù)源中數(shù)據(jù)的獲取為現(xiàn)有技術(shù)。步驟2)利用共享內(nèi)存對(duì)數(shù)據(jù)進(jìn) 行存儲(chǔ),可使得數(shù)據(jù)從數(shù)據(jù)源如DB2中抽取出來后不會(huì)落地。經(jīng)過步驟3)后,數(shù)據(jù)即已根 據(jù)用戶定義的加工方法進(jìn)行加工,并得到了相應(yīng)的目標(biāo)數(shù)據(jù)源,此時(shí)如果還要將數(shù)據(jù)同步 到其他的數(shù)據(jù)源中,可以配置“裝載”節(jié)點(diǎn),如要將加工完成的數(shù)據(jù)同步到HDFS中,則在步 驟4中的“管道”節(jié)點(diǎn)后面配置“HDFS裝載”節(jié)點(diǎn),來完成數(shù)據(jù)同步。
    [0012]本發(fā)明在應(yīng)用時(shí),用戶可通過可視化的用戶界面配置數(shù)據(jù)加工方法和定義數(shù)據(jù)加 工流程,如果缺少想要的數(shù)據(jù)加工方法,可以以插件的方式添加組件,也就是添加加工方 法。用戶通過對(duì)不同加工方法的組合得到想到的加工流程。數(shù)據(jù)加工中心將用戶定義的加 工方法和流程保存起來,生成加工計(jì)劃,并對(duì)其中的加工任務(wù)進(jìn)行解析。在進(jìn)行流式處理加 工時(shí),首先要從數(shù)據(jù)源中采集相關(guān)數(shù)據(jù),數(shù)據(jù)源可以是不同類型的數(shù)據(jù)庫(kù)也可以是文件,然 后根據(jù)加工任務(wù)的解析結(jié)果,對(duì)所獲取的數(shù)據(jù)源提供的數(shù)據(jù)進(jìn)行逐步加工。
    [0013]本發(fā)明的流式數(shù)據(jù)加工處理方法中僅存在一次讀取數(shù)據(jù)源中數(shù)據(jù)的操作,后 續(xù)便以共享內(nèi)存的方式儲(chǔ)存數(shù)據(jù),以便讓數(shù)據(jù)流向一個(gè)或者是多個(gè)不同的數(shù)據(jù)加工方法。 將加工完成的數(shù)據(jù)寫入到目標(biāo)數(shù)據(jù)源中,也是整個(gè)數(shù)據(jù)加工流程中的一次寫入操作。
    [0014]數(shù)據(jù)在加工過程中,用戶可以通過流程監(jiān)控單元實(shí)現(xiàn)實(shí)時(shí)的監(jiān)控流程,流程監(jiān)控單元可將獲取到的監(jiān)控信息輸出至可視化的用戶界面中,例如當(dāng)前運(yùn)行到了哪個(gè)加工方 法,運(yùn)行了多長(zhǎng)時(shí)間等等。
    [0015]有益效果
    本發(fā)明通過利用流式處理方式,采集不同源的數(shù)據(jù)到加工中心,將任意數(shù)據(jù)源數(shù)據(jù)互 通,并對(duì)數(shù)據(jù)做各種各樣的加工或處理,保證整個(gè)過程只讀取和寫入一次數(shù)據(jù),提高了數(shù)據(jù) 處理的速度。且本發(fā)明可以支持非常豐富的加工方法,包括數(shù)據(jù)校驗(yàn),數(shù)據(jù)清洗,庫(kù)外計(jì)算, 對(duì)結(jié)構(gòu)化數(shù)據(jù)中的某些字段做空值,長(zhǎng)度,類型等等校驗(yàn),對(duì)數(shù)據(jù)進(jìn)行排序,剔重,過濾等, 對(duì)數(shù)據(jù)進(jìn)行分組和聚合等,這些方法全部都可以由用戶通過用戶界面靈活的配置或定制。 同時(shí)本發(fā)明的加工中心設(shè)置有用于連接流程監(jiān)控單元的加工流程監(jiān)控接口,能夠很直觀的 監(jiān)控整個(gè)數(shù)據(jù)加工流程,方便統(tǒng)一管控。
    附圖說明
    [0016]圖1所示為本發(fā)明數(shù)據(jù)流式加工系統(tǒng)原理示意圖;
    圖2所示為本發(fā)明的數(shù)據(jù)處理流程示意圖;
    圖3所示為本發(fā)明的數(shù)據(jù)流式處理流程示意圖。
    實(shí)施
    [0017]以下結(jié)合附圖和具體實(shí)施例進(jìn)一步說明。
    [0018]如圖1所示,本發(fā)明的一種基于數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法,所述數(shù)據(jù)加 工中心中預(yù)定義有包括數(shù)據(jù)校驗(yàn)、排序、聚合和分組的加工方法步驟,以及兩個(gè)不同加工方 法步驟之間的連接關(guān)系;數(shù)據(jù)加工中心還設(shè)置有用于連接數(shù)據(jù)源的數(shù)據(jù)源接入端口、用于 連接用戶界面的數(shù)據(jù)加工方法及流程定義接入端口、目標(biāo)數(shù)據(jù)輸出端口以及用于連接流程 監(jiān)控單兀的加工流程監(jiān)控接口;
    結(jié)合圖1至圖3,基于上述數(shù)據(jù)加工中心的數(shù)據(jù)流式處理方法包括以下步驟:
    1)數(shù)據(jù)獲取:通過數(shù)據(jù)源接入端口獲取數(shù)據(jù)源;數(shù)據(jù)源接入端口連接的數(shù)據(jù)源類型包 括傳統(tǒng) oracle、db2、mysql 數(shù)據(jù)庫(kù),MPP 數(shù)據(jù)庫(kù) Greenplum、teradata,以及 hdfs、HBASE、 HIVE數(shù)據(jù)庫(kù);
    2)流式處理配置:為已獲取的數(shù)據(jù)配置“管道”節(jié)點(diǎn),利用共享內(nèi)存存儲(chǔ)已獲取到的數(shù) 據(jù);
    3)數(shù)據(jù)加工方法配置:根據(jù)用戶通過數(shù)據(jù)加工方法及流程定義接入端口配置的數(shù)據(jù)加 工方法及數(shù)據(jù)加工流程,選擇和配置相應(yīng)的加工方法及多個(gè)加工方法的流程排序;為已保 存在共享內(nèi)存中的數(shù)據(jù)配置“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn),各“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn)分別對(duì)應(yīng)一種加工方法; 同時(shí)在相鄰“轉(zhuǎn)換計(jì)算”節(jié)點(diǎn)之間配置“管道”節(jié)點(diǎn),使得數(shù)據(jù)通過管道在依次連接的轉(zhuǎn)換 計(jì)算節(jié)點(diǎn)之間流轉(zhuǎn)同時(shí)被處理;
    4)目標(biāo)數(shù)據(jù)源的獲得:將步驟3)中個(gè)轉(zhuǎn)換計(jì)算節(jié)點(diǎn)輸出的數(shù)據(jù)通過目標(biāo)數(shù)據(jù) 輸出端口輸出至目標(biāo)數(shù)據(jù)源中。
    [〇〇19]步驟1)中,本發(fā)明支持多種數(shù)據(jù)源的數(shù)據(jù)獲取。數(shù)據(jù)獲取即在加工配置系統(tǒng)中配
    置“抽取”節(jié)點(diǎn),如數(shù)據(jù)源為DB2,則配置“DB2抽取”,同時(shí)配置抽取的詳細(xì)規(guī)則,如抽取的表 名規(guī)則等。本發(fā)明對(duì)數(shù)據(jù)源中數(shù)據(jù)的獲取為現(xiàn)有技術(shù)。步驟2)利用共享內(nèi)存對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),可使得數(shù)據(jù)從數(shù)據(jù)源如DB2中抽取出來后不會(huì)落地。經(jīng)過步驟3)后,數(shù)據(jù)即已根據(jù) 用戶定義的加工方法進(jìn)行加工,并得到了相應(yīng)的目標(biāo)數(shù)據(jù)源,此時(shí)如果還要將數(shù)據(jù)同步到 其他的數(shù)據(jù)源中,可以配置“裝載”節(jié)點(diǎn),如要將加工完成的數(shù)據(jù)同步到HDFS中,則在步驟 4中的“管道”節(jié)點(diǎn)后面配置“HDFS裝載”節(jié)點(diǎn),來完成數(shù)據(jù)同步。
    [0020]本發(fā)明在應(yīng)用時(shí),用戶可通過可視化的用戶界面配置數(shù)據(jù)加工方法和定義數(shù)據(jù)加 工流程,如圖1所示實(shí)施例中的數(shù)據(jù)校驗(yàn)、排序、聚合和分組等現(xiàn)有的或自行通過現(xiàn)有軟件 技術(shù)定義數(shù)據(jù)加工方法。如果缺少想要的數(shù)據(jù)加工方法,可以以插件的方式添加組件,也就 是添加加工方法。用戶通過對(duì)不同加工方法的組合得到想到的加工流程。數(shù)據(jù)加工中心將 用戶定義的加工方法和流程保存起來,生成加工計(jì)劃,并對(duì)其中的加工任務(wù)進(jìn)行解析。在進(jìn) 行流式處理加工時(shí),首先要從數(shù)據(jù)源中采集相關(guān)數(shù)據(jù),數(shù)據(jù)源可以是不同類型的數(shù)據(jù)庫(kù)也 可以是文件,然后根據(jù)加工任務(wù)的解析結(jié)果,對(duì)所獲取的數(shù)據(jù)源提供的數(shù)據(jù)進(jìn)行逐步加工。
    [0021]參考圖3,本發(fā)明的流式數(shù)據(jù)加工處理方法中僅存在一次讀取數(shù)據(jù)源中數(shù)據(jù) 的操作,后續(xù)便以共享內(nèi)存的方式儲(chǔ)存數(shù)據(jù),以便讓數(shù)據(jù)流向一個(gè)或者是多個(gè)不同的數(shù)據(jù) 加工方法。將加工完成的數(shù)據(jù)寫入到目標(biāo)數(shù)據(jù)源中,也是整個(gè)數(shù)據(jù)加工流程中的一次 寫入操作。
    [0022]數(shù)據(jù)在加工過程中,用戶可以通過流程監(jiān)控單元實(shí)現(xiàn)實(shí)時(shí)的監(jiān)控流程,流程監(jiān)控 單元可將獲取到的監(jiān)控信息輸出至可視化的用戶界面中,例如當(dāng)前運(yùn)行到了哪個(gè)加工方 法,運(yùn)行了多長(zhǎng)時(shí)間等等。
    實(shí)施例
    [0023]如將本發(fā)明應(yīng)用于某電信公司省級(jí)經(jīng)分系統(tǒng),要求對(duì)GPRS流量接口數(shù)據(jù)從MPP數(shù) 據(jù)庫(kù)(GP)同步到Hadoop中,并且對(duì)MSISDN ()字段做隱私化處理,并且做空值校 驗(yàn),同時(shí)對(duì)CALL_DUR(通話時(shí)長(zhǎng))字段做運(yùn)算(將字段值加一)。
    [0024]對(duì)上述數(shù)據(jù)處理任務(wù)的要求,可以在數(shù)據(jù)加工中心通過如下步驟來完成:
    配置數(shù)據(jù)加工流程為:表掃描6GP數(shù)據(jù)源抽取d!管道流d!轉(zhuǎn)換計(jì)算d!管道6HDFS裝載,
    該流程也是一個(gè)數(shù)據(jù)流;
    在數(shù)據(jù)加工中心中配置數(shù)據(jù)加工方法,即在以上流程的“轉(zhuǎn)換計(jì)算”中配置,對(duì)手機(jī)號(hào) 碼字段做隱私化和空值校驗(yàn)方法,對(duì)通話時(shí)長(zhǎng)字段做運(yùn)算;
    數(shù)據(jù)加工中心按照已經(jīng)配置的加工方法和管道流向進(jìn)行方法的解析和實(shí)施。
    [0025]上述步驟從GP數(shù)據(jù)抽取到HDFS裝載流程中配置了管道,也是實(shí)現(xiàn)“流式處理”的 關(guān)鍵。在整個(gè)數(shù)據(jù)流式處理的過程中,流程監(jiān)控單元可以監(jiān)控整個(gè)數(shù)據(jù)流的運(yùn)行狀態(tài)。
    [0026]本發(fā)明通過利用流式處理方式,采集不同源的數(shù)據(jù)到加工中心,將任意數(shù)據(jù)源數(shù) 據(jù)互通,并對(duì)數(shù)據(jù)做各種各樣的加工或處理,保證整個(gè)過程只讀取和寫入一次數(shù)據(jù),提高了 數(shù)據(jù)處理的速度。且本發(fā)明可以支持非常豐富的加工方法,包括數(shù)據(jù)校驗(yàn),數(shù)據(jù)清洗,庫(kù)外 計(jì)算,對(duì)結(jié)構(gòu)化數(shù)據(jù)中的某些字段做空值,長(zhǎng)度,類型等等校驗(yàn),對(duì)數(shù)據(jù)進(jìn)行排序,剔重,過 濾等,對(duì)數(shù)據(jù)進(jìn)行分組和聚合等,這些方法全部都可以由用戶通過用戶界面靈活的配置或 定制。同時(shí)本發(fā)明的加工中心設(shè)置有用于連接流程監(jiān)控單元的加工流程監(jiān)控接口,能夠很 直觀的監(jiān)控整個(gè)數(shù)據(jù)加工流程,方便統(tǒng)一管控,簡(jiǎn)化加工的繁雜性,對(duì)一批海量的數(shù)據(jù)進(jìn)行 清洗或分組聚合等等操作都可以交給一個(gè)數(shù)據(jù)加工中心,從數(shù)據(jù)加工中心流出的數(shù)據(jù)即是用戶想要的數(shù)據(jù)。

    提示:由于編輯困難導(dǎo)致圖片無法顯示及全文的完整、準(zhǔn)確性或存在缺失!

    本文由伯特利數(shù)控整理發(fā)表文章均來自網(wǎng)絡(luò)僅供學(xué)習(xí)參考,轉(zhuǎn)載請(qǐng)注明!

    收藏該商鋪

    請(qǐng) 登錄 后再收藏

    提示

    您的留言已提交成功!我們將在第一時(shí)間回復(fù)您~

    對(duì)比框

    產(chǎn)品對(duì)比 二維碼 意見反饋

    掃一掃訪問手機(jī)商鋪
    在線留言
    国产成人亚洲精品| 久久久精品国产亚州av| AV无码一区二区二三区1区6区| 星空影院免费观看电视剧电影| 亚洲成Av人片乱码色午夜| 大地资源中文在线观看官网| 国产v欧美Ⅴ日韩v在线观看| 99久久精品日本一区二区免费| 久久99精品久久| 女人扒开腿让男人狂桶30分钟|