移動(dòng)廣告平臺(tái)在移動(dòng)廣告行業(yè)發(fā)展進(jìn)程上起著重要的促進(jìn)作用,作為廣告主、開(kāi)發(fā)者和用戶間的紐帶,市場(chǎng)要求移動(dòng)廣告平臺(tái)必須擁有更領(lǐng)先的技術(shù)、更優(yōu)質(zhì)的資源、更創(chuàng)新的服務(wù)模式。如何讓廣告主獲得最好的流量,如何讓開(kāi)發(fā)者獲得 的變現(xiàn),如何讓用戶看到不會(huì)拒絕的內(nèi)容,是移動(dòng)廣告平臺(tái)時(shí)刻在思考的問(wèn)題。
作為業(yè)內(nèi)覆蓋流量最多的移動(dòng)廣告平臺(tái),來(lái)聽(tīng)聽(tīng)暢思廣告技術(shù)專家的解答,移動(dòng)廣告平臺(tái)是怎樣有條不紊又高效合理的整合整個(gè)市場(chǎng)流量走向的。
暢思廣告數(shù)據(jù)中心
在現(xiàn)今DT時(shí)代,數(shù)據(jù)中心作為企業(yè)數(shù)據(jù)的集散地,既要保證數(shù)據(jù)的準(zhǔn)確性、及時(shí)性、可靠性,也需要對(duì)數(shù)據(jù)的價(jià)值進(jìn)行深度發(fā)掘,從而推動(dòng)整個(gè)公司業(yè)務(wù)的發(fā)展。
不同的領(lǐng)域?qū)?shù)據(jù)中心的職責(zé)有不同的劃分,本文主要介紹暢思廣告數(shù)據(jù)平臺(tái)的搭建以及改進(jìn),希望與大家共同學(xué)習(xí)交流。
本文只是一篇概述性的文檔,后面的一系列文章會(huì)分模塊對(duì)數(shù)據(jù)平臺(tái)的各個(gè)部分進(jìn)行詳細(xì)深入的介紹。
暢思數(shù)據(jù)平臺(tái)每天接收到的數(shù)據(jù)量有3TB,每天有近萬(wàn)個(gè)數(shù)據(jù)分析及挖掘任務(wù)運(yùn)行,同時(shí)支持廣告平臺(tái)、媒體分析平臺(tái)、數(shù)據(jù)追蹤等多條業(yè)務(wù)線;對(duì)外則提供了每天billion級(jí)別訪問(wèn)量的用戶標(biāo)簽及CTR服務(wù)接口。暢思的集群目前不到100臺(tái),可靠性現(xiàn)在可以達(dá)到5個(gè)9(99.999%),并且支持?jǐn)?shù)據(jù)及指標(biāo)自動(dòng)監(jiān)測(cè)回溯。
首先看下暢思數(shù)據(jù)中心的整體部署及分層圖
圖一 暢思數(shù)據(jù)中心部署圖
圖二 暢思數(shù)據(jù)中心分層示意圖
數(shù)據(jù)中心一般有四個(gè)主要組成部分。基礎(chǔ)支撐、BI系統(tǒng)、數(shù)據(jù)分析挖掘、數(shù)據(jù)展示。下面分部分進(jìn)行介紹
1. 基礎(chǔ)支撐
數(shù)據(jù)中心,為高效的完成數(shù)據(jù)的收集、存儲(chǔ)、分析、展示,穩(wěn)定高效的基礎(chǔ)支撐非常重要。
目前市面上可用的產(chǎn)品比較多,商業(yè)化的有Oracle,IBM InfoSphere,InfoBright,阿里云,AWS等存儲(chǔ),開(kāi)源的有Hadoop,Cassandra,Hbase等存儲(chǔ)。
如圖二 所示,暢思數(shù)據(jù)中心主要基于Hadoop生態(tài)圈,以及其他開(kāi)源軟件進(jìn)行搭建。
數(shù)據(jù)中心通過(guò)分析挖掘,會(huì)產(chǎn)生大量的挖掘結(jié)果,不同的用戶層次有不同的挖掘結(jié)果,廣告、媒體等粗粒度的用戶還好,對(duì)于單個(gè)用戶的挖掘結(jié)果,數(shù)量級(jí)非常大,如何保證這類用戶的挖掘結(jié)果能被及時(shí)有效的訪問(wèn)到,是大部分?jǐn)?shù)據(jù)中心必須解決的問(wèn)題之一。暢思選用自建的KVCluster集群進(jìn)行挖掘內(nèi)容的存儲(chǔ)以及對(duì)外服務(wù);暢思的kv集群主要基于Zookeeper進(jìn)行集中式資源管理及分區(qū)調(diào)度,目前可自動(dòng)加入到集群中的NoSql類型有Hbase、Redis、Ssdb以及Tair,通過(guò)集中化管理的方法可以統(tǒng)一調(diào)配這些kv分組,在保證滿足業(yè)務(wù)需求的同時(shí),大大降低Kv的部署及運(yùn)維成本。
2. BI系統(tǒng)
BI系統(tǒng),主要提供數(shù)據(jù)收集、處理、入庫(kù)、訪問(wèn)接口的大型服務(wù)。目前業(yè)內(nèi)比較流行的BI系統(tǒng)不管是商用的還是開(kāi)源的有很多;考慮到廣告平臺(tái)本身的業(yè)務(wù)邏輯以及成本問(wèn)題,暢思是基于Hadoop自己構(gòu)建的BI系統(tǒng),分?jǐn)?shù)據(jù)收集、ETL、存儲(chǔ)入庫(kù)、調(diào)度四個(gè)部分。
2.1 數(shù)據(jù)收集
暢思的數(shù)據(jù)源包括三大類:第一方數(shù)據(jù)(廣告主、媒體回傳的用戶行為數(shù)據(jù)),第二方數(shù)據(jù)(廣告平臺(tái)展示、點(diǎn)擊、激活等數(shù)據(jù)),第三方數(shù)據(jù)(其他平臺(tái)合作數(shù)據(jù))。
第一方數(shù)據(jù),可以通過(guò)SDK采集、廣告主回調(diào)等方式進(jìn)行數(shù)據(jù)的收集;第二方數(shù)據(jù)可直接通過(guò)內(nèi)網(wǎng)進(jìn)行互傳;第三方數(shù)據(jù)一般采用API、第三方存儲(chǔ)(AWS S3, 阿里云存儲(chǔ))、RSYNC等方式進(jìn)行批量傳輸?shù)姆绞竭M(jìn)行同步。
暢思目前的解決方案如圖三所示
圖三 日志收集示意圖
第一方和第二方數(shù)據(jù)。離線分析,采用批量傳輸和獲取的方式進(jìn)行數(shù)據(jù)收集;實(shí)時(shí)分析,則使用APIlume進(jìn)行數(shù)據(jù)的收集。第三方數(shù)據(jù),一般通過(guò)第三方可靠性存儲(chǔ)作為媒介來(lái)獲取,而對(duì)于第三方需要實(shí)時(shí)獲取信息的,則采用API的方式進(jìn)行通信。
2.2 日志ETL
針對(duì)第一方、第二方數(shù)據(jù)。提供配置控制功能,ETL對(duì)于不同類型的數(shù)據(jù)根據(jù)配置文件使用不同的解析、轉(zhuǎn)換、加載的邏輯;注意,需要考慮ETL數(shù)據(jù)解析各個(gè)階段以及后續(xù)處理各個(gè)階段之間的時(shí)間同步,目前chance直接在同步標(biāo)識(shí)存入到kv中,以進(jìn)行同步。可替換為使用消息隊(duì)列進(jìn)行同步,不同的邏輯使用不同的隊(duì)列,在解耦處理邏輯的同時(shí),保證數(shù)據(jù)處理的有序性。
2.3 數(shù)據(jù)存儲(chǔ)入庫(kù)
暢思選用Hadoop生態(tài)圈作為存儲(chǔ)以及計(jì)算的基本工具,并基于原生的Hadoop進(jìn)行了定制化開(kāi)發(fā),滿足廣告業(yè)務(wù)在穩(wěn)定性、擴(kuò)展性以及安全性方面的需求。
在使用層次上,用HDFS分用戶存儲(chǔ)原始數(shù)據(jù),對(duì)ETL之后產(chǎn)生的格式化數(shù)據(jù),按照事先定義好的分區(qū)加載到Hive表中。
2.4 BI系統(tǒng)任務(wù)調(diào)度
數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)錄入完畢之后,業(yè)務(wù)方就可以訪問(wèn)庫(kù)中的數(shù)據(jù),計(jì)算分析各類指標(biāo);為保證服務(wù)的可靠性以及數(shù)據(jù)的安全性,暢思基于數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建了可視化的調(diào)度系統(tǒng)。
主要的流程如圖四所示:
圖四 BI系統(tǒng)調(diào)度平臺(tái)
3. 數(shù)據(jù)分析與挖掘
3.1 數(shù)據(jù)分析
目前暢思的數(shù)據(jù)分析服務(wù)包括三個(gè)部分:廣告平臺(tái)的運(yùn)營(yíng)分析、媒體運(yùn)營(yíng)分析以及數(shù)據(jù)管理調(diào)度平臺(tái)。
廣告平臺(tái)運(yùn)營(yíng)分析。分權(quán)限分角色,對(duì)廣告平臺(tái)上各個(gè)項(xiàng)目在不同環(huán)境下在各個(gè)流量端的展示、點(diǎn)擊、激活、平臺(tái)支出,平臺(tái)收入等進(jìn)行統(tǒng)計(jì)分析;
游戲運(yùn)營(yíng)平臺(tái)。主要對(duì)媒體應(yīng)用的新增、活躍,付費(fèi),留存,TAD,流失,回流等運(yùn)營(yíng)指標(biāo)進(jìn)行分析,上述指標(biāo)可以分渠道、分活動(dòng)、分項(xiàng)目進(jìn)行深層次分析,以評(píng)估各個(gè)廣告推廣活動(dòng)帶來(lái)用戶的質(zhì)量;
數(shù)據(jù)管理平臺(tái)。為了提高運(yùn)營(yíng)、商務(wù)等的工作效率,暢思數(shù)據(jù)中心提供數(shù)據(jù)管理功能。用戶可以分權(quán)限在該平臺(tái)上提交數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)或者不同的數(shù)據(jù)存儲(chǔ),用戶可以根據(jù)這些數(shù)據(jù)分析產(chǎn)生結(jié)果,并可以將這些數(shù)據(jù)或者數(shù)據(jù)結(jié)果開(kāi)放給其他用戶使用;用戶也可以根據(jù)數(shù)據(jù)中心分配的權(quán)限,從數(shù)據(jù)倉(cāng)庫(kù)中分析產(chǎn)生結(jié)果。
3.2 數(shù)據(jù)挖掘
基于三方數(shù)據(jù)深挖數(shù)據(jù)價(jià)值。
包括五個(gè)部分:反作弊,用戶標(biāo)簽,媒體/用戶質(zhì)量評(píng)估,CTR預(yù)測(cè),Lookalike。
3.2.1 反作弊
廣告行業(yè),流量端作弊十分常見(jiàn),如何過(guò)濾掉這部分假量,對(duì)于廣告主以及平臺(tái)來(lái)講至關(guān)重要。暢思作為業(yè)內(nèi)第一家使用并推廣反作弊的企業(yè),在反作弊方面有許多成熟的積累。目前暢思反作弊包括規(guī)則策略以及模型兩部分。規(guī)則策略主要是對(duì)固定的作弊模式進(jìn)行直接查殺,目前暢思反作弊系統(tǒng)的規(guī)則策略大概有30大項(xiàng),可以有效過(guò)濾一大批“小白”作弊用戶;反作弊模型則是根據(jù)已發(fā)現(xiàn)作弊用戶的行為,提取作弊用戶的特征,用機(jī)器學(xué)習(xí)的方法盡早發(fā)現(xiàn)作弊用戶,減少平臺(tái)以及廣告主的損失。
規(guī)則策略流程如圖五所示,模型策略如圖六所示。
圖五 反作弊規(guī)則流程圖
圖六 反作弊模型流程圖
反作弊模型與規(guī)則策略相輔相成,可以通過(guò)反作弊模型發(fā)現(xiàn)新的作弊模式,然后結(jié)合行為序列發(fā)掘,歸結(jié)為固定的規(guī)則,可進(jìn)一步豐富規(guī)則策略;而規(guī)則策略,對(duì)于已查殺的用戶,分析其被殺掉之前的行為,可有效豐富反作弊需要的樣本,進(jìn)一步提高反作弊模型的泛化能力。
3.2.2 用戶標(biāo)簽
對(duì)用戶進(jìn)行精準(zhǔn)化投放的基礎(chǔ)。用戶的標(biāo)簽分為靜態(tài)標(biāo)簽和動(dòng)態(tài)標(biāo)簽,靜態(tài)標(biāo)簽主要指用戶的性別,年齡,地域等信息,動(dòng)態(tài)標(biāo)簽主要是用戶的興趣標(biāo)簽。
目前暢思數(shù)據(jù)中心有效的標(biāo)簽量在幾千個(gè),并且提供了可定制化功能開(kāi)放給廣告主使用,廣告主可以根據(jù)自己的需求,定義自己的標(biāo)簽,用定制的標(biāo)簽來(lái)指導(dǎo)投放。
定制化標(biāo)簽可以基于關(guān)鍵詞,也可以基于已有標(biāo)簽進(jìn)行邏輯計(jì)算獲得,暢思支持的邏輯運(yùn)算有與,或,非,加,減等。
3.2.3 媒體/用戶質(zhì)量評(píng)估
有了用戶標(biāo)簽、用戶在廣告平臺(tái)中的行為信息、用戶在媒體應(yīng)用上的行為信息,暢思數(shù)據(jù)平臺(tái)對(duì)媒體流量以及用戶進(jìn)行了分級(jí)。
媒體質(zhì)量,分類別、分效果計(jì)算出各個(gè)媒體的基礎(chǔ)得分,對(duì)質(zhì)量不同的媒體,指導(dǎo)廣告投放平臺(tái)進(jìn)行區(qū)別投放。
用戶質(zhì)量,采用聚類的方法對(duì)用戶進(jìn)行人群劃分,對(duì)各個(gè)群體進(jìn)行廣告效果、活躍度等多方面的評(píng)估,得到各類人群的評(píng)分。
3.2.4 CTR預(yù)測(cè)
基于用戶的畫像信息,媒體流量信息,廣告項(xiàng)目信息等多種特征,進(jìn)行點(diǎn)擊率預(yù)測(cè)。目前采用的特征有600+,使用的基礎(chǔ)模型是LR,采用LR的主要原因是移動(dòng)廣告平臺(tái)用戶受媒體或者渠道切入流量的限制,信息過(guò)于稀疏,對(duì)于特征的提取,進(jìn)行了較多的人工介入,后續(xù)我們也會(huì)嘗試在LR中加入特征選擇的步驟,提高訓(xùn)練及調(diào)優(yōu)效率。
3.2.5 Lookalike
相似用戶發(fā)現(xiàn),主要根據(jù)廣告主或者投放項(xiàng)目反饋回來(lái)的用戶信息,進(jìn)行同類用戶的精準(zhǔn)投放。Lookalike發(fā)現(xiàn)的方法有兩大類:有監(jiān)督訓(xùn)練獲取以及無(wú)監(jiān)督訓(xùn)練獲取。有監(jiān)督獲取采用分類的方法進(jìn)行用戶發(fā)現(xiàn),該類方法的優(yōu)點(diǎn)的準(zhǔn)確度高,缺點(diǎn)是得到的用戶覆蓋面不夠,并且負(fù)樣本不太容易收集;無(wú)監(jiān)督獲取主要采用聚類的方法對(duì)用戶進(jìn)行分群,然后根據(jù)群體的信息,從用戶庫(kù)中獲取類似的用戶,該類方法的優(yōu)點(diǎn)是得到的用戶覆蓋面較廣,并且得到的用戶在行為上符合某類分布,對(duì)異常用戶不敏感,缺點(diǎn)是需要的訓(xùn)練樣本比較多,對(duì)于比較大的投放項(xiàng)目比較合適。目前,暢思主要以無(wú)監(jiān)督的方法為基礎(chǔ),對(duì)同一個(gè)項(xiàng)目下的用戶進(jìn)行人群切分,然后去積累的用戶系統(tǒng)中獲取相似的用戶。
4. 數(shù)據(jù)可視化
數(shù)據(jù)可視化作為數(shù)據(jù)分析結(jié)果以及數(shù)據(jù)挖掘結(jié)果呈現(xiàn)的重要媒介,在數(shù)據(jù)平臺(tái)產(chǎn)品化方面起著非常重要的作用。目前暢思數(shù)據(jù)可視化主要包括三個(gè)平臺(tái):廣告運(yùn)營(yíng)指標(biāo)可視化,媒體運(yùn)營(yíng)可視化,數(shù)據(jù)管理可視化。各平臺(tái)的介紹可以看數(shù)據(jù)分析部分的內(nèi)容。
廣告運(yùn)營(yíng)指標(biāo)可視化,主要提供各類指標(biāo),指標(biāo)同比/環(huán)比對(duì)比等分析功能,如圖七所示:
圖七 暢思平臺(tái)數(shù)據(jù)運(yùn)營(yíng)中心
媒體運(yùn)營(yíng)可視化,主要是展示媒體運(yùn)營(yíng)中所使用的指標(biāo)以及詳細(xì)分析情況,如圖:
圖八 暢思游戲運(yùn)營(yíng)平臺(tái)示例
數(shù)據(jù)管理可視化,主要提供用戶獲取數(shù)據(jù)、上傳數(shù)據(jù)、分析數(shù)據(jù)的可視化接口,提高廣告主或者運(yùn)營(yíng)的分析效率。
圖九 暢思數(shù)據(jù)管理平臺(tái)示例
5.總結(jié)
…過(guò)幾年的沉淀,暢思廣告平臺(tái)已累計(jì)了海量的大數(shù)據(jù)樣本,并且在業(yè)內(nèi)最領(lǐng)先技術(shù)的支配下,可以輕松實(shí)現(xiàn)三方利益最大化。
通過(guò)以上的介紹,希望大家對(duì)數(shù)據(jù)中心的功能以及作用有一個(gè)比較清晰的認(rèn)識(shí)及了解。數(shù)據(jù)中心的搭建是一個(gè)長(zhǎng)期過(guò)程,其相關(guān)技術(shù)也在快速的發(fā)展進(jìn)步,在這里通過(guò)與大家交流,希望大家更加關(guān)注數(shù)據(jù)技術(shù)在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用,為流量以及數(shù)據(jù)變現(xiàn)提供更有效的技術(shù)支持方案。
投稿郵箱:chuanbeiol@163.com 詳情請(qǐng)?jiān)L問(wèn)川北在線:http://m.sanmuled.cn/