你好,歡迎來到川北在線
微信
騰訊微博
新浪微博
廣告平臺數(shù)據(jù)中心的那些事兒
時(shí)間:2016-10-17 12:31   來源:游戲大觀   責(zé)任編輯:毛青青

  移動廣告平臺在移動廣告行業(yè)發(fā)展進(jìn)程上起著重要的促進(jìn)作用,作為廣告主、開發(fā)者和用戶間的紐帶,市場要求移動廣告平臺必須擁有更領(lǐng)先的技術(shù)、更優(yōu)質(zhì)的資源、更創(chuàng)新的服務(wù)模式。如何讓廣告主獲得最好的流量,如何讓開發(fā)者獲得 的變現(xiàn),如何讓用戶看到不會拒絕的內(nèi)容,是移動廣告平臺時(shí)刻在思考的問題。

  作為業(yè)內(nèi)覆蓋流量最多的移動廣告平臺,來聽聽暢思廣告技術(shù)專家的解答,移動廣告平臺是怎樣有條不紊又高效合理的整合整個(gè)市場流量走向的。

  暢思廣告數(shù)據(jù)中心

  在現(xiàn)今DT時(shí)代,數(shù)據(jù)中心作為企業(yè)數(shù)據(jù)的集散地,既要保證數(shù)據(jù)的準(zhǔn)確性、及時(shí)性、可靠性,也需要對數(shù)據(jù)的價(jià)值進(jìn)行深度發(fā)掘,從而推動整個(gè)公司業(yè)務(wù)的發(fā)展。

  不同的領(lǐng)域?qū)?shù)據(jù)中心的職責(zé)有不同的劃分,本文主要介紹暢思廣告數(shù)據(jù)平臺的搭建以及改進(jìn),希望與大家共同學(xué)習(xí)交流。

  本文只是一篇概述性的文檔,后面的一系列文章會分模塊對數(shù)據(jù)平臺的各個(gè)部分進(jìn)行詳細(xì)深入的介紹。

  暢思數(shù)據(jù)平臺每天接收到的數(shù)據(jù)量有3TB,每天有近萬個(gè)數(shù)據(jù)分析及挖掘任務(wù)運(yùn)行,同時(shí)支持廣告平臺、媒體分析平臺、數(shù)據(jù)追蹤等多條業(yè)務(wù)線;對外則提供了每天billion級別訪問量的用戶標(biāo)簽及CTR服務(wù)接口。暢思的集群目前不到100臺,可靠性現(xiàn)在可以達(dá)到5個(gè)9(99.999%),并且支持?jǐn)?shù)據(jù)及指標(biāo)自動監(jiān)測回溯。

  首先看下暢思數(shù)據(jù)中心的整體部署及分層圖

  

  圖一 暢思數(shù)據(jù)中心部署圖

  

  圖二 暢思數(shù)據(jù)中心分層示意圖

  數(shù)據(jù)中心一般有四個(gè)主要組成部分;A(chǔ)支撐、BI系統(tǒng)、數(shù)據(jù)分析挖掘、數(shù)據(jù)展示。下面分部分進(jìn)行介紹

  1. 基礎(chǔ)支撐

  數(shù)據(jù)中心,為高效的完成數(shù)據(jù)的收集、存儲、分析、展示,穩(wěn)定高效的基礎(chǔ)支撐非常重要。

  目前市面上可用的產(chǎn)品比較多,商業(yè)化的有Oracle,IBM InfoSphere,InfoBright,阿里云,AWS等存儲,開源的有Hadoop,Cassandra,Hbase等存儲。

  如圖二 所示,暢思數(shù)據(jù)中心主要基于Hadoop生態(tài)圈,以及其他開源軟件進(jìn)行搭建。

  數(shù)據(jù)中心通過分析挖掘,會產(chǎn)生大量的挖掘結(jié)果,不同的用戶層次有不同的挖掘結(jié)果,廣告、媒體等粗粒度的用戶還好,對于單個(gè)用戶的挖掘結(jié)果,數(shù)量級非常大,如何保證這類用戶的挖掘結(jié)果能被及時(shí)有效的訪問到,是大部分?jǐn)?shù)據(jù)中心必須解決的問題之一。暢思選用自建的KVCluster集群進(jìn)行挖掘內(nèi)容的存儲以及對外服務(wù);暢思的kv集群主要基于Zookeeper進(jìn)行集中式資源管理及分區(qū)調(diào)度,目前可自動加入到集群中的NoSql類型有Hbase、Redis、Ssdb以及Tair,通過集中化管理的方法可以統(tǒng)一調(diào)配這些kv分組,在保證滿足業(yè)務(wù)需求的同時(shí),大大降低Kv的部署及運(yùn)維成本。

  2. BI系統(tǒng)

  BI系統(tǒng),主要提供數(shù)據(jù)收集、處理、入庫、訪問接口的大型服務(wù)。目前業(yè)內(nèi)比較流行的BI系統(tǒng)不管是商用的還是開源的有很多;考慮到廣告平臺本身的業(yè)務(wù)邏輯以及成本問題,暢思是基于Hadoop自己構(gòu)建的BI系統(tǒng),分?jǐn)?shù)據(jù)收集、ETL、存儲入庫、調(diào)度四個(gè)部分。

  2.1 數(shù)據(jù)收集

  暢思的數(shù)據(jù)源包括三大類:第一方數(shù)據(jù)(廣告主、媒體回傳的用戶行為數(shù)據(jù)),第二方數(shù)據(jù)(廣告平臺展示、點(diǎn)擊、激活等數(shù)據(jù)),第三方數(shù)據(jù)(其他平臺合作數(shù)據(jù))。

  第一方數(shù)據(jù),可以通過SDK采集、廣告主回調(diào)等方式進(jìn)行數(shù)據(jù)的收集;第二方數(shù)據(jù)可直接通過內(nèi)網(wǎng)進(jìn)行互傳;第三方數(shù)據(jù)一般采用API、第三方存儲(AWS S3, 阿里云存儲)、RSYNC等方式進(jìn)行批量傳輸?shù)姆绞竭M(jìn)行同步。

  暢思目前的解決方案如圖三所示

  

  圖三 日志收集示意圖

  第一方和第二方數(shù)據(jù)。離線分析,采用批量傳輸和獲取的方式進(jìn)行數(shù)據(jù)收集;實(shí)時(shí)分析,則使用APIlume進(jìn)行數(shù)據(jù)的收集。第三方數(shù)據(jù),一般通過第三方可靠性存儲作為媒介來獲取,而對于第三方需要實(shí)時(shí)獲取信息的,則采用API的方式進(jìn)行通信。

  2.2 日志ETL

  針對第一方、第二方數(shù)據(jù)。提供配置控制功能,ETL對于不同類型的數(shù)據(jù)根據(jù)配置文件使用不同的解析、轉(zhuǎn)換、加載的邏輯;注意,需要考慮ETL數(shù)據(jù)解析各個(gè)階段以及后續(xù)處理各個(gè)階段之間的時(shí)間同步,目前chance直接在同步標(biāo)識存入到kv中,以進(jìn)行同步?商鎿Q為使用消息隊(duì)列進(jìn)行同步,不同的邏輯使用不同的隊(duì)列,在解耦處理邏輯的同時(shí),保證數(shù)據(jù)處理的有序性。

  2.3 數(shù)據(jù)存儲入庫

  暢思選用Hadoop生態(tài)圈作為存儲以及計(jì)算的基本工具,并基于原生的Hadoop進(jìn)行了定制化開發(fā),滿足廣告業(yè)務(wù)在穩(wěn)定性、擴(kuò)展性以及安全性方面的需求。

  在使用層次上,用HDFS分用戶存儲原始數(shù)據(jù),對ETL之后產(chǎn)生的格式化數(shù)據(jù),按照事先定義好的分區(qū)加載到Hive表中。

  2.4 BI系統(tǒng)任務(wù)調(diào)度

  數(shù)據(jù)倉庫數(shù)據(jù)錄入完畢之后,業(yè)務(wù)方就可以訪問庫中的數(shù)據(jù),計(jì)算分析各類指標(biāo);為保證服務(wù)的可靠性以及數(shù)據(jù)的安全性,暢思基于數(shù)據(jù)倉庫構(gòu)建了可視化的調(diào)度系統(tǒng)。

  主要的流程如圖四所示:

  

  圖四 BI系統(tǒng)調(diào)度平臺

  3. 數(shù)據(jù)分析與挖掘

  3.1 數(shù)據(jù)分析

  目前暢思的數(shù)據(jù)分析服務(wù)包括三個(gè)部分:廣告平臺的運(yùn)營分析、媒體運(yùn)營分析以及數(shù)據(jù)管理調(diào)度平臺。

  廣告平臺運(yùn)營分析。分權(quán)限分角色,對廣告平臺上各個(gè)項(xiàng)目在不同環(huán)境下在各個(gè)流量端的展示、點(diǎn)擊、激活、平臺支出,平臺收入等進(jìn)行統(tǒng)計(jì)分析;

  游戲運(yùn)營平臺。主要對媒體應(yīng)用的新增、活躍,付費(fèi),留存,TAD,流失,回流等運(yùn)營指標(biāo)進(jìn)行分析,上述指標(biāo)可以分渠道、分活動、分項(xiàng)目進(jìn)行深層次分析,以評估各個(gè)廣告推廣活動帶來用戶的質(zhì)量;

  數(shù)據(jù)管理平臺。為了提高運(yùn)營、商務(wù)等的工作效率,暢思數(shù)據(jù)中心提供數(shù)據(jù)管理功能。用戶可以分權(quán)限在該平臺上提交數(shù)據(jù)到數(shù)據(jù)倉庫或者不同的數(shù)據(jù)存儲,用戶可以根據(jù)這些數(shù)據(jù)分析產(chǎn)生結(jié)果,并可以將這些數(shù)據(jù)或者數(shù)據(jù)結(jié)果開放給其他用戶使用;用戶也可以根據(jù)數(shù)據(jù)中心分配的權(quán)限,從數(shù)據(jù)倉庫中分析產(chǎn)生結(jié)果。

  3.2 數(shù)據(jù)挖掘

  基于三方數(shù)據(jù)深挖數(shù)據(jù)價(jià)值。

  包括五個(gè)部分:反作弊,用戶標(biāo)簽,媒體/用戶質(zhì)量評估,CTR預(yù)測,Lookalike。

  3.2.1 反作弊

  廣告行業(yè),流量端作弊十分常見,如何過濾掉這部分假量,對于廣告主以及平臺來講至關(guān)重要。暢思作為業(yè)內(nèi)第一家使用并推廣反作弊的企業(yè),在反作弊方面有許多成熟的積累。目前暢思反作弊包括規(guī)則策略以及模型兩部分。規(guī)則策略主要是對固定的作弊模式進(jìn)行直接查殺,目前暢思反作弊系統(tǒng)的規(guī)則策略大概有30大項(xiàng),可以有效過濾一大批“小白”作弊用戶;反作弊模型則是根據(jù)已發(fā)現(xiàn)作弊用戶的行為,提取作弊用戶的特征,用機(jī)器學(xué)習(xí)的方法盡早發(fā)現(xiàn)作弊用戶,減少平臺以及廣告主的損失。

  規(guī)則策略流程如圖五所示,模型策略如圖六所示。

  

  圖五 反作弊規(guī)則流程圖

  

  圖六 反作弊模型流程圖

  反作弊模型與規(guī)則策略相輔相成,可以通過反作弊模型發(fā)現(xiàn)新的作弊模式,然后結(jié)合行為序列發(fā)掘,歸結(jié)為固定的規(guī)則,可進(jìn)一步豐富規(guī)則策略;而規(guī)則策略,對于已查殺的用戶,分析其被殺掉之前的行為,可有效豐富反作弊需要的樣本,進(jìn)一步提高反作弊模型的泛化能力。

  3.2.2 用戶標(biāo)簽

  對用戶進(jìn)行精準(zhǔn)化投放的基礎(chǔ)。用戶的標(biāo)簽分為靜態(tài)標(biāo)簽和動態(tài)標(biāo)簽,靜態(tài)標(biāo)簽主要指用戶的性別,年齡,地域等信息,動態(tài)標(biāo)簽主要是用戶的興趣標(biāo)簽。

  目前暢思數(shù)據(jù)中心有效的標(biāo)簽量在幾千個(gè),并且提供了可定制化功能開放給廣告主使用,廣告主可以根據(jù)自己的需求,定義自己的標(biāo)簽,用定制的標(biāo)簽來指導(dǎo)投放。

  定制化標(biāo)簽可以基于關(guān)鍵詞,也可以基于已有標(biāo)簽進(jìn)行邏輯計(jì)算獲得,暢思支持的邏輯運(yùn)算有與,或,非,加,減等。

  3.2.3 媒體/用戶質(zhì)量評估

  有了用戶標(biāo)簽、用戶在廣告平臺中的行為信息、用戶在媒體應(yīng)用上的行為信息,暢思數(shù)據(jù)平臺對媒體流量以及用戶進(jìn)行了分級。

  媒體質(zhì)量,分類別、分效果計(jì)算出各個(gè)媒體的基礎(chǔ)得分,對質(zhì)量不同的媒體,指導(dǎo)廣告投放平臺進(jìn)行區(qū)別投放。

  用戶質(zhì)量,采用聚類的方法對用戶進(jìn)行人群劃分,對各個(gè)群體進(jìn)行廣告效果、活躍度等多方面的評估,得到各類人群的評分。

  3.2.4 CTR預(yù)測

  基于用戶的畫像信息,媒體流量信息,廣告項(xiàng)目信息等多種特征,進(jìn)行點(diǎn)擊率預(yù)測。目前采用的特征有600+,使用的基礎(chǔ)模型是LR,采用LR的主要原因是移動廣告平臺用戶受媒體或者渠道切入流量的限制,信息過于稀疏,對于特征的提取,進(jìn)行了較多的人工介入,后續(xù)我們也會嘗試在LR中加入特征選擇的步驟,提高訓(xùn)練及調(diào)優(yōu)效率。

  3.2.5 Lookalike

  相似用戶發(fā)現(xiàn),主要根據(jù)廣告主或者投放項(xiàng)目反饋回來的用戶信息,進(jìn)行同類用戶的精準(zhǔn)投放。Lookalike發(fā)現(xiàn)的方法有兩大類:有監(jiān)督訓(xùn)練獲取以及無監(jiān)督訓(xùn)練獲取。有監(jiān)督獲取采用分類的方法進(jìn)行用戶發(fā)現(xiàn),該類方法的優(yōu)點(diǎn)的準(zhǔn)確度高,缺點(diǎn)是得到的用戶覆蓋面不夠,并且負(fù)樣本不太容易收集;無監(jiān)督獲取主要采用聚類的方法對用戶進(jìn)行分群,然后根據(jù)群體的信息,從用戶庫中獲取類似的用戶,該類方法的優(yōu)點(diǎn)是得到的用戶覆蓋面較廣,并且得到的用戶在行為上符合某類分布,對異常用戶不敏感,缺點(diǎn)是需要的訓(xùn)練樣本比較多,對于比較大的投放項(xiàng)目比較合適。目前,暢思主要以無監(jiān)督的方法為基礎(chǔ),對同一個(gè)項(xiàng)目下的用戶進(jìn)行人群切分,然后去積累的用戶系統(tǒng)中獲取相似的用戶。

  4. 數(shù)據(jù)可視化

  數(shù)據(jù)可視化作為數(shù)據(jù)分析結(jié)果以及數(shù)據(jù)挖掘結(jié)果呈現(xiàn)的重要媒介,在數(shù)據(jù)平臺產(chǎn)品化方面起著非常重要的作用。目前暢思數(shù)據(jù)可視化主要包括三個(gè)平臺:廣告運(yùn)營指標(biāo)可視化,媒體運(yùn)營可視化,數(shù)據(jù)管理可視化。各平臺的介紹可以看數(shù)據(jù)分析部分的內(nèi)容。

  廣告運(yùn)營指標(biāo)可視化,主要提供各類指標(biāo),指標(biāo)同比/環(huán)比對比等分析功能,如圖七所示:

  

  圖七 暢思平臺數(shù)據(jù)運(yùn)營中心

  媒體運(yùn)營可視化,主要是展示媒體運(yùn)營中所使用的指標(biāo)以及詳細(xì)分析情況,如圖:

  

  圖八 暢思游戲運(yùn)營平臺示例

  數(shù)據(jù)管理可視化,主要提供用戶獲取數(shù)據(jù)、上傳數(shù)據(jù)、分析數(shù)據(jù)的可視化接口,提高廣告主或者運(yùn)營的分析效率。

  

  圖九 暢思數(shù)據(jù)管理平臺示例

  5.總結(jié)

 …過幾年的沉淀,暢思廣告平臺已累計(jì)了海量的大數(shù)據(jù)樣本,并且在業(yè)內(nèi)最領(lǐng)先技術(shù)的支配下,可以輕松實(shí)現(xiàn)三方利益最大化。

  通過以上的介紹,希望大家對數(shù)據(jù)中心的功能以及作用有一個(gè)比較清晰的認(rèn)識及了解。數(shù)據(jù)中心的搭建是一個(gè)長期過程,其相關(guān)技術(shù)也在快速的發(fā)展進(jìn)步,在這里通過與大家交流,希望大家更加關(guān)注數(shù)據(jù)技術(shù)在移動互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用,為流量以及數(shù)據(jù)變現(xiàn)提供更有效的技術(shù)支持方案。

   投稿郵箱:chuanbeiol@163.com   詳情請?jiān)L問川北在線:http://m.sanmuled.cn/

川北在線-川北全搜索版權(quán)與免責(zé)聲明
①凡注明"來源:XXX(非在線)"的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé),本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。
②本站所載之信息僅為網(wǎng)民提供參考之用,不構(gòu)成任何投資建議,文章觀點(diǎn)不代表本站立場,其真實(shí)性由作者或稿源方負(fù)責(zé),本站信息接受廣大網(wǎng)民的監(jiān)督、投訴、批評。
③本站轉(zhuǎn)載純粹出于為網(wǎng)民傳遞更多信息之目的,本站不原創(chuàng)、不存儲視頻,所有視頻均分享自其他視頻分享網(wǎng)站,如涉及到您的版權(quán)問題,請與本網(wǎng)聯(lián)系,我站將及時(shí)進(jìn)行刪除處理。



圖庫
合作媒體
金寵物 綠植迷
法律顧問:ITLAW-莊毅雄律師