你好,歡迎來到川北在線
微信
騰訊微博
新浪微博
一文了解亞馬遜云科技Amazon Athena云上服務(wù)的日志結(jié)構(gòu)化建表與查詢流程
時(shí)間:2023-11-17 09:37   來源:搜狐   責(zé)任編輯:青青

  原標(biāo)題:一文了解亞馬遜云科技Amazon Athena云上服務(wù)的日志結(jié)構(gòu)化建表與查詢流程

  服務(wù)介紹

  亞馬遜云科技Amazon Bedrock是一項(xiàng)完全托管的服務(wù),使用單個(gè)API提供來自AI21 Labs、Anthropic、Cohere、Meta、Stability AI和Amazon等領(lǐng)先人工智能公司的高性能基礎(chǔ)模型,以及構(gòu)建生成式人工智能應(yīng)用程序所需的一系列廣泛功能,在維護(hù)隱私和安全的同時(shí)簡(jiǎn)化開發(fā)。借助Amazon Bedrock的全面功能,您可以輕松嘗試各種熱門FM,使用微調(diào)和檢索增強(qiáng)生成等技術(shù)利用數(shù)據(jù)對(duì)其進(jìn)行私人定制,并創(chuàng)建可執(zhí)行復(fù)雜業(yè)務(wù)任務(wù)的托管代理,所有這些都無(wú)需編寫任何代碼。由于Amazon Bedrock是無(wú)服務(wù)器的,因此無(wú)需管理任何基礎(chǔ)設(shè)施,并且可以使用已經(jīng)熟悉的亞馬遜云科技服務(wù)將生成式人工智能功能安全地集成和部署到應(yīng)用程序中。

  Amazon Athena是一種交互式查詢服務(wù),能夠輕松使用標(biāo)準(zhǔn)SQL直接分析Amazon Simple Storage Service(Amazon S3)中的數(shù)據(jù)。只需在服務(wù)界面中執(zhí)行幾項(xiàng)操作,即可將Athena指向Amazon S3中存儲(chǔ)的數(shù)據(jù),并開始使用標(biāo)準(zhǔn)SQL運(yùn)行臨時(shí)查詢,然后在幾秒鐘內(nèi)獲得結(jié)果。

  在這篇文章中,以Amazon Bedrock的服務(wù)調(diào)用日志為例,闡述Amazon Athena對(duì)于云上服務(wù)的日志結(jié)構(gòu)化建表與查詢流程,并獲取cost_input_token_cnt與cost_output_token_cnt兩個(gè)字段,可以快速幫助Bedrock用戶計(jì)算服務(wù)調(diào)用的費(fèi)用,并以日期與小時(shí)為分組進(jìn)行指標(biāo)的統(tǒng)計(jì)。

  開啟Bedrock日志

  首先,在Amazon Bedrock的控制臺(tái)上開啟模型調(diào)用日志,選擇要開啟日志的日志類別以及日志的存儲(chǔ)目的地,這里選擇將模型調(diào)用日志輸出到Amazon S3中,如下圖所示。

  在Amazon Athena中建立日志表

  開啟Amazon Bedrock的模型調(diào)用日志后,將會(huì)在指定的Amazon S3路徑中看到Bedrock的模型調(diào)用日志。下載其中的日志文件后,可以看到具體的日志內(nèi)容。每條日志是一次完整的調(diào)用記錄,以JSON對(duì)象的形式進(jìn)行記錄,JSON對(duì)象中包括schemaType,schemaVersion,timestamp,accountId,region,requestId,operation,modelId,input,output字段,分別表示schema類型,schema版本,調(diào)用時(shí)間戳,賬號(hào)Id,調(diào)用的AWS region,請(qǐng)求Id,調(diào)用方法,使用的模型Id,調(diào)用的輸入以及調(diào)用的輸出。其中輸入input,輸出output均為嵌套的JSON對(duì)象字段,重要的包括inputBodyJson,inputTokenCount,outputBodyJson,outputTokenCount字段,分別表示輸入內(nèi)容JSon,輸入的Token的數(shù)量,輸出內(nèi)容JSon,輸出Token的數(shù)量。

  另外,Amazon Bedrock轉(zhuǎn)存到Amazon S3的日志目錄層次較深,形式如S3://bucket/prefix/AWSLogs/YourAccount Id/BedrockModelInvocationLogs/region/year/month/day/hour,日志目錄是按區(qū)域、年、月、日、時(shí)這幾個(gè)維度來組織的。具體如下所示:

  在了解了Amazon Bedrock模型調(diào)用日志的格式以及日志文件組織形式后,就可以對(duì)日志數(shù)據(jù)采用Amazon Athena來進(jìn)行數(shù)據(jù)建模?紤]到Bedrock的日志是以小時(shí)為單位來對(duì)日志做輪轉(zhuǎn)的,結(jié)合對(duì)數(shù)據(jù)查詢的要求,可以采用日期和小時(shí)這兩個(gè)維度來進(jìn)行數(shù)據(jù)分區(qū)。由于Bedrock自動(dòng)按小時(shí)來組織日志數(shù)據(jù),日志數(shù)據(jù)建模時(shí),需要考慮數(shù)據(jù)分區(qū)的自動(dòng)更新問題,也就是說需要讓Athena感知到數(shù)據(jù)分析元數(shù)據(jù)信息。

  對(duì)于分區(qū)信息的更新,可以采用基于事件的方式來動(dòng)態(tài)更新數(shù)據(jù)的分區(qū)信息,當(dāng)Amazon S3中產(chǎn)生了新的日期或者小時(shí)日志目錄時(shí)自動(dòng)更新分區(qū)信息,這種方式可以比較 的控制分區(qū)數(shù)量。但是考慮到面向終端用戶的應(yīng)用,應(yīng)用都會(huì)實(shí)時(shí)在線,基本上每個(gè)小時(shí)都會(huì)有日志產(chǎn)生,并且這種的日志產(chǎn)生的模式是固定的,并且在長(zhǎng)期會(huì)積累較多的分區(qū)信息;诖,可以使用Amazon Athena的Partition Projection特性來自動(dòng)化分區(qū)管理,并且加速查詢效率。

  使用Athena Partition Projection進(jìn)行數(shù)據(jù)建模

  根據(jù)對(duì)Bedrock模型調(diào)用日志的分析,使用Amazon Athena建立日志數(shù)據(jù)表。

  在SQL中,表中的各個(gè)字段映射到日志JSON對(duì)象中的各個(gè)字段,input和output字段采用struct類型映射嵌套的JSON對(duì)象,并指定日期dt和小時(shí)h這兩個(gè)分區(qū)字段。通過LOCATION指定日志數(shù)據(jù)的路徑,這個(gè)路徑指定到Region這個(gè)層級(jí)即可。在TBLPROPERTIES中,設(shè)置‘projection.enabled’屬性為‘true’來開啟表的分區(qū)映射功能,并且分別指定dt和h這兩個(gè)分區(qū)字段的類型以及對(duì)應(yīng)的配置,其中dt映射為‘date’日期類型,日期格式為‘yyyyMMdd’,并設(shè)定日期的范圍以及日期間隔,h為枚舉類型,并給出所有的值。關(guān)于Athena的partition projection配置可以參考服務(wù)文檔。最后,由于日志數(shù)據(jù)的分區(qū)格式不是默認(rèn)的Hive分區(qū)格式,需要設(shè)置‘storage.location.template’屬性來告知Athena底層數(shù)據(jù)的存放形式,具體的設(shè)置方法可以參考相關(guān)文檔。在Athena中建完表后,即可對(duì)數(shù)據(jù)進(jìn)行查詢、統(tǒng)計(jì)和分析。

  使用Amazon Athena進(jìn)行數(shù)據(jù)查詢與成本分析

  Bedrock price頁(yè)面提供了多種LLM模型調(diào)用計(jì)費(fèi)模式,其中Claude On-Demand計(jì)費(fèi)單價(jià)如下:

  此外token count不足100按照100計(jì)算;谝陨闲畔,可以查詢某天(或某時(shí))模型調(diào)用明細(xì),包括每次的實(shí)際輸入Token數(shù)量、計(jì)費(fèi)輸入Token數(shù)量、實(shí)際輸出Token數(shù)量、計(jì)費(fèi)輸出Token數(shù)量。

  比如想查看每個(gè)模型在當(dāng)天總的輸入Token數(shù)、總的計(jì)費(fèi)輸入Token數(shù)、總的輸出Token數(shù)、總的計(jì)費(fèi)輸出Token數(shù)。

  輸出結(jié)果如下:

  數(shù)據(jù)建模后,除了可以通過Athena做交互式統(tǒng)計(jì)查詢、分析外,還可以通過Athena對(duì)接Amazon QuickSight或者Tableau等BI工具進(jìn)行數(shù)據(jù)報(bào)表展示以獲得更好的使用體驗(yàn)。

  總結(jié)

  綜上所述,以Bedrock為例,闡述了Amazon Athena這一Serverless服務(wù)進(jìn)行云上日志結(jié)構(gòu)化建表與查詢,并提取inputtokencount與outputtokencount兩個(gè)字段來幫助Bedrock用戶計(jì)算服務(wù)調(diào)用的費(fèi)用。

   投稿郵箱:chuanbeiol@163.com   詳情請(qǐng)?jiān)L問川北在線:http://m.sanmuled.cn/

川北在線-川北全搜索版權(quán)與免責(zé)聲明
①凡注明"來源:XXX(非在線)"的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。
②本站所載之信息僅為網(wǎng)民提供參考之用,不構(gòu)成任何投資建議,文章觀點(diǎn)不代表本站立場(chǎng),其真實(shí)性由作者或稿源方負(fù)責(zé),本站信息接受廣大網(wǎng)民的監(jiān)督、投訴、批評(píng)。
③本站轉(zhuǎn)載純粹出于為網(wǎng)民傳遞更多信息之目的,本站不原創(chuàng)、不存儲(chǔ)視頻,所有視頻均分享自其他視頻分享網(wǎng)站,如涉及到您的版權(quán)問題,請(qǐng)與本網(wǎng)聯(lián)系,我站將及時(shí)進(jìn)行刪除處理。



合作媒體
金寵物 綠植迷 女邦網(wǎng) IT人
法律顧問:ITLAW-莊毅雄律師