你好,歡迎來(lái)到川北在線
微信
騰訊微博
新浪微博
亞馬遜云科技DeepRacer模型訓(xùn)練指南及標(biāo)準(zhǔn)硬件配置流程
時(shí)間:2023-04-13 13:51   來(lái)源:今日頭條   責(zé)任編輯:青青

  原標(biāo)題:亞馬遜云科技DeepRacer模型訓(xùn)練指南及標(biāo)準(zhǔn)硬件配置流程

  Amazon DeepRacer介紹

  Amazon DeepRacer是一個(gè)綜合性的學(xué)習(xí)系統(tǒng),可供各個(gè)水平的用戶(hù)用來(lái)學(xué)習(xí)和探索強(qiáng)化學(xué)習(xí)以及試驗(yàn)和構(gòu)建自動(dòng)駕駛應(yīng)用程序。

  DeepRacer可分為兩個(gè)主要部分:

  Amazon DeepRacer Console:在線訓(xùn)練和評(píng)估強(qiáng)化學(xué)習(xí)模型在模擬自動(dòng)駕駛環(huán)境;

  Amazon DeepRacer車(chē)輛:1/18比例的RC車(chē)輛,導(dǎo)入訓(xùn)練好的Amazon DeepRacer模型上運(yùn)行推理用于自動(dòng)駕駛。

  本文從兩個(gè)主要部分討論DeepRacer的使用:

  DeepRacer在線訓(xùn)練:從獎(jiǎng)勵(lì)函數(shù)、賽車(chē)知識(shí)和強(qiáng)化學(xué)習(xí)參數(shù)3個(gè)方向出發(fā),優(yōu)化模型線上及線下的性能;

  DeepRacer物理賽車(chē):提供DeepRacer硬件使用過(guò)程中的標(biāo)準(zhǔn)流程,避免錯(cuò)誤的配置流程導(dǎo)致性能不佳,包括:初次開(kāi)箱配置、再次使用時(shí)的檢查流程,以及debug流程。

  獎(jiǎng)勵(lì)函數(shù)基本思想

  DeepRacer底層技術(shù)基于強(qiáng)化學(xué)習(xí),在強(qiáng)化學(xué)習(xí)中,agent(智能體)學(xué)習(xí)的目標(biāo)被表示為reward(收益),收益通過(guò)environment(環(huán)境)傳遞給agent reward在每個(gè)時(shí)間點(diǎn)上是一個(gè)標(biāo)量。而agent的目標(biāo),是最大化收到的總體reward。因此,與計(jì)算機(jī)中的貪心算法不同,強(qiáng)化學(xué)習(xí)的agent的目標(biāo)并非最大化當(dāng)前的reward,而是最大化長(zhǎng)期reward的累計(jì)公式。

  在DeepRacer訓(xùn)練中,模擬器通過(guò)給agent返回reward來(lái)與其交互,而agent根據(jù)reward來(lái)更新自己的策略。在《Reinforcement learning: An introduction》一書(shū)中,reward由狀態(tài),動(dòng)作和下一個(gè)狀態(tài)共同決定。

  在強(qiáng)化學(xué)習(xí)項(xiàng)目中,reward function的設(shè)計(jì)是其中重點(diǎn),也是最耗費(fèi)時(shí)間的部分,因?yàn)樵谔岣遖gent能力的同時(shí),還要避免agent投機(jī)取巧,找到提高獎(jiǎng)勵(lì)值的方法。

  使用上面的獎(jiǎng)勵(lì)函數(shù),通?梢杂(xùn)練出一個(gè)比較穩(wěn)定的模型,然而DeepRacer競(jìng)賽評(píng)判的標(biāo)準(zhǔn)除了穩(wěn)定,還關(guān)注速度,因此,我們可以將更多的params提供的參數(shù)用上。

  強(qiáng)化學(xué)習(xí)的參數(shù)理解

  深度強(qiáng)化學(xué)習(xí)算法

  DeepRacer的底層算法是深度強(qiáng)化學(xué)習(xí),其中可以選擇的算法有兩個(gè),我們可以根據(jù)訓(xùn)練的時(shí)間和賽道類(lèi)型選擇合適的模型:

  PPO(Proximal Policy Optimization):基于Policy Gradient的思想,是主流的深度強(qiáng)化學(xué)習(xí)算法之一。PPO對(duì)樣本的利用效率較低,訓(xùn)練時(shí)需要大量樣本,魯棒性較高,對(duì)超參數(shù)不敏感,收斂效果較好。

  SAC(Soft Actor-Critic):基于DDPG的思想,與PPO相比,對(duì)樣本的利用程度更高,所需要的樣本數(shù)更少。但SAC魯棒性較低,對(duì)超參數(shù)敏感,收斂效果較差。

  超參數(shù)

  深度強(qiáng)化學(xué)習(xí)的底層是神經(jīng)網(wǎng)絡(luò)結(jié)合強(qiáng)化學(xué)習(xí),因此我們可以配置的超參數(shù)分為2大類(lèi):

  強(qiáng)化學(xué)習(xí)超參數(shù)

  神經(jīng)網(wǎng)絡(luò)超參數(shù)

  深度學(xué)習(xí)參數(shù)的簡(jiǎn)介如下:

  Gradient descent batch size:從經(jīng)驗(yàn)緩沖區(qū)中隨機(jī)采樣的最近車(chē)輛經(jīng)驗(yàn)數(shù),用于更新基礎(chǔ)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)重。

  Number of epochs:在梯度下降期間,遍歷訓(xùn)練數(shù)據(jù)(經(jīng)驗(yàn)緩沖區(qū)的隨機(jī)樣本)以更新神經(jīng)網(wǎng)絡(luò)權(quán)重的次數(shù)。

  Learning rate:更新權(quán)重時(shí),新權(quán)重的占比。

  Entropy:不確定性概率,模型有一定概率選擇隨機(jī)探索。

  Discount factor:未來(lái)獎(jiǎng)勵(lì)對(duì)預(yù)期獎(jiǎng)勵(lì)的影響程度。

  Loss type:損失函數(shù)的類(lèi)型。分為Mean squared error loss(均方誤差損失)和Huber loss(Huber損失)類(lèi)型。

  Number of experience episodes between each policy-updating iteration:經(jīng)驗(yàn)緩沖區(qū)的大小,用于記錄過(guò)去的經(jīng)驗(yàn)。

  根據(jù)以上超參數(shù)的定義,有如下調(diào)參建議:

  如果獎(jiǎng)勵(lì)函數(shù)過(guò)于激進(jìn),導(dǎo)致模型不易收斂,可以嘗試降低learning rate或選擇huber loss,讓學(xué)習(xí)的過(guò)程更加平滑;

  如果模型在過(guò)彎時(shí)反應(yīng)不夠靈敏,或轉(zhuǎn)彎時(shí)機(jī)總是比較晚,可以嘗試提高discount factor,讓模型更注重遠(yuǎn)期獎(jiǎng)勵(lì);

  反之,如果模型在過(guò)彎時(shí)過(guò)于靈敏,過(guò)早轉(zhuǎn)彎,可以嘗試降低discount factor,避免模型過(guò)于關(guān)注遠(yuǎn)期獎(jiǎng)勵(lì),同時(shí),也可以使用waypoints來(lái)解決;

  Reward的延遲也要在discount factor的設(shè)置中考慮,如果reward設(shè)置的的延遲較高時(shí),可以適當(dāng)提高discount factor值;而reward實(shí)時(shí)性較好時(shí),可以降低discount factor值;

  Batch size與epoch越大,模型在訓(xùn)練的權(quán)重更新則越平滑。但如果Batch size或epoch過(guò)大,會(huì)導(dǎo)致訓(xùn)練速度降低及收斂至局部最優(yōu),因此可以聯(lián)合調(diào)試Batch size和epoch的值;

  適當(dāng)增加經(jīng)驗(yàn)緩沖區(qū)大小,會(huì)提升模型的收斂的穩(wěn)定性,如果模型始終不收斂或性能震動(dòng)較大,可以嘗試適當(dāng)增加經(jīng)驗(yàn)緩沖區(qū)的大小;

  與PPO模型相比,在使用SAC模型時(shí),建議使用更高的epoch來(lái)緩解算法本身對(duì)超參數(shù)敏感的問(wèn)題;

  如果模型訓(xùn)練過(guò)程中的性能提升過(guò)于緩慢,可以適當(dāng)增加entropy值,提升模型隨機(jī)探索的可能性;

  如果模型的性能提升過(guò)于緩慢或變動(dòng)較小,可以適當(dāng)增加entropy值;反之,如果模型在收斂過(guò)程中震蕩較大,可以適當(dāng)降低entropy值。

  Action Space

  Action space指的是agent可選的動(dòng)作范圍,在DeepRacer訓(xùn)練配置中,可以選擇下面兩種action space:

  Continuous action space:連續(xù)動(dòng)作空間,提供速度和轉(zhuǎn)角的上下限,agent可在范圍中尋找合適的值;

  Discrete action space:離散動(dòng)作空間,提供action的組合(速度+轉(zhuǎn)角)。

  通常情況下,continuous action space較難收斂,需要更多的訓(xùn)練時(shí)間和更精細(xì)的獎(jiǎng)勵(lì)函數(shù)配置。

   投稿郵箱:chuanbeiol@163.com   詳情請(qǐng)?jiān)L問(wèn)川北在線:http://m.sanmuled.cn/

川北在線-川北全搜索版權(quán)與免責(zé)聲明
①凡注明"來(lái)源:XXX(非在線)"的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本網(wǎng)不承擔(dān)此類(lèi)稿件侵權(quán)行為的連帶責(zé)任。
②本站所載之信息僅為網(wǎng)民提供參考之用,不構(gòu)成任何投資建議,文章觀點(diǎn)不代表本站立場(chǎng),其真實(shí)性由作者或稿源方負(fù)責(zé),本站信息接受廣大網(wǎng)民的監(jiān)督、投訴、批評(píng)。
③本站轉(zhuǎn)載純粹出于為網(wǎng)民傳遞更多信息之目的,本站不原創(chuàng)、不存儲(chǔ)視頻,所有視頻均分享自其他視頻分享網(wǎng)站,如涉及到您的版權(quán)問(wèn)題,請(qǐng)與本網(wǎng)聯(lián)系,我站將及時(shí)進(jìn)行刪除處理。



圖庫(kù)
合作媒體
金寵物 綠植迷
法律顧問(wèn):ITLAW-莊毅雄律師