你好,歡迎來(lái)到川北在線
微信
騰訊微博
新浪微博
你以為只是下圍棋能贏人類?微軟的 AI 在吃豆人游戲上也超越人類了
時(shí)間:2017-06-16 11:42   來(lái)源:雷鋒網(wǎng)   責(zé)任編輯:毛青青

  微軟研究人員創(chuàng)建了一個(gè)人工智能的系統(tǒng),這個(gè)系統(tǒng)能夠在 20 世紀(jì) 80 年代風(fēng)靡全球的電子游戲吃豆人小姐(Ms. Pac-Man)中獲得 分,系統(tǒng)使用了分治策略來(lái)更大程度地影響 AI 代理,從而完美地通關(guān)游戲。

  今年年初,微軟收購(gòu)了一家人工智能初創(chuàng)公司 Maluuba,Maluuba 公司團(tuán)隊(duì)運(yùn)用強(qiáng)化學(xué)習(xí)技術(shù)(機(jī)器學(xué)習(xí)的分支),在吃豆人小姐游戲 Atari 2600 版本中表現(xiàn)完美。使用這種方法,該團(tuán)隊(duì)在這個(gè)游戲中得到的分?jǐn)?shù)高達(dá) 999,990。

  位于加拿大蒙特利爾的麥吉爾大學(xué)(McGill University),從事計(jì)算機(jī)科學(xué)研究的 Doina Precup 副教授表示,AI 研究人員的常常使用各種電子游戲來(lái)測(cè)試他們研發(fā)的系統(tǒng),但研究人員發(fā)現(xiàn)吃豆人小姐游戲是最難攻克的。

  但是,Precup 表示,相比于研究人員所取得的成就而言,她對(duì)于研究人員獲得成果的過(guò)程更加感興趣。為了在吃豆人小姐游戲中獲得更高的分?jǐn)?shù),Maluuba 公司團(tuán)隊(duì)將操控吃豆人小姐游戲的大問(wèn)題分解成若干個(gè)小問(wèn)題,然后將小問(wèn)題分發(fā)給AI代理解決。

  Precup 說(shuō)“這個(gè)分治策略的想法讓 Maluuba 公司的研究人員使用不同的系統(tǒng)來(lái)實(shí)現(xiàn)同一個(gè)目標(biāo),這是一件非常有趣的事情”,她還說(shuō)到:“這個(gè)想法類似于一些大腦如何工作的理論,它可以更大程度地影響AI代理教學(xué),從而利用有限的信息來(lái)完成更為復(fù)雜的任務(wù)。倘若能夠完美利用分治策略,那人工智能將向前跨越一大步,這真的令人感到尤為興奮!

  Maluuba 團(tuán)隊(duì)將這種分治策略稱之為混合式獎(jiǎng)賞架構(gòu)(Hybrid Reward Architecture),這個(gè)方法使用了 150 多名人工智能代理,每個(gè)代理與其他代理相互獨(dú)立地精通吃豆人小姐游戲。比如,一些代理成功找到一個(gè)豆子將獲得的獎(jiǎng)勵(lì),而另外一些代理由于幽靈的存在必須呆在原處。

  然后,研究人員在吃豆人小姐游戲中創(chuàng)建了一個(gè) 代理,就像一家公司的高級(jí)經(jīng)理一樣, 代理能夠獲得所有代理的建議,綜合分析后由 代理來(lái)決定吃豆人小姐該如何移動(dòng)。

   代理會(huì)根據(jù)選擇各個(gè)方向前進(jìn)的代理數(shù)量的大小來(lái)決定移動(dòng)方向,但同時(shí)也需要考慮到代理想要往某個(gè)方向移動(dòng)的反應(yīng)強(qiáng)度。例如,如果 100 個(gè)代理想向右邊移動(dòng),因?yàn)橄蛴疫呑呤撬麄兊? 路徑,但有 3個(gè)人想要向左邊移動(dòng),因?yàn)橛疫呌幸粋(gè)致命的幽靈,那這 3 個(gè)代理向左邊移動(dòng)的反應(yīng)強(qiáng)度明顯強(qiáng)于其他代理,考慮到幽靈的存在, 代理應(yīng)該決定向左移動(dòng)。

  Maluuba 公司的研究室經(jīng)理 Harman Van Seijen,對(duì)于他們的 研究成果發(fā)表了一篇文章,文章中寫(xiě)到,當(dāng)每位代理都果斷地做出選擇, 代理綜合利用每個(gè)代理的信息后做出 選擇,那么在吃豆人小姐游戲中就可以獲得最好的結(jié)果。Harman Van Seijen 說(shuō):“雖然每個(gè)代理只關(guān)心一個(gè)特定的問(wèn)題,但是他們之間有很好的相互作用”。

圖為Harman Van Seijen

  為什么 AI 主要研究攻克吃豆人小姐游戲

  需要運(yùn)用 的 AI 研究方法來(lái)?yè)魯☆愃朴谏鲜兰o(jì) 80 年代 Atari 吃豆人小姐游戲這樣的簡(jiǎn)單游戲,這看上去很匪夷所思。但是 Maluuba 公司的項(xiàng)目經(jīng)理 Rahul Mehrotra 表示,使用算法來(lái)贏得這些簡(jiǎn)單的電子游戲其實(shí)非常困難,因?yàn)樵谕嬗螒虻倪^(guò)程中可能會(huì)遇到的各種各樣的情況。

  Mehrotra 表示:“許多從事人工智能的公司構(gòu)建游戲智能算法,因?yàn)楣鞠M斯ぶ悄苣軌蛳袢祟愐粯訐碛写蛴螒虻募寄!?/P>

  Steve Golson 是吃豆人小姐游戲街機(jī)版的創(chuàng)始人之一,他說(shuō)到,吃豆人小姐最初定位是街機(jī)游戲,希望游戲?qū)θ藗冇谐掷m(xù)吸引力而走出宿舍,所以吃豆人小姐游戲必須掌握人類不可完全征服的游戲程序。

圖為Steve Golson

  運(yùn)營(yíng)咨詢公司 Trilobyte Systems 的 Golson 說(shuō)到,他們故意設(shè)計(jì)了吃豆人小姐游戲比普通吃豆人游戲更加不可預(yù)測(cè),所以玩家們很難打通關(guān)。復(fù)雜的游戲使得研究人員試圖使用 AI 代理來(lái)對(duì)隨機(jī)環(huán)境做出理想的反應(yīng)。Golson 還說(shuō)到:“使用 AI 代理來(lái)通關(guān)吃豆人小姐游戲是可行的,但由于游戲的隨機(jī)性,所需要設(shè)計(jì)的 AI 程序?qū)⒂葹閺?fù)雜!

  強(qiáng)化學(xué)習(xí)

  對(duì)于在不斷發(fā)展的強(qiáng)化學(xué)習(xí)領(lǐng)域工作的研究人員來(lái)說(shuō),這種不可預(yù)測(cè)性極有價(jià)值。在 AI 研究中,強(qiáng)化學(xué)習(xí)是監(jiān)督學(xué)習(xí)的副本,是一種更常用的人工智能方法,它能夠讓系統(tǒng)在做任務(wù)時(shí)變得更好。

  通過(guò)強(qiáng)化學(xué)習(xí),代理對(duì)其每個(gè)動(dòng)作都采取積極或消極的反應(yīng),通過(guò)不斷地試驗(yàn)和犯錯(cuò)誤來(lái)最大限度地獲得積極反應(yīng)或獎(jiǎng)賞。

 ∵有監(jiān)督學(xué)習(xí)的 AI 系統(tǒng),通過(guò)給出良好和不恰當(dāng)?shù)氖纠瑏?lái)學(xué)習(xí)如何在對(duì)話中做出適當(dāng)?shù)幕貞?yīng)。而強(qiáng)化學(xué)習(xí)系統(tǒng)則是通過(guò)系統(tǒng)在對(duì)話中做出正確的回應(yīng),而后獲得更高級(jí)別反饋的方式來(lái)學(xué)習(xí)對(duì)話。

  AI 專家認(rèn)為,強(qiáng)化學(xué)習(xí)可以用于創(chuàng)建 AI 代理,這樣的代理可以做出更多的決定,能夠完成更復(fù)雜工作,為人們提供更高水平的服務(wù)。Mehrotra 表示,他們開(kāi)發(fā)的能夠通關(guān)吃豆人小姐游戲的系統(tǒng),就可以為人們提供更好的服務(wù)。它可以在特定時(shí)間或任意時(shí)間幫助公司的銷售部門(mén)預(yù)測(cè)商品的潛在客戶。該系統(tǒng)可以使用多個(gè)代理,每個(gè)代理代表一個(gè)客戶,可以預(yù)測(cè)很多重要因素,例如:哪些客戶會(huì)續(xù)簽合同,哪些合同對(duì)于公司是有價(jià)值的。

  有了 AI 系統(tǒng)預(yù)測(cè)的幫助,銷售主管可以把更多的時(shí)間放在潛在客戶身上,如此會(huì)提高出售機(jī)會(huì),因?yàn)殇N售人員的目光已經(jīng)瞄準(zhǔn)了最容易下訂單的客戶。

  Van Seijen 表示,他希望這種分治策略可以被用在 AI 的其他研究領(lǐng)域,如自然語(yǔ)言處理領(lǐng)域。他還說(shuō)到:“分治策略使人們?cè)诮鉀Q真正復(fù)雜的問(wèn)題的方式上取得進(jìn)步!

   投稿郵箱:chuanbeiol@163.com   詳情請(qǐng)?jiān)L問(wèn)川北在線:http://m.sanmuled.cn/

川北在線-川北全搜索版權(quán)與免責(zé)聲明
①凡注明"來(lái)源:XXX(非在線)"的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。
②本站所載之信息僅為網(wǎng)民提供參考之用,不構(gòu)成任何投資建議,文章觀點(diǎn)不代表本站立場(chǎng),其真實(shí)性由作者或稿源方負(fù)責(zé),本站信息接受廣大網(wǎng)民的監(jiān)督、投訴、批評(píng)。
③本站轉(zhuǎn)載純粹出于為網(wǎng)民傳遞更多信息之目的,本站不原創(chuàng)、不存儲(chǔ)視頻,所有視頻均分享自其他視頻分享網(wǎng)站,如涉及到您的版權(quán)問(wèn)題,請(qǐng)與本網(wǎng)聯(lián)系,我站將及時(shí)進(jìn)行刪除處理。



圖庫(kù)
合作媒體
金寵物 綠植迷 女邦網(wǎng) IT人
法律顧問(wèn):ITLAW-莊毅雄律師