非奇異矩陣提示您:看後求收藏(快眼看書www.kyks.tw),接著再看更方便。

學了9個學時,就被要求一個暑假裡手擼一個影象識別演算法的高材生,他有他自己的想法。

他要用強化學習。

“對於強化學習而言,我們的樣本太少了。”哪裡都要摻一腳的鄭K一如既往地苦著臉說。

“少就少唄,又不是不能用。再說了,我們不是正在用老鼠造模嗎?造完了樣本就多了。”盧赫不以為然。

“具體思路呢?”鄭K憂心忡忡地問。

“跟你們一樣。特徵是某時間點的基因組,標籤是未來的突變位點,然後讓單鹼基編輯的載著相應嚮導RNA的cRISpR系統在那裡等著,一旦突變了,就立刻給修復。把病扼殺在搖籃裡。

非要說有什麼不同,第一,我這是黑箱,只能發揮作用,卻不知道怎麼發揮作用;第二,我這基本算是端到端的、全自動的,人工干預只在定期查基因組和設計cRISpR系統,這部分工作未來也有希望自動化。

功過相抵,中規中矩。”

散會後,盧赫坐到電腦跟前,摩拳擦掌。

雖然不是專業人士,但一直跟進這方面進展的他,始終覺得那些在數年間如雨後春筍般湧現出來的大幾十種方法裡,強化學習最有前途。

因為這是最接近人類本能學習方式的一種。

它的原理也很簡單,就是讓懵懂的小人工智障在環境裡學習,它的每個動作都對應一個獎勵或者懲罰。

就像還在蹣跚學步的小時候的我們一樣,我們看到了火,好奇心趨勢我們走近,我們感受到了溫暖,獎勵加一;手賤去摸了一下被燙到,懲罰加一。

於是,聰明的我們就會知道,火很暖和但不能靠得太近。

只不過與人不同得是,小人工智障無法一次就學會,而是需要大量資料去支撐它在環境裡反覆探索,直到把自己訓練成人工智慧。

如果用玩超級瑪麗來打比方,小人工智障在遊戲的第一幀獲得初始狀態;

在此基礎上,我們可以逼迫它往前走一步,不論前方是不是有蘑菇怪。這樣它會主動做出第一個行動。

這時,它所處的環境發生了變化,獲得了新的狀態;

同時,根據它死沒死,環境會給它一個獎勵或懲罰。

如此迴圈下去,便得到了一個由狀態、行動和獎勵組成的序列。小人工智障的目標就是調整自己的狀態和行動,以使獎勵的期望值最大。

如果訓練的順利,它便有望進化為一命通關的人工智慧外掛

歷史軍事推薦閱讀 More+
開局一個巴洛特利

開局一個巴洛特利

黑暗第一吃貨
李默拿出自己抽中的因扎吉天賦卡,對夢想機道:“等我把這個天賦肝出來,能進球吧?”夢想機點點頭:“能,不過得跪著,吃不吃得到餅,得看人中場臉色。”李默撓撓頭,那不能啊,總不能穿一回就為了跪著進球吧,他又掏出自己抽中的另一張天賦卡,“那這張你看怎麼樣?”“迪瑪利亞?倒是能站著了,但你進不了太多球啊。”“我就想站著,還把球給進了,你看?”夢想機一揮手“
歷史 連載 31萬字