強(qiáng)化學(xué)習(xí)很強(qiáng)大,但是有大多數(shù)場景毫無使用它的必要,監(jiān)督學(xué)習(xí)就夠了。下面分析強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別和強(qiáng)化學(xué)習(xí)有前景的應(yīng)用。
決策是否改變環(huán)境
監(jiān)督學(xué)習(xí)假設(shè)模型的決策不會影響環(huán)境,而強(qiáng)化學(xué)習(xí)假設(shè)模型的決策會改變環(huán)境。 比如,玩游戲時(shí),我們的每個(gè)操作都會改變游戲的狀態(tài);
機(jī)器人/自動駕駛汽車在運(yùn)動時(shí),會改變當(dāng)前所處的環(huán)境;
大型投資機(jī)構(gòu)的大筆交易會改變當(dāng)前的股價(jià);而小散戶(韭菜)的交易幾乎不會影響股市;
推薦系統(tǒng)每次推薦的內(nèi)容(決策)會改變用戶的興趣點(diǎn)(環(huán)境);監(jiān)督學(xué)習(xí)假設(shè)用戶的興趣點(diǎn)是固定的,推薦系統(tǒng)只會擬合用戶的喜好,而強(qiáng)化學(xué)習(xí)則假設(shè)用戶的興趣點(diǎn)可以被改變,學(xué)出來的推薦策略會挖掘用戶新的興趣點(diǎn)。
(其中主要原因是強(qiáng)化學(xué)習(xí)允許探索,嘗試歷史數(shù)據(jù)中不存在的動作,而監(jiān)督學(xué)習(xí)通常不做探索,只是擬合歷史記錄,無法挖掘用戶新的興趣點(diǎn))
當(dāng)前獎勵還是長線回報(bào)
使用監(jiān)督學(xué)習(xí)或是強(qiáng)化學(xué)習(xí),還取決于目標(biāo)是當(dāng)前的獎勵還是長線的回報(bào)。
人臉識別、郵件過濾這類問題就是 “一錘子買賣”,只需獲得當(dāng)前獎勵即可,僅關(guān)注單次決策的結(jié)果,因此適用于監(jiān)督學(xué)習(xí)。
象棋等游戲則應(yīng)該考慮長線回報(bào):吃掉對方一個(gè)馬,雖然得到了眼前的利益,但是可能不利于贏得這局棋。強(qiáng)化學(xué)習(xí)涉及一系列決策(即策略),不僅關(guān)注單次決策的結(jié)果。
滴滴中為司機(jī)派發(fā)訂單的應(yīng)用中,就需要最大化長線回報(bào)(總收入),而不是眼前的獎勵(單筆訂單的收入)。比如,一方面,目的地有“冷”和“熱”之分,會影響司機(jī)后續(xù)的等待時(shí)間和收入。另一方面,接單雖然能立刻賺到錢,但是會花費(fèi)“機(jī)會成本”,如果稍等一下可能會接到更好的單。
總結(jié)
強(qiáng)化學(xué)習(xí)的目標(biāo):學(xué)習(xí)在給定環(huán)境中采取何種行動以最大化累積獎勵或?qū)崿F(xiàn)特定目標(biāo)。
監(jiān)督學(xué)習(xí)的目標(biāo):根據(jù)帶有標(biāo)簽的訓(xùn)練數(shù)據(jù)學(xué)習(xí)映射函數(shù),預(yù)測新數(shù)據(jù)的輸出。
強(qiáng)化學(xué)習(xí)模型決策會改變環(huán)境,特別適合于那些涉及連續(xù)決策和追求長期回報(bào)的場景。
本文內(nèi)容為看完王樹森和張志華老師的《深度強(qiáng)化學(xué)習(xí)》一書的學(xué)習(xí)筆記,十分推薦大家去看原書!