強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)【區(qū)別】

2024/12/11 作者：全棧O-Jay

2601

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

強(qiáng)化學(xué)習(xí)很強(qiáng)大，但是有大多數(shù)場景毫無使用它的必要，監(jiān)督學(xué)習(xí)就夠了。下面分析強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別和強(qiáng)化學(xué)習(xí)有前景的應(yīng)用。

決策是否改變環(huán)境

監(jiān)督學(xué)習(xí)假設(shè)模型的決策不會影響環(huán)境，而強(qiáng)化學(xué)習(xí)假設(shè)模型的決策會改變環(huán)境。 比如，玩游戲時(shí)，我們的每個(gè)操作都會改變游戲的狀態(tài)；

機(jī)器人/自動駕駛汽車在運(yùn)動時(shí)，會改變當(dāng)前所處的環(huán)境；

大型投資機(jī)構(gòu)的大筆交易會改變當(dāng)前的股價(jià)；而小散戶（韭菜）的交易幾乎不會影響股市；

推薦系統(tǒng)每次推薦的內(nèi)容（決策）會改變用戶的興趣點(diǎn)（環(huán)境）；監(jiān)督學(xué)習(xí)假設(shè)用戶的興趣點(diǎn)是固定的，推薦系統(tǒng)只會擬合用戶的喜好，而強(qiáng)化學(xué)習(xí)則假設(shè)用戶的興趣點(diǎn)可以被改變，學(xué)出來的推薦策略會挖掘用戶新的興趣點(diǎn)。

（其中主要原因是強(qiáng)化學(xué)習(xí)允許探索，嘗試歷史數(shù)據(jù)中不存在的動作，而監(jiān)督學(xué)習(xí)通常不做探索，只是擬合歷史記錄，無法挖掘用戶新的興趣點(diǎn)）

當(dāng)前獎勵還是長線回報(bào)

使用監(jiān)督學(xué)習(xí)或是強(qiáng)化學(xué)習(xí)，還取決于目標(biāo)是當(dāng)前的獎勵還是長線的回報(bào)。

人臉識別、郵件過濾這類問題就是 “一錘子買賣”，只需獲得當(dāng)前獎勵即可，僅關(guān)注單次決策的結(jié)果，因此適用于監(jiān)督學(xué)習(xí)。

象棋等游戲則應(yīng)該考慮長線回報(bào)：吃掉對方一個(gè)馬，雖然得到了眼前的利益，但是可能不利于贏得這局棋。強(qiáng)化學(xué)習(xí)涉及一系列決策（即策略），不僅關(guān)注單次決策的結(jié)果。

滴滴中為司機(jī)派發(fā)訂單的應(yīng)用中，就需要最大化長線回報(bào)（總收入），而不是眼前的獎勵（單筆訂單的收入）。比如，一方面，目的地有“冷”和“熱”之分，會影響司機(jī)后續(xù)的等待時(shí)間和收入。另一方面，接單雖然能立刻賺到錢，但是會花費(fèi)“機(jī)會成本”，如果稍等一下可能會接到更好的單。

在這里插入圖片描述