本發(fā)明提供一種基于參數化量子線路的強化學習策略梯度方法,屬于量子計算技術領域。因為該方法將輸入狀態(tài)密度矩陣輸入至量子決策神經網絡進行演化,從而輸出決定動作對應的概率,因此,該方法相比傳統(tǒng)的強化學習策略梯度算法需要訓練的參數大幅減少,并且增加了智能體的優(yōu)化方向,同時在測量后的輸出數據設置全連接層還可以使得輸出動作的輸出維度可調,靈活性更強。
聲明:
“基于參數化量子線路的強化學習策略梯度方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)