本發(fā)明提供一種基于動作剪枝的推薦方法、裝置、電子設備與存儲介質,包括:基于目標用戶的用戶特征和各待推薦內容的內容特征,確定各待推薦內容對應的狀態(tài);基于各待推薦內容對應的狀態(tài)和評分預測模型,預測各待推薦內容的評分,并基于各待推薦內容的評分,向目標用戶進行推薦;評分預測模型是強化學習得到的,在強化學習過程中,評分預測模型從遺憾值集合中獲取當前樣本狀態(tài)下各候選評分的遺憾值,并基于遺憾值大于預設閾值的候選評分進行評分預測,遺憾值集合存儲有歷史狀態(tài)及其對應的遺憾值,遺憾值基于歷史狀態(tài)下各候選評分的優(yōu)勢確定,歷史狀態(tài)是在當前樣本狀態(tài)之前的樣本狀態(tài),加快強化學習的收斂速度,實現(xiàn)對用戶進行個性化的精確推薦。
聲明:
“基于動作剪枝的推薦方法、裝置、電子設備與存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)