-
Notifications
You must be signed in to change notification settings - Fork 20
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Suphx-style reward shaping #1127
Comments
|
特徴量 suphnx論文より
suphnxでは上記のの情報をGRUに渡しているつまりj局目の場合j組ある. GRUでは過去の情報の系列から局数, 自風なども推論可能だが一局のみから予測する場合は明示的に特徴量を用意した方がよさそう. 案
|
jaxで学習したモデルをnumpyへ吐き出せるか確認簡単な例を作って確認. 学習が終わったモデルの重みを |
特徴量 | 前処理方法
当初は, 自身の点, 下家, 上家, 対面の順で並べるつもりでしたが, 自風と, 親の情報を与えるので, 順番をあえて指定する必要なはいのではないかと思いました. いったんやってみてダメだったら当初の予定通りやってみようと思います. target順位点 ÷ 100 concatenate pattern
とりあえず1. で良いかなと思っています. |
上家とかの並びにするのは重要な気がするけどなあ |
単純に4人の点/100000だと全くうまくいかないのでこちらに変えます! |
変更点
procedure
ToDo
|
エピソードのデフォルトの定義をどうするかがまだ決まってないが(今は選択可)、半荘を1エピソードとするのは流石に無意味なので、1局毎にエピソードとする。
このとき、報酬をどう決めるかが問題になるので、suphx-likeなreward-shapingをする。
GRUが意味がないので、単純に今の点棒状況から回帰する。
The text was updated successfully, but these errors were encountered: