value_iteration_Learning

3x3の格子内で価値反復を行って，各マスにおける価値が収束するまで以下の計算式を用いる
U(s') = R(s) + Γ * Σ( p(s'|s,a) U(s') )

最後に表示した格子は隣接するマスの中で一番評価の高いマスの方向を表示している

初期状態

|-----------------------|
|       |       |       |
| 0.000 | 0.000 | 0.000 |
|       |       |       |
|-----------------------|
|       |       |       |
| 0.000 | 0.000 |-10.000|
|       |       |       |
|-------|-------|-------|
|       |       |       |
| 0.000 | 0.000 | 10.000|
|       |       |       |
|-------|-------|-------|

収束後の状態

|-----------------------|
|       |       |       |
| -1.032| 1.999 | -4.820|
|       |       |       |
|-----------------------|
|       |       |       |
| -0.977| -1.926|-10.000|
|       |       |       |
|-------|-------|-------|
|       |       |       |
| -0.587| 0.015 | 10.000|
|       |       |       |
|-------|-------|-------|

各マスにおける最適解

|-----------------------|
|       |       |       |
|  Down |  Left |  Left |
|       |       |       |
|-----------------------|
|       |       |       |
|  Down |  Down |   x   |
|       |       |       |
|-------|-------|-------|
|       |       |       |
| Right | Right |   x   |
|       |       |       |
|-------|-------|-------|