Evaluate an MDP given several observed episodes

Each state's value depends on the paths that continue from that state.

For A:
Episode 4: A -> x (sum = -10)
A = average( path sums ) = -10

For B:
Episode 1: B -> C -> D -> x (sum = +8)
Episode 2: B -> C -> D -> x (sum = +8)
B = average( path sums ) = (+8 + +8)/ 2 = 8

For C:
Episode 1: C -> D -> x (sum = +9)
Episode 2: C -> D -> x (sum = +9)
Episode 3: C -> D -> x (sum = +9)
Episode 4: C -> A -> x (sum = -11)
C = average( path sums ) = (9 + 9 + 9 - 11)/4 = 4

For D:
Episode 1: D -> x (sum = +10)
Episode 2: D -> x (sum = +10)
Episode 3: D -> x (sum = +10)
D = average( path sums ) = +10

For E:
Episode 1: E -> C -> D -> x (sum = 8)
Episode 2: E -> C -> A -> x (sum = -12)
E = average( path sums ) = (8 - 12)/2 = -2

Categories

Most popular tags

Evaluate an MDP given several observed episodes

Please log in or register to add a comment.

Please log in or register to answer this question.

1 Answer

Please log in or register to add a comment.

Related questions