{ "cells": [ { "cell_type": "markdown", "id": "6d5bf6de", "metadata": {}, "source": [ "# FrozenLake 4x4" ] }, { "cell_type": "code", "execution_count": 6, "id": "e5c6540f", "metadata": { "ExecuteTime": { "end_time": "2025-03-04T15:43:09.422711Z", "start_time": "2025-03-04T15:43:09.419965Z" } }, "outputs": [], "source": [ "import gymnasium as gym" ] }, { "cell_type": "code", "execution_count": 7, "id": "fbee1103", "metadata": { "ExecuteTime": { "end_time": "2025-03-04T15:43:09.427154Z", "start_time": "2025-03-04T15:43:09.424212Z" } }, "outputs": [], "source": [ "from gymcts.gymcts_agent import GymctsAgent\n", "from gymcts.gymcts_deepcopy_wrapper import DeepCopyMCTSGymEnvWrapper" ] }, { "cell_type": "code", "execution_count": 8, "id": "98959b41", "metadata": { "ExecuteTime": { "end_time": "2025-03-04T15:43:09.430562Z", "start_time": "2025-03-04T15:43:09.428321Z" } }, "outputs": [], "source": [ "from gymcts.logger import log" ] }, { "cell_type": "code", "execution_count": 9, "id": "1324f6c0", "metadata": { "ExecuteTime": { "end_time": "2025-03-04T15:43:09.435084Z", "start_time": "2025-03-04T15:43:09.432357Z" } }, "outputs": [], "source": [ "# set log level to 20 (INFO)\n", "# set log level to 10 (DEBUG) to see more detailed information\n", "log.setLevel(20)" ] }, { "cell_type": "code", "execution_count": 10, "id": "3290c998", "metadata": { "ExecuteTime": { "end_time": "2025-03-04T15:43:10.072818Z", "start_time": "2025-03-04T15:43:09.435881Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(\u001B[33mN\u001B[0m=50, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=0.00)\n", "├── (\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m13\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.39\u001B[0m)\n", "│ \u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.65\u001B[0m)\n", "│ \u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.65\u001B[0m)\n", "│ \u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.65\u001B[0m)\n", "│ \u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.65\u001B[0m)\n", "│ \u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "├── (\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m12\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.40\u001B[0m)\n", "│ \u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "│ \u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "│ \u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "│ \u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.79\u001B[0m)\n", "│ \u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "├── (\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m12\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.40\u001B[0m)\n", "│ \u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "│ \u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "│ \u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "│ \u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "│ \u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.79\u001B[0m)\n", "│ \u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "└── (\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m12\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.40\u001B[0m)\n", " \u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", " \u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", " \u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", " \u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", " \u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", " \u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", " \u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", " \u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", " \u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", " \u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.79\u001B[0m)\n", " \u001B[38;2;255;178;96m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n" ] }, { "data": { "text/html": [ "
[16:43:09] INFO     selected action 0 after 50 simulations.                                                        \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m[16:43:09]\u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m selected action \u001B[1;36m0\u001B[0m after \u001B[1;36m50\u001B[0m simulations. \n" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/html": [ "
           INFO     current action list: [0]                                                                       \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m current action list: \u001B[1m[\u001B[0m\u001B[1;36m0\u001B[0m\u001B[1m]\u001B[0m \n" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m63\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.19\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m16\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.36\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.68\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m16\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.36\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.68\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m15\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.37\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.58\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.58\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m15\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.37\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.58\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.58\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=0.00, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n" ] }, { "data": { "text/html": [ "
           INFO     selected action 0 after 50 simulations.                                                        \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m selected action \u001B[1;36m0\u001B[0m after \u001B[1;36m50\u001B[0m simulations. \n" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/html": [ "
           INFO     current action list: [0, 0]                                                                    \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m current action list: \u001B[1m[\u001B[0m\u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m\u001B[1m]\u001B[0m \n" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m66\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;237;108;130m0.09\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.28\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m22\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;229;112;132m0.14\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.44\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.62\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m10\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;197;128;137m0.30\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.69\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;191;132;139m0.33\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.95\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.07\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;158;148;144m0.50\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.04\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.07\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.62\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.72\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m15\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;242;106;130m0.07\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.44\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m5\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;216;119;134m0.20\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.72\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;63;197;161m1.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.90\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m15\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;242;106;130m0.07\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.44\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m5\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;216;119;134m0.20\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.72\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;63;197;161m1.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.90\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m13\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;240;107;130m0.08\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.48\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.65\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m5\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;216;119;134m0.20\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.71\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;63;197;161m1.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.90\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.80\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.80\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n" ] }, { "data": { "text/html": [ "
           INFO     selected action 0 after 50 simulations.                                                        \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m selected action \u001B[1;36m0\u001B[0m after \u001B[1;36m50\u001B[0m simulations. \n" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/html": [ "
           INFO     current action list: [0, 0, 0]                                                                 \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m current action list: \u001B[1m[\u001B[0m\u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m\u001B[1m]\u001B[0m \n" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m72\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;239;107;130m0.08\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.26\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m12\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.42\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.79\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m35\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;222;116;133m0.17\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.42\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m10\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;216;119;134m0.20\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.62\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.76\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.76\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.76\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;191;132;139m0.33\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.95\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m5\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.60\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m14\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;200;127;137m0.29\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.81\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;206;124;136m0.25\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.82\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.81\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m5\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;178;138;141m0.40\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.91\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m5\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.60\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m12\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.42\u001B[0m)\n", "\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m12\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.42\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.64\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.79\u001B[0m)\n", "\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n" ] }, { "data": { "text/html": [ "
           INFO     selected action 1 after 50 simulations.                                                        \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m selected action \u001B[1;36m1\u001B[0m after \u001B[1;36m50\u001B[0m simulations. \n" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/html": [ "
           INFO     current action list: [0, 0, 0, 1]                                                              \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m current action list: \u001B[1m[\u001B[0m\u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m1\u001B[0m\u001B[1m]\u001B[0m \n" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m85\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;203;126;136m0.27\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.44\u001B[0m)\n", "\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m17\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;232;111;131m0.12\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.48\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.60\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.83\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.69\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.69\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m6\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;223;115;133m0.17\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.65\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.95\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.95\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;127;0;255m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.95\u001B[0m)\n", "\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m10\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.47\u001B[0m)\n", "\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m47\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;169;143;142m0.45\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.66\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.69\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m9\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;212;121;135m0.22\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.68\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;191;132;139m0.33\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.94\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.05\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m7\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;227;113;132m0.14\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.67\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.99\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;191;132;139m0.33\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.99\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.99\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m26\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;129;163;149m0.65\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.93\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m19\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;93;181;155m0.84\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.13\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m10\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.47\u001B[0m)\n", "\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.62\u001B[0m)\n", "\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.76\u001B[0m)\n", "\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.76\u001B[0m)\n", "\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;0;180;235m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.76\u001B[0m)\n" ] }, { "data": { "text/html": [ "
           INFO     selected action 2 after 50 simulations.                                                        \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m selected action \u001B[1;36m2\u001B[0m after \u001B[1;36m50\u001B[0m simulations. \n" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/html": [ "
           INFO     current action list: [0, 0, 0, 1, 2]                                                           \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m current action list: \u001B[1m[\u001B[0m\u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m1\u001B[0m, \u001B[1;36m2\u001B[0m\u001B[1m]\u001B[0m \n" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m97\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;122;166;150m0.69\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.85\u001B[0m)\n", "\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m4\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.76\u001B[0m)\n", "\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m9\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;212;121;135m0.22\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.73\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;191;132;139m0.33\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.94\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;63;197;161m1.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.74\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.05\u001B[0m)\n", "\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m7\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;227;113;132m0.14\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.71\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.99\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;191;132;139m0.33\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.99\u001B[0m)\n", "\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.99\u001B[0m)\n", "\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m76\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;95;180;155m0.83\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.00\u001B[0m)\n", "\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m69\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;81;187;157m0.90\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.08\u001B[0m)\n", "\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.03\u001B[0m)\n", "\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.03\u001B[0m)\n", "\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m6\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;158;148;144m0.50\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.09\u001B[0m)\n", "\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m58\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;63;197;161m1.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.19\u001B[0m)\n", "\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.04\u001B[0m)\n", "\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.04\u001B[0m)\n", "\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.04\u001B[0m)\n", "\u001B[38;2;128;254;179m \u001B[0m\u001B[38;2;255;178;96m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n" ] }, { "data": { "text/html": [ "
           INFO     selected action 3 after 50 simulations.                                                        \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m selected action \u001B[1;36m3\u001B[0m after \u001B[1;36m50\u001B[0m simulations. \n" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/html": [ "
           INFO     current action list: [0, 0, 0, 1, 2, 3]                                                        \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m current action list: \u001B[1m[\u001B[0m\u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m1\u001B[0m, \u001B[1;36m2\u001B[0m, \u001B[1;36m3\u001B[0m\u001B[1m]\u001B[0m \n" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m126\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;87;184;156m0.87\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.01\u001B[0m)\n", "\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m116\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;74;191;159m0.94\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.08\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.09\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.09\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m6\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;158;148;144m0.50\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.13\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;158;148;144m0.50\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.17\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;63;197;161m1.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.95\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.95\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.95\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m105\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;63;197;161m1.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.15\u001B[0m)\n", "\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;255;178;96m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.90\u001B[0m)\n", "\u001B[38;2;255;178;96m \u001B[0m\u001B[38;2;255;178;96m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;255;178;96m \u001B[0m\u001B[38;2;255;178;96m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n" ] }, { "data": { "text/html": [ "
[16:43:10] INFO     selected action 0 after 50 simulations.                                                        \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m[16:43:10]\u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m selected action \u001B[1;36m0\u001B[0m after \u001B[1;36m50\u001B[0m simulations. \n" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/html": [ "
           INFO     current action list: [0, 0, 0, 1, 2, 3, 0]                                                     \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m current action list: \u001B[1m[\u001B[0m\u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m1\u001B[0m, \u001B[1;36m2\u001B[0m, \u001B[1;36m3\u001B[0m, \u001B[1;36m0\u001B[0m\u001B[1m]\u001B[0m \n" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m166\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;72;192;159m0.95\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.07\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.13\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.13\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;0;180;235m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m28\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;96;179;155m0.82\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.12\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m3\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;191;132;139m0.33\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.08\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;127;0;255m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;127;0;255m0\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.74\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;0;180;235m1\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m21\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;63;197;161m1.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.28\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m├── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;128;254;179m2\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m2\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.91\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m0.59\u001B[0m)\n", "\u001B[38;2;127;0;255m│ \u001B[0m\u001B[38;2;128;254;179m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m1\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;255;100;128m0.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[31m0.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.29\u001B[0m)\n", "\u001B[38;2;127;0;255m└── \u001B[0m(\u001B[33ma\u001B[0m=\u001B[38;2;255;178;96m3\u001B[0m, \u001B[33mN\u001B[0m=\u001B[96m133\u001B[0m, \u001B[33mQ_v\u001B[0m=\u001B[38;2;63;197;161m1.00\u001B[0m, \u001B[33mbest\u001B[0m=\u001B[96m1.00\u001B[0m, \u001B[33mubc\u001B[0m=\u001B[96m1.14\u001B[0m)\n" ] }, { "data": { "text/html": [ "
           INFO     selected action 3 after 50 simulations.                                                        \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m selected action \u001B[1;36m3\u001B[0m after \u001B[1;36m50\u001B[0m simulations. \n" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/html": [ "
           INFO     current action list: [0, 0, 0, 1, 2, 3, 0, 3]                                                  \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m current action list: \u001B[1m[\u001B[0m\u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m1\u001B[0m, \u001B[1;36m2\u001B[0m, \u001B[1;36m3\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m3\u001B[0m\u001B[1m]\u001B[0m \n" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/html": [ "
           INFO     Final action list: [0, 0, 0, 1, 2, 3, 0, 3]                                                    \n",
       "
\n" ], "text/plain": [ "\u001B[2;36m \u001B[0m\u001B[2;36m \u001B[0m\u001B[34mINFO \u001B[0m Final action list: \u001B[1m[\u001B[0m\u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m1\u001B[0m, \u001B[1;36m2\u001B[0m, \u001B[1;36m3\u001B[0m, \u001B[1;36m0\u001B[0m, \u001B[1;36m3\u001B[0m\u001B[1m]\u001B[0m \n" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "\n", "\u001B[41mS\u001B[0mFFF\n", "FHFH\n", "FFFH\n", "HFFG\n", "\n", " (Left)\n", "\u001B[41mS\u001B[0mFFF\n", "FHFH\n", "FFFH\n", "HFFG\n", "\n", " (Left)\n", "\u001B[41mS\u001B[0mFFF\n", "FHFH\n", "FFFH\n", "HFFG\n", "\n", " (Left)\n", "SFFF\n", "\u001B[41mF\u001B[0mHFH\n", "FFFH\n", "HFFG\n", "\n", " (Down)\n", "SFFF\n", "FHFH\n", "\u001B[41mF\u001B[0mFFH\n", "HFFG\n", "\n", " (Right)\n", "SFFF\n", "FHFH\n", "F\u001B[41mF\u001B[0mFH\n", "HFFG\n", "\n", " (Up)\n", "SFFF\n", "FHFH\n", "FF\u001B[41mF\u001B[0mH\n", "HFFG\n", "\n", " (Left)\n", "SFFF\n", "FHFH\n", "FFFH\n", "HF\u001B[41mF\u001B[0mG\n", "\n", " (Up)\n", "SFFF\n", "FHFH\n", "FFFH\n", "HFF\u001B[41mG\u001B[0m\n", "\n", "Environment solved in 8 steps.\n" ] } ], "source": [ "if __name__ == '__main__':\n", " # 0. create the environment\n", " env = gym.make('FrozenLake-v1', desc=None, map_name=\"4x4\", is_slippery=True, render_mode=\"ansi\")\n", " env.reset()\n", "\n", " # 1. wrap the environment with the naive wrapper or a custom gymcts wrapper\n", " env = DeepCopyMCTSGymEnvWrapper(env)\n", "\n", " # 2. create the agent\n", " agent = GymctsAgent(\n", " env=env,\n", " clear_mcts_tree_after_step=False,\n", " render_tree_after_step=True,\n", " number_of_simulations_per_step=50,\n", " exclude_unvisited_nodes_from_render=True\n", " )\n", "\n", " # 3. solve the environment\n", " actions = agent.solve()\n", "\n", " # 4. render the environment solution in the terminal\n", " print(env.render())\n", " for a in actions:\n", " obs, rew, term, trun, info = env.step(a)\n", " print(env.render())\n", "\n", " # 5. print the solution\n", " # read the solution from the info provided by the RecordEpisodeStatistics wrapper\n", " # (that NaiveSoloMCTSGymEnvWrapper uses internally)\n", " episode_length = info[\"episode\"][\"l\"]\n", " episode_return = info[\"episode\"][\"r\"]\n", "\n", " if episode_return == 1.0:\n", " print(f\"Environment solved in {episode_length} steps.\")\n", " else:\n", " print(f\"Environment not solved in {episode_length} steps.\")" ] } ], "metadata": { "jupytext": { "cell_metadata_filter": "-all", "main_language": "python", "notebook_metadata_filter": "-all" }, "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" } }, "nbformat": 4, "nbformat_minor": 5 }