WEKO3
アイテム
強化学習結果の再構築への概念学習の適用
https://nitech.repo.nii.ac.jp/records/5095
https://nitech.repo.nii.ac.jp/records/50954a37b4fc-2701-4057-befa-e972f376d6e1
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright c 社団法人人工知能学会
|
Item type | 学術雑誌論文 / Journal Article(1) | |||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2013-06-25 | |||||||||||||||||||||
タイトル | ||||||||||||||||||||||
タイトル | 強化学習結果の再構築への概念学習の適用 | |||||||||||||||||||||
言語 | ja | |||||||||||||||||||||
言語 | ||||||||||||||||||||||
言語 | jpn | |||||||||||||||||||||
資源タイプ | ||||||||||||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||||||||||||||||
資源タイプ | journal article | |||||||||||||||||||||
その他(別言語等)のタイトル | ||||||||||||||||||||||
その他のタイトル | キョウカ ガクシュウ ケッカ ノ サイコウチク ヘノ ガイネン ガクシュウ ノ テキヨウ | |||||||||||||||||||||
言語 | ja-Kana | |||||||||||||||||||||
その他(別言語等)のタイトル | ||||||||||||||||||||||
その他のタイトル | Using Concept Learning for Restructuring Control Policy in Reinforcement Learning | |||||||||||||||||||||
言語 | en | |||||||||||||||||||||
著者 |
松井, 藤五郎
× 松井, 藤五郎
× 犬塚, 信博
× 世木, 博久
× 伊藤, 英則
|
|||||||||||||||||||||
著者別名 | ||||||||||||||||||||||
姓名 | Inuzuka, Nobuhiro | |||||||||||||||||||||
著者別名 | ||||||||||||||||||||||
姓名 | Seki, Hirohisa | |||||||||||||||||||||
言語 | en | |||||||||||||||||||||
姓名 | 世木, 博久 | |||||||||||||||||||||
言語 | ja | |||||||||||||||||||||
姓名 | セキ, ヒロヒサ | |||||||||||||||||||||
言語 | ja-Kana | |||||||||||||||||||||
著者別名 | ||||||||||||||||||||||
姓名 | Ito, Hidenori | |||||||||||||||||||||
bibliographic_information |
ja : 人工知能学会論文誌 / 人工知能学会 巻 17, 号 2, p. 135-144, 発行日 2002-11-01 |
|||||||||||||||||||||
出版者 | ||||||||||||||||||||||
出版者 | 人工知能学会 | |||||||||||||||||||||
言語 | ja | |||||||||||||||||||||
ISSN | ||||||||||||||||||||||
収録物識別子タイプ | ISSN | |||||||||||||||||||||
収録物識別子 | 1346-0714 | |||||||||||||||||||||
item_10001_source_id_32 | ||||||||||||||||||||||
収録物識別子タイプ | NCID | |||||||||||||||||||||
収録物識別子 | AA11579226 | |||||||||||||||||||||
出版タイプ | ||||||||||||||||||||||
出版タイプ | VoR | |||||||||||||||||||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||||||||||||||||||
item_10001_relation_34 | ||||||||||||||||||||||
関連タイプ | isIdenticalTo | |||||||||||||||||||||
識別子タイプ | DOI | |||||||||||||||||||||
関連識別子 | http://dx.doi.org/10.1527/tjsai.17.135 | |||||||||||||||||||||
関連名称 | 10.1527/tjsai.17.135 | |||||||||||||||||||||
内容記述 | ||||||||||||||||||||||
内容記述タイプ | Other | |||||||||||||||||||||
内容記述 | Conventional reinforcement learning has focused on learning in a stable environment. However, an agent may be given another environment which differs from the old environment. Thus, an autonomous agent needs a method to learn efficiently a new policy suited for the new environment. In this paper, we propose a method to adapt to a new environment for an agent which has a task to reach goals. When an agent is provided with a new environment, our method learns a new partial policy using the precondition of agent’s old policy. The precondition of a policy is a condition that says what must be satisfied in order to reach goals by using the policy. Similarly to learning the precondition of an action from the instances of action’s success or failure by using concept learning, our method learns the precondition of a policy from the instances of policy’s success or failure by using concept learning. We describe a method using inductive logic programming (ILP) as a concept learning method. Since ILP provides methods for learning relational knowledge that is not expressible in attribute-value learning, our method can use relational representation for the precondition. We applied our method to a blocks-world problem for evaluation. We have come to conclusion that our method is effective when the cost to carry out the task is high. | |||||||||||||||||||||
言語 | en |