RL(Reinforcement Learning, 강화학습) 기반 데이터
강화학습 과정에서 에이전트가 환경과 상호작용하면서 생성된 데이터. 전통적인 지도학습(supervised learning)처럼 미리 준비된 정적 데이터셋이 아니라, 학습 과정 중에 동적으로 수집되는 데이터 ㅇ RL 기반 데이터의 구성 요소- 상태(State, s): 현재 환경의 상황을 나타내는 정보- 행동(Action, a): 에이전트가 특정 상태에서 취한 행동- 보상(Reward, r): 행동의 결과로 에이전트가 얻은 보상- 다음 상태(Next State, s′): 행동 이후 환경이 변화한 새로운 상태- 이 데이터는 하나의 경험으로 묶여 (s,a,r,s′) 형태로 저장되며 이를 반복 학습하여 최적의 정책(policy) 도출 ㅇ RL 기반 데이터의 특징- 동적 생성: 에이전트가 환경과 상호작용하며 데이터를..
AI/AI 용어 정리
2025. 3. 9. 19:14
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 오케스트레이션
- tiger 차이나항셍테크레버리지(합성)
- kodex 미국배당다우존스타겟커버드콜
- 투자아이디어
- tiger 차이나전기차레버리지(합성)
- 미국주식직투양도세
- 노보노디스크
- 유튜브 지속가능성
- kodex 미국배당커버드콜액티브
- 미국주식양도세
- 유튜브 수익창출
- chain-of-thought
- 아스트라제네카
- 유튜브 저작권
- mixture of agent
- 토스증권수수료
- 사노피
- 머크
- 유튜버 평균수익
- 해외채권수수료
- reasoning
- 옴니모델
- ai
- cot
- 일라이릴리
- 애브비
- 생각의 사슬
- 토스증권
- 해외주식수수료
- 암젠
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함