일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
Tags
- 휴먼명조
- 2022 개정 교육과정
- 코드 폭발 효과
- 앱
- Code Blast
- 알프레드 에이호
- 베스트 극장
- 인공지능
- 변곡점
- 선각자
- Visual Studio Code
- 욱
- 나만의 독서법
- 파일 검색
- code.org
- 누구를 위한 교육과정인가?
- 단편 드라마
- 매트로폴리탄 미술관
- 블록 코딩
- MontyHall
- 박사 논문
- 동영상 플레이어
- 4차 산업혁명
- 머신러닝
- 수학적 귀납법
- 제프리 울만
- 안드로이드
- 패트릭 브링리
- 2021년 튜링상
- 중학교 교육과정
Archives
코딩하는 공무원
[AI타임즈] AI가 '자아성찰'하는 새로운 강화 학습법 'GEPA' 등장 (박찬 기자 / 2025.08.20.) 본문
https://www.aitimes.com/news/articleView.html?idxno=201627
AI가 '자아성찰'하는 새로운 강화 학습법 ‘GEPA’ 등장 - AI타임스
기존 강화 학습(RL) 방식보다 훨씬 적은 시도로 높은 성능을 발휘하는 대형언어모델(LLM) 최적화 기법이 새로 공개됐다. 단순한 수치 점수에 따라 수천번의 시행
www.aitimes.com
기존 강화 학습(RL) 방식보다 훨씬 적은 시도로 높은 성능을 발휘하는 대형언어모델(LLM) 최적화 기법이 새로 공개됐다. 단순한 수치 점수에 따라 수천번의 시행착오를 거치는 기존 패러다임을 벗어나, 사람처럼 결과를 분석하고 답변을 발전하는 '자아성찰(reflection)'을 적용했다는 설명이다.
미국 UC버클리와 스탠포드대학교, 데이터브릭스 공동 연구진은 최근 LLM 최적화 기법 ‘GEPA(Genetic-Pareto)’에 관한 논문을 아카이브에 게재했다.
점수로 성공과 실패를 가리는 것이 아니라, 자연어 피드백을 통해 모델이 자아성찰할 수 있도록 설계했다. "성공에 대한 폭넓은 이해를 바탕으로 모델이 지침과 전략을 개발하도록 유도할 수 있다"라는 설명이다.
GEPA의 핵심 기능을 ▲유전적 프롬프트 진화(Genetic Prompt Evolution) ▲자연어 기반 성찰 ▲파레토 기반 선택(Pareto Selection) 등 세가지로 소개했다.
우선, 유전적 프롬프트 진화는 여러 프롬프트를 ‘개체군’처럼 다뤄 변형과 진화를 거쳐 새로운 후보로 가다듬는 방식이다.
자연어 기반 성찰은 실행 결과와 오류를 자연어로 요약해 모델이 스스로 문제를 진단하고, 이를 바탕으로 수정된 프롬프트를 작성하도록 한다.
마지막으로 파레토 기반 선택은 단일 프롬프트로 최적의 답인지 아닌지를 가리는 대신, 여러 ‘전문가형 프롬프트’를 활용해 다양한 결과를 비교할 수 있게 해주는 기능이다.
'스크랩' 카테고리의 다른 글
Comments