Recent Posts
Recent Comments
08-29 05:03
Today
Total
관리 메뉴

코딩하는 공무원

[AI타임즈] AI가 '자아성찰'하는 새로운 강화 학습법 'GEPA' 등장 (박찬 기자 / 2025.08.20.) 본문

스크랩

[AI타임즈] AI가 '자아성찰'하는 새로운 강화 학습법 'GEPA' 등장 (박찬 기자 / 2025.08.20.)

코딩펀 2025. 8. 28. 20:42

https://www.aitimes.com/news/articleView.html?idxno=201627

 

AI가 '자아성찰'하는 새로운 강화 학습법 ‘GEPA’ 등장 - AI타임스

기존 강화 학습(RL) 방식보다 훨씬 적은 시도로 높은 성능을 발휘하는 대형언어모델(LLM) 최적화 기법이 새로 공개됐다. 단순한 수치 점수에 따라 수천번의 시행

www.aitimes.com

기존 강화 학습(RL) 방식보다 훨씬 적은 시도로 높은 성능을 발휘하는 대형언어모델(LLM) 최적화 기법이 새로 공개됐다. 단순한 수치 점수에 따라 수천번의 시행착오를 거치는 기존 패러다임을 벗어나, 사람처럼 결과를 분석하고 답변을 발전하는 '자아성찰(reflection)'을 적용했다는 설명이다.
미국 UC버클리와 스탠포드대학교, 데이터브릭스 공동 연구진은 최근 LLM 최적화 기법 ‘GEPA(Genetic-Pareto)’에 관한 논문을 아카이브에 게재했다.
점수로 성공과 실패를 가리는 것이 아니라, 자연어 피드백을 통해 모델이 자아성찰할 수 있도록 설계했다. "성공에 대한 폭넓은 이해를 바탕으로 모델이 지침과 전략을 개발하도록 유도할 수 있다"라는 설명이다.
GEPA의 핵심 기능을  ▲유전적 프롬프트 진화(Genetic Prompt Evolution) ▲자연어 기반 성찰 ▲파레토 기반 선택(Pareto Selection) 등 세가지로 소개했다.
우선, 유전적 프롬프트 진화는 여러 프롬프트를 ‘개체군’처럼 다뤄 변형과 진화를 거쳐 새로운 후보로 가다듬는 방식이다.
자연어 기반 성찰은 실행 결과와 오류를 자연어로 요약해 모델이 스스로 문제를 진단하고, 이를 바탕으로 수정된 프롬프트를 작성하도록 한다.
마지막으로 파레토 기반 선택은 단일 프롬프트로 최적의 답인지 아닌지를 가리는 대신, 여러 ‘전문가형 프롬프트’를 활용해 다양한 결과를 비교할 수 있게 해주는 기능이다.
Comments