AI가 기출문제 외웠는지, 추론했는지 안다… 평가 기술도 진화

인터넷 뉴스


지금 한국의 소식을 바로 확인해보세요.

AI가 기출문제 외웠는지, 추론했는지 안다… 평가 기술도 진화

KOR뉴스 0 54 0 0

치열한 인공지능(AI) 모델 경쟁 한편에선 이들의 성능을 평가하는 방법(벤치마크)들도 속속 나오고 있다. AI 모델 수가 빠르게 늘다 보니 어떤 모델이 더 적합하고 좋은지 선택해야 하는 기업이나 개인 이용자들이 AI 벤치마크를 찾는다.

미국 기업 ‘스케일AI’ 연구진은 지난 3일 거대언어모델(LLM)의 수학적 능력을 평가하는 벤치마크를 공개했다. 이 회사는 초등학교 수준 수학 문제를 LLM에 풀게 했다. 이미 정답을 학습시킨 문제를 잘 푸는 LLM이 있는가 하면, 새로운 유형의 문제도 이미 학습한 문제로 추론해 정답을 내는 LLM도 있었다. 이 방식을 적용하자 오픈AI의 ‘GPT-4′와 구글의 ‘제미나이 프로’는 추론 능력이 뛰어났다. 반면 프랑스 인공지능(AI) 스타트업 미스트랄의 AI는 상대적으로 추론 능력이 떨어지는 것으로 나왔다.

0 Comments

인기 동영상



포토 제목
Facebook Twitter GooglePlus KakaoStory NaverBand