GPT-4, 사진과 텍스트만으로 '둠' 플레이했다

게임메카 김미희 기자 2024.03.12 18:11

▲ 사전 정보로 GPT-4V에 제공된 둠 스크린샷 샘플 (자료출처: Will GPT-4 Run DOOM? 논문)

오픈AI가 개발한 4번째 언어모델 GPT-4가 사전학습 없이도 둠을 부분적으로 플레이할 수 있다는 연구결과가 발표됐다.

이번 연구는 MS 수석 응용 과학자이자 영국 요크대학교 연구원인 아드리안 드 윈터(Adrian de Wynter)가 진행했고, 관련 논문이 8일 비영리 과학 논문 공개 사이트인 아카이브(arxiv)를 통해 공개됐다. 논문 제목은 ‘GPT-4로 둠을 실행할 수 있나요? (Will GPT-4 Run DOOM?)’이며, 학습 없이 스스로 정보를 습득해서 둠을 플레이하는 것은 일부 가능하다고 확인됐다.

연구에서 GPT-4는 몇 가지 지침과 게임 상황에 대한 스크린샷에서 모델 자체에 의해 생성된 텍스트 설명만으로 둠을 플레이했다. 구체적으로 이미지, 음성 등을 분석해 여러 결과물을 얻을 수 있는 GPT-4V를 기반으로 게임 엔진에서 스크린샷을 캡처하고, 상황에 대해 텍스트로 변환해주는 구조를 설계했다. 그리고 앞서 이야기한 부분을 시각적인 정보와 이전 기록을 토대로 결정을 내리는 GPT-4에 결합했다.

이를 토대로 GPT-4는 둠의 첫 번째 에피소드 첫 맵인 격납고(Hangar)를 플레이했다. 그 결과 연구자들은 GPT-4가 길을 찾으며 문을 열고, 무기를 발사하며 적과 싸우는 것을 확인할 수 있었다. 플레이를 반복해서 배우게 하는 강화학습을 거치지 않고 관찰과 자체적인 추론만으로 게임을 하는 것이 가능했고, 프롬프트를 조정해나가면 더 나은 결과를 얻을 수 있다는 것이 연구진들의 의견이다.

▲ 프롬프트를 조정하며 점점 더 결과가 나아지는 것을 확인할 수 있었다 (자료출처: Will GPT-4 Run DOOM? 논문)

다만 이번 실험에서 GPT-4는 스테이지를 클리어하지는 못했다. 이에 대해 연구진은 이번에 설계한 모델은 적으로 등장하는 좀비가 시야 밖으로 사라질 경우 적이 있다는 사실을 종종 잊어버렸다. 인간이라면 적을 추격해 마무리했겠으나, GPT-4는 적의 존재를 잊었기에 이후에 공격을 당하거나 구석에 몰리는 등으로 사망을 맞이했다고 설명했다.