쉽지 않았습니다, 메이플 월드 자체 LLM ‘단풍’ 개발기

/ 2
게임메카 / 제휴처 통합 1,565 View 게임메카 내부 클릭수에 게임메카 뉴스를 송고 받는 제휴처 노출수를 더한 값입니다. SNS 통합 967 View 게임메카 트위터(@game_meca)와 페이스북(@게임메카)의 노출수를 더한 값입니다.
최근 UGC가 주목 받고 있다. 개발자가 아닌 유저가 직접 원하는 콘텐츠를 만들 수 있다는 매력 덕분에, 로블록스를 필두로 포트나이트, 원신 등 다양한 작품이 UGC 콘텐츠를 도입하는 추세다. 넥슨 역시 이러한 흐름에 맞춰 2022년 메이플스토리 월드를 선보였고, 이후 메이플랜드, 바람의 나라 클래식, 메이플플래닛 등 여러 콘텐츠가 화제를 모으며 시장에 당당히 자리잡았다
넥슨
▲ 넥슨 메이플스토리 월드 퓨처유닛 한지성 개발자 (사진출처: NDC 공식 유튜브 채널 갈무리)

최근 UGC(User Generated Content)가 주목 받고 있다. 개발자가 아닌 유저가 직접 원하는 콘텐츠를 만들 수 있다는 매력 덕분에, 로블록스를 필두로 포트나이트, 원신 등 다양한 작품이 UGC 콘텐츠를 도입하는 추세다. 넥슨 역시 이러한 흐름에 맞춰 2022년 메이플스토리 월드를 선보였고, 이후 메이플랜드, 바람의 나라 클래식, 메이플플래닛 등 여러 콘텐츠가 화제를 모으며 시장에 당당히 자리잡았다.

하지만 메이플스토리 월드가 처음부터 순탄하게 개발됐던 것은 아니다. 특히 메이플스토리 월드는 자체 스크립트 언어인 ‘mlua’를 사용하는 만큼, 범용 AI 코드 생성 모델로는 개발이 어려웠다. 때문에 제작진은 자체 LLM 모델 ‘단풍’을 만들어 개발을 이어오고 있는데, 16일 진행된 NDC 26에서 ‘단풍’ 개발 비화에 대해 자세한 이야기를 들을 수 있었다. 강연에는 넥슨 메이플스토리 월드 퓨처유닛 한지성 개발자가 자리했다.

메이플스토리 월드는 앞서 언급했듯 ‘mlua’라는 독자적인 스크립트 언어를 활용한다. 이는 일반적인 구조에 더해, 수백 개의 자체 API를 사용하기 때문에 접근하기 매우 까다롭다. 그로 인해 챗GPT, 제미나이 등 범용적인 AI들은 적용이 다소 어려웠고, 전용 LLM 모델 구축이 불가피해졌다.

전용 모델을 만들기 위한 가장 큰 난관은 학습용 표본의 부재였다. 이에 개발진은 공식 크리에이터 센터와 유튜브 등 외부 거대 모델을 기반으로, 가상의 질문을 대량으로 만들어내 학습하는 방식을 고안했다. 해당 소스를 통해 토픽을 만들면 그것을 다시 여러 개의 서브 토픽으로 나누고, 이를 질문 데이터로 변환해 학습하는 구조다. 각 단계를 거쳐 완성된 코드는 다시 자동화된 문법 검사기와 중복 제거 절차를 통해 고품질의 학습 자료로 탈바꿈했다.

▲ 부족한 학습 표본을 만들기 위해 가상의 질문을 대량으로 만들어 학습시키는 방법을 채택했다 (사진출처: NDC 공식 유튜브 채널) 

한지성 개발자는 이렇게 만들어진 ‘단풍’의 성장 과정을 CPT(Continual Pretraining), SFT(Supervised Fine-tuning), GRPO(Reinforcement Learning) 등 크게 세 단계로 요약했다. 먼저 CPT는 기본적인 메이플스토리 월드 문법을 익히기 위한 과정이다. 기존 모델의 추론 능력을 유지하기 위한 수학 데이터와 함께, ‘mlua’ 스크립트의 중간 빈칸을 채우는 기법을 적용하는 과정을 거쳐 도메인 지식과 문법을 주입했다. 

▲ 단풍은 크게 CPT, SFT, GRPO 등 크게 세 가지 단계로 나눠 학습이 이뤄졌고 (사진출처: NDC 공식 유튜브 채널)

그중
▲ 그중 CPT를 통해 기본적인 메이플스토리 문법을 익혔다 (사진출처: NDC 공식 유튜브 채널)

두 번째로 SFT는 의도에 맞게 대답하도록 만드는 단계다. 이를 위해 합성 데이터, 사고(Thinking) 데이터, 안전성(Safety) 데이터 등 세 가지 요소를 기반으로 학습을 진행했다. 그 결과 질문에 상관없는 답변을 하는 경우가 눈에 띄게 줄었으며, 자연스러운 키 연결과 주요 팁도 함께 생성됐다.

▲ 합성 데이터, 사고 데이터, 안전성 데이터로 기반으로 한 SFT 학습 (사진출처: NDC 공식 유튜브 채널)

다만 이 과정에서 메이플스토리 월드와 관련이 없는 질문에도 근거 없는 답변을 내놓는 할루시네이션 현상이 발생했다. 이를 방지하기 위해 진행된 것이 마지막 단계인 GRPO다. 이는 답변 정확도에 따라 보상을 차등 지급하는 강화학습 기법으로, 보상에 따른 이점을 계산해 더 나은 답변을 내놓도록 하는 기능이다. 이를 통해 ‘단풍’은 생각하는 과정을 통해 스스로 답변을 거절하는 기능이 생겼고, 더욱 정확한 답변이 가능해졌다.

GRPO를 통해
▲ GRPO를 통해 더욱 정확한 답변이 가능해졌다 (사진출처: NDC 공식 유튜브 채널)

이처럼 세밀한 학습 과정을 거쳤음에도, 실제 서비스가 시작된 직후에는 AI 안전 기준이 지나치게 높게 설정되어 정상적인 프로그래밍 질문마저 차단하는 부작용이 나타났다. 또한 유저들은 구체적인 상황 설명보다는 아주 단순하고 짧은 단어로 질문을 던지는 경향이 강했다. 예를 들어 ‘UI에 있는 버튼을 특정 이벤트와 연결하고 로그를 남기고 싶어’라는 질문이 ‘UI 만들어줘’로 축약되는 식이다.

이에 개발진은 유저 질의 상당수가 ‘사용법과 에러’, ‘캐릭터 액션’, ‘코드 디버깅’ 등 기초적인 사용법에 집중되어 있다는 점을 파악하고, 학습 자료와 보상 체계를 전면 수정했다. 그 결과 짧고 모호한 질문에도 작성자의 원래 의도를 유추하여 올바른 해결책을 제시할 수 있게 됐다.

▲ 실제 유저들은 비교적 단순한 질문을 하는 경향이 강했고 (사진출처: NDC 공식 유튜브 채널)

▲ 질의 상당수가 기본적인 사용법에 집중되어 있어, 이를 바탕으로 전면 수정이 진행됐다 (사진출처: NDC 공식 유튜브 채널)

마지막으로 한지성 개발자는 “이러한 과정 덕분에 배운 점도 많았다”고 전했다. 먼저 LLM 실제 실행 여부를 판단하기 어려워, 검증이 가능한 환경이 필요하다는 사실을 알게 됐다. 또한 워크스페이스 부족으로 인해 기본적인 문법 스크립트 위주 답변밖에 구현할 수 없어, 유저에게 도움이 되기에는 허점도 많았다. 그 외에도 제한된 자원을 사용할 수 밖에 없어, 효율적인 실험 전략의 필요성을 실감했다.
이 기사가 마음에 드셨다면 공유해 주세요
플랫폼
온라인, 모바일
장르
기타
제작사
넥슨
출시일
게임소개
메이플스토리 월드는 넥슨 대표 IP '메이플스토리'의 리소스를 활용해 누구나 콘텐츠를 직접 만들고, 다른 유저와 함께 플레이할 수 있는 ... 자세히
에 달린 기사 '댓글 ' 입니다.
게임잡지
2006년 8월호
2006년 7월호
2005년 8월호
2004년 10월호
2004년 4월호
게임일정
2026
06