A Robotic llama with a sleek, metallic body

메타 Llama3.1의 한국어 성능은 기대 이상입니다

컴퓨터, 소프트웨어 2024년 7월 31일

메타의 라마3.1 공개

지난 2024년 7월 23일 메타에서 AI 언어 모델 라마3.1(llama 3.1)을 공개했습니다. 소개에 따르면 Open AI의 GPT-4o급 성능이라고 하길래 테스트 해 봤습니다. 영어 AI는 다른 대체제도 많은 편이고, 기존의 llama3도 영어 성능은 뛰어났기 때문에 한국어 위주로만 간단하게 살펴봤습니다.

llama3, llama3.1 모두 한국어를 공식적으로 지원하지는 않습니다. 3.1은 8B, 70B, 405B 이렇게 세 종류가 공개 되었는데 어차피 제 하드웨어로 돌릴 수 있는 건 8B밖에 없습니다.

ollama모델 리스트 중 llama3.1 페이지

실행 환경

요즘은 파이썬 코드 적어가며 쓰지 않고 저의 실 사용 환경인 ollama+webUI 환경에서 테스트 했습니다. 튜닝은 전혀 안했습니다.(할 줄도 모르고, 하드웨어도 안 받쳐주고...)

ollama 서버 : 윈도우 11 64bit
GPU : GTX1070 (저도 8GB 불편합니다만 간단한 이미지, 텍스트 정도 생상하는 거라 나름 쓸만합니다.)
Open-webUI(구 ollama webUI) : 오라클 클라우드A1
llama3.1 모델 : 8B

ollama를 사용하면 CMD나 파워셸에서 llama3.1을 명령어 한줄로 간단하게 설치하고 실행할 수 있습니다.

ollama run llama3

테스트 내용

한국어를 공식 지원하지는 않지만 이전 버전들도 어느 정도 한국어를 읽고 쓰기 때문에 아무런 튜닝, 프롬프트 작성 없이 그냥 한국어를 던져 봤습니다.

생각보다 싸가지가 없는 라마 3.1

음... 생각보다 싸가지가 없는 말투지만 뭐 한국어를 모르는 외국놈이니까 이해합니다.

리눅스 명령어 한국어 안내 테스트

고스트(현재 여러분이 보고 계시는 블로그)를 도커 컴포즈 설치방법을 알려달라고 해봤습니다.

친절해진 라마 3.1

위의 정보대로 설치하면 DB 설정이 빠져서 정상적인 사용이 안될 테지만 그래도 나름 정답에 비슷한 정보를 제공해 줬습니다. 한국어 표현도 문제가 없습니다.

한국어 요약 테스트

다음은 최근에 핫한 티몬-위메프 사태와 관련해서 기사를 하나 선택한 후 한국어로 요약해 달라고 했습니다.

라마 3.1 한국어 요약 테스트

대체로 한국어를 잘 요약하고 있습니다. 과거 GPT 정도는 확실히 넘어선 것 같습니다.

더 짧은 요약을 요구했더니 한 줄로 줄여줬습니다.

"검찰이 위메프-티몬의 대규모 환불 지연사태와 관련하여 벌리 검토 중이며, 2134억원의 판매대금 미정산 규모가 추산되었다."

조금 아쉬운 점을 뽑자면 마지막 문장인 위의 문장은 비문입니다. 수동태로 쓸 필요가 없는 문장인데다가 추산된 주체가 빠져 있습니다. 그래도 이 정도면 라마3.1의 한국어 성능이 제 예상보다 훨씬 좋아 보입니다.

시나리오 작성

다음은 영화의 시놉시스 작성을 요구했습니다. 장르와 소재 정도만 알려주고 전체적인 이야기 흐름을 만들 수 있는지 봤습니다.

라마 3.1로 영화 시놉시스 작성 테스트

겉멋든 비즈니스맨 처럼 불필요한 외국어를 중간중간 섞어서 쓰긴 하지만 대체로 다른 AI들이 만드는 것과 유사한 수준의 시놉시스를 작성했습니다. (코미디라고 해봐야 별 재미없는...)

노래 가사 작성

다음은 노래 가사 작성을 요구해 봤습니다. 장르와 간단한 주제를 제공하면, 파트에 맞는 가사를 만들 수 있는지 살펴봤습니다.

라마 3.1로 가사 작성 테스트

비문과 알 수 없는 표현들이 섞여 있지만 어쨌든 파트별로 작성을 해주긴 합니다. 아마도 영어로 먼저 작성하고 한국어로 다시 번역해 주는 것 같기도 합니다.(아님 말구요.)

영한 번역 테스트

다음은 영어로 쓰인 문장을 한국어로 잘 번역할 수 있는지 테스트 해 봤습니다. 문학 작품은 너무 어려울 것 같고, 전문용어가 들어간 설명문을 한국어로 제대로 번역할 수 있는지 살펴 봤습니다.

라마 3.1로 영한 번역 테스트

위 글은 wikipedia에 있는 샘플러(음악 장비)에 관한 설명의 일부입니다. 약간의 오류가 있긴 하지만 이 부분도 생각보다 퀄리티가 좋아서 깜짝 놀랐습니다. 이런 글을 번역시켜보면 영어 전문용어로 남겨둬야 할 것을 불필요하게 번역하거나 전혀 다른 뜻의 단어로 번역하는 등의 오류가 많은 편입니다.

이 테스트에서는 Musical Scale and Chords 부분이 잘 못 번역되었습니다. 하나의 소소를 피치쉬프트해서 스케일을 만들거나 코드를 만든다는 내용이고 리듬에 관한 내용은 없는데 "다른 리듬과 같은 여러 가지 반주"라는 내용으로 바뀌어 있네요.

신서사이저를 시네시저라고 번역한 것은 좀 아쉽지만 어쩔 수 없다 봅니다. 신스에 관한 내용이 포함된 책도 거의 없을 뿐더러 본래 발음은 신서사이저에 가깝습니다. 최근 서적들은 신서사이저로 적는 편이지만 과거의 서적들은 일본 발음인 신디사이저라고 적은 것들이 많아서 학습이 힘들었을거라 봅니다.

코딩 테스트

라마 3.1의 파이썬 코딩 능력을 테스트 해 봤습니다. 그냥 코드 짜는 능력 뿐만 아니라 유명한 소프트웨어인 KODI의 API에 대해 알고 있는지도 함께 물어봤습니다.

라마 3.1로 코딩 테스트

제가 라마3.1에게 이걸 물어본 이유는 초창기 ChatGPT는 이 내용을 이해하지 못했기 때문입니다. 예전에 작업실에서 사용할 노래방 어플 만들 때 KODI를 제어할 일이 있어서 curl, python을 이용했는데 예전 ChatGPT는 문제를 전혀 이해하지 못하고 횡설수설했습니다.

결론 : 라마3.1의 한국어 능력

예전에 huggingface에서 여러가지 한국어 튜닝 버전 llama3를 써본 적이 있는데 맘에 드는게 없었습니다. 튜닝한 내용도 적용해야 하는데 ollama로 돌리다보니 잘 안되거나 불가능한게 많았습니다. 저의 환경에서는 대부분 순정 llama3보다 헛소리가 심했습니다.

그래서 라마3.1도 별 기대 없이 기본 공개된 llama3.1로 테스트를 해봤습니다. 약간의 미흡한 점들이 있긴하지만 아직 한국어가 공식 지원도 아닌데 저의 똥GPU(gtx1070)으로 돌리는 AI의 퀄리티가 이 정도라면 개인적으로는 대만족입니다.

예전에 메타 측에서 추가 언어도 작업하고 있다는 내용을 본 것 같은데 github에서 한국어를 본 것 같기도 하구요. 어쨌든, 한국어가 공식 지원되기만 기다립니다.

저커버그 형님께 감사감사하는 마음으로 포스팅을 마칩니다.

태그

BoniK

협업, 의뢰, 레슨 등 문의 : mail@bonik.me, open.kakao.com/me/bonik