날개 펴고 날아오르는 벤치마크: Smaug 70B LLaMA 3 Fine-Tuned 모델이 압도적

Smaug, 70B LLaMA 3 모델의 미세 조정을 통해 벤치마크를 지배하고 GPT-4 Turbo를 능가하는 방법을 발견하세요. 이 심층 분석에서 코딩 작업과 추론을 포함한 그의 인상적인 기능을 탐색하세요.

2025년 2월 24일

party-gif

새로운 LLaMA 3 미세 조정 모델 Smaug 70b의 힘을 발견하세요. 이 모델은 벤치마크를 지배하고 GPT-4 Turbo를 능가합니다. 이 오픈 소스 모델의 기능을 탐색하고 코딩에서 문제 해결에 이르는 다양한 작업을 처리하는 방법을 이 종합 분석에서 확인하세요.

Smaug 70b 가 벤치마크를 지배하다

아바쿠스 AI의 CEO인 Bindu에 따르면, Smaug 70b 모델은 이전 최고의 오픈 소스 모델인 LLaMA 37b보다 크게 우수합니다. Smaug 70b는 MT 벤치와 Arena hard 점수를 포함한 다양한 벤치마크에서 LLaMA 37b와 GPT-4 Turbo를 능가합니다.

Smaug 70b 모델은 MT 벤치에서 56.7점을 받은 반면, LLaMA 37b는 41.1점을 받았습니다. 이는 Smaug 70b 모델의 추론 능력과 기능이 이전 모델보다 향상되었음을 보여줍니다.

모델을 더 테스트하기 위해 저자는 Smaug 모델의 70억 매개변수 양자화 버전을 다운로드하고 LM Studio를 사용하여 로컬에서 실행했습니다. 더 작은 모델은 성공적으로 작동하는 Snake 게임을 만들어 내면서 다재다능성과 성능을 보여주었습니다.

저자는 그 다음 아바쿠스닷컴에서 700억 매개변수 버전의 Smaug 모델을 테스트했습니다. 이 모델은 1부터 100까지의 숫자를 출력하고 간단한 수학 문제를 해결하는 등 다양한 작업을 수행할 수 있었습니다. 그러나 Curses 라이브러리를 사용하여 Snake 게임을 만들거나 논리 퍼즐에 대한 단계별 솔루션을 제공하는 등 더 복잡한 작업에서는 어려움을 겪었습니다.

반면에 로컬에서 실행되는 더 작은 70억 매개변수 양자화 모델은 이러한 더 복잡한 작업에서 더 나은 성능을 보였습니다. 이는 특정 애플리케이션의 경우 최적화된 더 작은 모델을 사용하는 것이 더 유리할 수 있음을 시사합니다.

모델 테스트: Python 스크립트와 Snake 게임

트랜스크립트에 따르면 저자는 700억 매개변수 비양자화 버전과 70억 매개변수 양자화 버전의 두 가지 Smog 모델 버전을 다양한 작업에서 테스트했습니다. 주요 내용은 다음과 같습니다:

  • 저자는 먼저 두 모델 모두 Python 스크립트에서 1부터 100까지의 숫자를 출력할 수 있는지 테스트했고, 두 모델 모두 성공적으로 수행했습니다.
  • 다음으로 저자는 두 모델이 Python에서 Snake 게임을 만들 수 있는지 테스트했습니다. 더 작은 70억 매개변수 양자화 모델은 첫 시도에 작동하는 Snake 게임을 만들어 냈지만, 더 큰 700억 매개변수 버전은 문제가 있었고 작동하는 게임을 만들지 못했습니다.
  • 저자는 그 다음 더 큰 모델에게 pygame 라이브러리를 사용하여 Snake 게임을 만들도록 시도했지만 여전히 성공하지 못했습니다.
  • 저자는 더 작은 양자화 모델이 Snake 게임 작업에서 더 큰 비양자화 버전보다 더 나은 성능을 보였다고 결론 내렸습니다.

전반적으로 결과는 더 작은 양자화 모델이 더 큰 비양자화 Smog 모델에 비해 작업 수행 능력이 더 뛰어났음을 보여줍니다.

수학 문제와 단어 문제 해결하기

이 모델은 다양한 수학 및 단어 문제에서 우수한 성능을 보여, 정량적 추론 및 문제 해결 능력을 입증했습니다. 주요 하이라이트는 다음과 같습니다:

  • 모델은 "25 - 4 * 2 + 3"과 같은 간단한 산술 문제를 정확하게 해결하고 단계별 추론을 제공할 수 있었습니다.
  • 호텔 요금에 관한 단어 문제의 경우, 모델은 세금과 수수료를 포함한 총 비용을 계산하는 올바른 공식을 식별했습니다.
  • 방 안의 살인자에 관한 까다로운 논리 퍼즐에 대한 설명을 요청했을 때, 더 작은 로컬 모델은 더 큰 클라우드 기반 버전보다 더 통찰력 있고 정확한 응답을 제공했습니다.
  • 더 작은 로컬 모델은 셔츠 건조에 관한 단순한 비례 문제에서도 더 큰 모델을 능가했습니다.
  • 두 모델 모두 숫자 시퀀스 생성 및 간단한 Snake 게임 구축과 같은 기본적인 프로그래밍 작업을 처리할 수 있었습니다.

전반적으로 이 결과는 모델의 강력한 수학적 추론 및 문제 해결 능력을 보여주며, 더 작은 로컬 버전이 때때로 더 큰 클라우드 기반 버전을 능가한다는 것을 시사합니다. 이는 더 compact하고 효율적인 모델 배포를 통해서도 높은 품질의 정량적 추론을 달성할 수 있음을 보여줍니다.

컵 속 구슬 시나리오 분석하기

컵 속의 구슬 시나리오는 물리적 세계에 대한 추론 능력과 논리적 추론을 테스트하는 전형적인 논리 퍼즐입니다. 이 경우 시나리오에는 구슬이 유리컵에 놓이고, 유리컵이 뒤집혀 테이블 위에 놓인 다음 유리컵이 들어 올려져 전자레인지에 놓이는 내용이 포함됩니다.

이 퍼즐을 해결하는 핵심은 유리컵의 움직임에도 불구하고 구슬의 위치가 변하지 않는다는 것을 이해하는 것입니다. 유리컵이 뒤집히고 옮겨지더라도 구슬은 여전히 유리컵의 바닥에 있습니다.

유리컵이 전자레인지에 놓일 때 구슬은 여전히 유리컵 안에 있습니다. 이것이 정답이며, 구슬은 전체 일련의 행동에서 유리컵 내부의 동일한 위치에 있습니다.

공의 위치 결정하기

John은 출근하기 전에 공을 상자에 넣었기 때문에 공이 여전히 상자 안에 있다고 가정할 것입니다.

Mark는 John이 없는 동안 공을 바구니에 넣었기 때문에 공이 바구니에 있다고 가정할 것입니다.

John과 Mark가 공의 위치에 대해 서로 다른 가정을 하고 있기 때문에, 공의 최종 위치는 제공된 정보만으로는 모호합니다.

'사과'로 끝나는 문장 만들기

더 큰 모델은 모두 "Apple"로 끝나는 10개의 문장을 생성할 수 있었습니다:

  1. 바삭하고 즙이 많은 Apple은 먹기에 즐거웠습니다.
  2. John은 익은 Apple을 바구니에 던졌습니다.
  3. 뒷마당의 Apple 나무에는 과일이 가득했습니다.
  4. 그녀는 Apple을 썰어 샐러드에 넣었습니다.
  5. 따뜻한 Apple 파이가 부엌에 맛있는 향기를 가득 채웠습니다.
  6. 선생님은 각 학생에게 빛나는 Red Apple을 나누어 주었습니다.
  7. 캐러멜 코팅된 Apple은 카운티 박람회에서 인기 있는 간식이었습니다.
  8. Apple 사과즙은 가을 낙엽의 완벽한 동반자였습니다.
  9. Apple 꽃잎이 부드러운 바람에 춤을 추었습니다.
  10. 어린 소년은 Green Apple을 열심히 물어뜯었습니다.

10피트 구멍 파는 데 걸리는 시간 계산하기

50명이 10피트 깊이의 구멍 하나를 파는 데 걸리는 시간을 계산하기 위해 우리는 비례 접근 방식을 사용할 수 있습니다:

  • 1명이 10피트 깊이의 구멍을 파는 데 5시간이 걸립니다.
  • 따라서 50명이 걸리는 시간은 1/50배, 즉 6분입니다.

이 추론은 다음과 같습니다:

  • 1명이 5시간이 걸리면 50명이 걸리는 시간은 그 1/50배, 즉 5시간 / 50 = 0.1시간 = 6분입니다.
  • 파는 시간은 사람 수에 반비례하므로, 사람 수를 두 배로 늘리면 파는 시간은 절반이 됩니다.

따라서 50명이 10피트 깊이의 구멍 하나를 파는 데 6분이 걸립니다.

결론

70억 매개변수 양자화 버전의 더 작은 Smog 모델은 놀랍도록 좋은 성능을 보였으며, 종종 700억 매개변수 비양자화 버전과 동일하거나 심지어 더 뛰어난 성과를 보였습니다. 더 큰 모델은 "Apple"로 끝나는 문장 생성과 같은 작업에서 뛰어났지만, 더 작은 모델은 수학 문제, 논리 퍼즐, 코딩 작업 등 다양한 과제를 처리할 수 있었습니다.

이는 많은 실용적인 애플리케이션의 경우 더 작은 양자화 모델이 더 큰 버전의 대안이 될 수 있음을 시사합니다. 고품질 언어 모델을 로컬에서 실행할 수 있는 기능은 또한 중요한 장점이며, 이를 통해 더 큰 제어, 투명성 및 잠재적으로 더 빠른 응답 시간을 얻을 수 있습니다.

전반적으로 이 비교 결과는 매우 흥미로웠으며, 특정 사용 사례에 가장 적합한 모델을 결정하기 위해 다양한 모델 구성을 철저히 테스트하고 평가하는 것이 중요함을 강조합니다. Smog 모델의 더 작은 버전의 성능은 인상적이며, 강력한 언어 AI 기능을 활용하고자 하는 개발자와 연구자들에게 고려할 만한 가치가 있습니다.

자주하는 질문