Llama 3.1로 구동되는 에이전트: 함수 호출 기능 테스트
Llama 3.1의 함수 호출 및 도구 사용 기능을 탐색하세요. LangTrace와 같은 관찰 가능성 도구를 사용하여 LLM 성능을 모니터링하는 방법을 배우세요. 복잡한 작업 처리에서 다양한 Llama 모델 크기의 강점과 한계를 발견하세요.
2025년 2월 14일

Llama 3.1의 기능 호출 기능에 대한 이 포괄적인 가이드를 통해 그 힘을 발휘하세요. 이 최첨단 언어 모델이 지능형 에이전트로 활용되어 API와 원활하게 통합되어 복잡한 작업을 처리할 수 있는 방법을 발견하세요. 관찰 가능성 측면을 탐색하고 모델의 성능에 대한 통찰력을 얻어 다음 프로젝트에 대한 정보에 입각한 결정을 내릴 수 있습니다.
Llama 3.1과 Meta의 에이전트 시스템의 기능
LangTrace를 통한 관찰 가능성 설정
Llama 3.1 70B와 8B 모델을 사용한 함수 호출 테스트
병렬 함수 호출 및 중첩 순차 함수 호출
함수 호출에 어려움을 겪는 Llama 3.1 8B 모델
함수 호출을 위한 Groq의 Fine-Tuned Llama 3 모델
결론
Llama 3.1과 Meta의 에이전트 시스템의 기능
Llama 3.1과 Meta의 에이전트 시스템의 기능
메타가 Llama 3.1 릴리스에서 강조한 핵심 기능 중 하나는 함수 호출 또는 도구 사용입니다. 저자는 이 기능을 테스트해 보고자 했습니다.
저자는 먼저 Groq API를 포함한 필요한 도구와 API를 설정했습니다. Groq API는 Llama 3.1과 상호 작용하는 가장 빠른 API 중 하나를 제공합니다. 그들은 700억 및 80억 Llama 3.1 모델과 700억 모델의 Groq 특화 파인 튜닝 버전을 테스트했습니다.
저자는 단일 함수 호출의 간단한 예부터 시작하여 병렬 및 중첩 함수 호출을 포함하는 더 복잡한 시나리오로 이동했습니다. 그들은 실험 중 토큰 사용량과 기타 지표를 추적하기 위해 LangTrace 관찰 플랫폼을 사용했습니다.
LangTrace를 통한 관찰 가능성 설정
LangTrace를 통한 관찰 가능성 설정
이 섹션에서는 LLM 애플리케이션을 위한 오픈 소스 및 오픈 텔레메트리 관찰 플랫폼인 LangTrace를 설정할 것입니다. LangTrace를 통해 로컬 환경과 LLM API 간의 요청 및 토큰 수를 추적할 수 있습니다.
먼저 LangTrace Python SDK, Groq Python SDK, OpenAI Python SDK(Llama를 사용하지 않지만 LangTrace SDK의 종속성)를 포함한 필수 패키지를 설치해야 합니다.
다음으로 API 키를 설정합니다. 이 실험에서는 LangTrace가 엄격히 필요하지는 않지만 토큰 사용량에 대한 귀중한 통찰력을 제공할 수 있습니다. LangTrace는 LangChain의 관찰 플랫폼인 LangSmith와 유사한 기능을 제공하지만 OpenAI, Groq, Cohere, Perplexity 등 더 다양한 공급업체를 지원합니다.
Llama 3.1 70B와 8B 모델을 사용한 함수 호출 테스트
Llama 3.1 70B와 8B 모델을 사용한 함수 호출 테스트
저자는 메타가 Llama 3.1에서 에이전트 시스템 주변의 함수 호출 기능을 출시했다는 점을 강조하면서 시작합니다. 저자가 로컬에 시스템을 설정하지 않았기 때문에 Llama 3.1과 상호 작용하는 가장 빠른 API 중 하나인 Groq API를 사용하기로 결정했습니다.
저자는 700억 및 80억 Llama 3.1 모델과 700억 모델의 Groq 특화 파인 튜닝 버전을 테스트했습니다. 그들은 로컬 환경과 LLM API 간의 요청 및 토큰 교환을 추적하기 위해 LLM 애플리케이션을 위한 오픈 소스 관찰 플랫폼인 LangTrace를 사용했습니다.
저자는 모델이 "게임 점수 가져오기" 함수를 사용하여 NBA 게임의 승자를 결정해야 하는 간단한 예제로 시작했습니다. 700억 모델은 이 작업을 성공적으로 수행했으며 저자는 LangTrace 데이터를 검토하여 내부 메커니즘을 이해했습니다.
병렬 함수 호출 및 중첩 순차 함수 호출
병렬 함수 호출 및 중첩 순차 함수 호출
Llama 3.1 700억 모델은 병렬 함수 호출과 중첩 함수 호출을 효과적으로 처리하며 매우 우수한 성능을 보였습니다. 반면 80억 모델은 이러한 복잡한 작업에 어려움을 겪었고, Groq 특화 파인 튜닝 모델은 가장 큰 문제를 겪었습니다. 이 모델은 종종 사용자에게 추가 정보나 명확화를 요청했습니다.
전반적으로 저자는 700억 Llama 3.1 모델이 심각한 함수 호출 또는 에이전트 사용 사례에 가장 적합한 옵션이라고 결론 내렸습니다. 이 모델은 이 분야에서 인상적인 기능을 보여주었습니다. 저자는 또한 이러한 유형의 실험 중 대규모 언어 모델의 동작을 추적하고 이해하는 데 LangTrace 관찰 플랫폼의 유용성을 강조했습니다.
함수 호출에 어려움을 겪는 Llama 3.1 8B 모델
함수 호출에 어려움을 겪는 Llama 3.1 8B 모델
Llama 3.1 80억 모델은 더 복잡한 함수 호출 작업에서 700억 모델에 크게 뒤처졌습니다. 주요 관찰 사항은 다음과 같습니다:
-
"게임 점수 가져오기" 함수의 경우 80억 모델은 700억 모델과 유사하게 문제 없이 처리했습니다.
-
그러나 여행 계획과 같은 병렬 함수 호출 작업의 경우 80억 모델이 어려움을 겪었습니다. 날씨, 항공편, 호텔, 명소에 대한 종합적인 정보를 제공하지 못했고 종종 허구적인 세부 정보를 만들어내거나 사용 가능한 옵션을 나열하지 못했습니다.
-
확장된 함수 세트로 인해 80억 모델의 어려움은 더 커졌습니다. 요청되지 않은 이벤트와 날씨 세부 정보를 허구적으로 생성했습니다.
-
80억 모델은 영화 추천 작업의 중첩 함수 호출에도 어려움을 겪었습니다. 제공된 도구를 적절히 사용하지 못하고 대신 직접 영화를 제안했습니다.
함수 호출을 위한 Groq의 Fine-Tuned Llama 3 모델
함수 호출을 위한 Groq의 Fine-Tuned Llama 3 모델
Groq 특화 Llama 3 모델은 함수 호출 테스트에서 어려움을 겪었습니다. 이 모델은 종종 제공된 도구를 효과적으로 활용하지 못하고 더 구체적인 세부 정보를 요청했습니다.
예를 들어 Warriors 경기 점수를 요청할 때 모델은 날짜나 상대팀과 같은 추가 정보를 요구했습니다. 여행 계획 요청에서도 여행 날짜와 같은 세부 정보를 반복적으로 요청했습니다. 영화 추천 작업에서도 중첩 함수를 활용하지 못하고 대신 직접 영화를 제안했습니다.
전반적으로 Groq 특화 Llama 3 모델은 700억 Llama 3.1 모델만큼 함수 호출 및 도구 사용 테스트에서 좋은 성과를 내지 못했습니다. 700억 모델은 병렬 및 중첩 함수 호출에서 강력한 기능을 보여준 반면, 특화 모델은 제공된 도구와 함수를 활용하는 데 어려움을 겪었습니다. 이 모델의 성능을 개선하려면 추가적인 최적화 또는 파인 튜닝이 필요할 것으로 보입니다.
결론
결론
Groq의 700억 Llama 3.1 모델은 함수 호출 및 도구 사용 테스트에서 매우 우수한 성능을 보였습니다. 병렬 함수 호출과 중첩 함수 호출을 모두 쉽게 처리하며 강력한 에이전트 시스템 기능을 입증했습니다.
반면 80억 Llama 3.1 모델은 이러한 복잡한 작업에 어려움을 겪어 이러한 애플리케이션에는 더 큰 규모와 기능이 우수한 언어 모델이 필요함을 보여주었습니다.
그러나 Groq의 특화된 함수 호출 모델은 예상보다 좋지 않은 성과를 보였습니다. 이는 이 모델의 파인 튜닝 프로세스가 효과적이지 않았을 수 있음을 시사합니다.
관찰 및 추적을 위해 오픈 소스 LangTrace AI 플랫폼이 유용한 도구로 입증되었습니다. 이 플랫폼은 실험 중 언어 모델의 토큰 사용량과 API 호출에 대한 자세한 정보를 제공했습니다.
자주하는 질문
자주하는 질문