디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5

ㅇㅇ(182.230) 2024.04.29 12:28:41
조회 744 추천 21 댓글 4
														

https://qwenlm.github.io/blog/qwen1.5-110b/



a15714ab041eb360be3335625683746f0053452dd6a4e289d63760f79c17cd6e58757c58203d1c0ca6189e4f59



- 오픈소스 커뮤니티에서 최근 1000억 개 이상의 매개변수를 가진 대규모 모델들이 쏟아져 나오고 있으며, 벤치마크 평가와 챗봇 분야에서 놀라운 성능을 보여주고 있음

- 알리바바도 Qwen1.5 시리즈의 첫 번째 100B+ 모델인 Qwen1.5-110B를 공개

- 기본 모델 평가에서 Meta-Llama3-70B와 견줄 만한 성능을 달성하였고, MT-Bench와 AlpacaEval 2.0을 포함한 채팅 평가에서 뛰어난 성능을 보여줌


Qwen1.5-110B 모델의 특징

- Qwen1.5-110B는 다른 Qwen1.5 모델들과 유사하며 동일한 Transformer 디코더 아키텍처로 구축됨

- 그룹화된 쿼리 어텐션(GQA)으로 구성되어 모델 서빙에 효율적임

- 32K 토큰의 컨텍스트 길이를 지원하며, 영어, 중국어, 프랑스어, 스페인어, 독일어, 러시아어, 한국어, 일본어, 베트남어, 아랍어 등 다수의 언어를 지원하는 다국어 모델


기본 언어 모델 평가 결과

- 기본 언어 모델에 대한 일련의 평가와 최근 SOTA 언어 모델인 Meta-Llama3-70B 및 Mixtral-8x22B와 비교

- 결과에 따르면 새로운 110B 모델은 기본 능력 면에서 Llama-3-70B 모델과 적어도 경쟁력이 있음

- 이 모델의 경우 사전 학습 및 사후 학습 레시피를 급격히 변경하지 않았으므로, 72B 대비 성능 향상은 모델 크기 증가에서 비롯된 것으로 보임


채팅 모델 평가 결과

- MT-Bench와 AlpacaEval 2.0에서 채팅 모델을 테스트함

- 이전에 공개된 72B 모델에 비해 110B는 두 가지 벤치마크 평가에서 현저히 우수한 성능을 보임

- 평가에서의 일관된 개선은 사후 학습 레시피를 크게 변경하지 않더라도 더 강력하고 큰 기본 언어 모델이 더 나은 채팅 모델로 이어질 수 있음을 나타냄


결론

- Qwen1.5-110B는 Qwen1.5 시리즈 중 가장 큰 모델이며, 시리즈 중 첫 번째로 1000억 개 이상의 매개변수를 가진 모델임

- 최근 공개된 SOTA 모델인 Llama-3-70B와 경쟁력 있는 성능을 보여주며, 72B 모델보다 크게 우수함

- 이는 더 나은 성능을 위해 모델 크기 확장에 여전히 많은 가능성이 있음을 나타냄

- Llama-3의 공개는 데이터를 극도로 큰 규모로 확장하는 것의 중요성을 보여주지만, 향후 공개에서 데이터와 모델 크기를 모두 확장하여 두 세계의 장점을 모두 얻을 수 있을 것이라 믿음

자동등록방지

추천 비추천

21

고정닉 6

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 8095 34
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [3105] 특갤용갤로그로 이동합니다. 23.08.06 39535 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [2] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2609 2
363220 공지 선형글 삭제 기준 [7] 특갤용갤로그로 이동합니다. 23.10.14 7294 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 13443 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [51] 특갤용갤로그로 이동합니다. 23.11.07 8997 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8451 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 9207 30
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22807 33
485779 일반 저번에 90일동안 모델 점검한다고 했음 [1] ㅇㅇ(119.64) 16:55 22 0
485778 일반 요새LLM중에 코딩 젤 잘해주는게 어떤거임? [2] ㅇㅇ(61.81) 16:52 17 0
485777 일반 의사 정치적 파워가 지금 텍시기사보다 못하지 [5] ㅇㅇ(175.208) 16:50 40 0
485776 일반 아직 구글 워크스페이스에서 gemini 못쓰지? ㅇㅇ(220.95) 16:44 19 0
485775 일반 wwdc 좀 빨리 했으면 좋겠다. ㅇㅇ(118.223) 16:43 18 0
485774 일반 한국이 의사 대체 ai가한다고??ㅋㅋ제일늦을거다 [2] ㅇㅇ(115.138) 16:42 69 1
485773 일반 미용사 헬스트레이너 왁싱사 해라 [1] ㅇㅇ(112.159) 16:33 71 0
485772 일반 몇 년 동안 선형충들 뚝배기 깨지고 난동 피울 거 생각하면 [2] ㅇㅇ(61.108) 16:29 108 0
485771 일반 주4일제부터 빨리 해야됨 [2] ㅇㅇ갤로그로 이동합니다. 16:29 62 0
485770 일반 멍청해서 화가난다 [3] ㅇㅇ(59.22) 16:20 148 0
485769 일반 오늘 새벽에 안나오면 오픈ai 줄빠따간다 [2] ㅇㅋ갤로그로 이동합니다. 16:17 100 0
485768 일반 한 5년뒤에 태어나는 애들은 전부 영어 개잘하겠네 [4] ㅇㅇ(222.102) 16:05 185 0
485767 일반 카운트다운계정 물어봄 [5] ㅇㅇ(119.64) 15:50 294 0
485766 일반 지금2학년인데 나 취업할시기에 대체되면 그것도 ㅇㅇ(220.89) 15:49 82 0
485765 일반 ai 비서 추천좀 [2] FISC갤로그로 이동합니다. 15:45 86 0
485764 일반 한국은 의료쪽 ai로 대체속도 빠를 것 같긴함 [8] ㅇㅇ(211.184) 15:44 162 2
485763 일반 지금 공부잘하는애들 의대가는거 실수아닐까 [15] ㅇㅇ(118.36) 15:39 312 4
485762 일반 기2본소득이 너무 정치적으로만 소비돼서 안타까움 [7] lightvector갤로그로 이동합니다. 15:36 227 1
485761 일반 메스가키 음성으로 해봤는데 [1] ㅇㅇ(110.11) 15:36 119 0
485760 일반 챗gpt가 혁신인게 돈이 되는게 혁신같다 chatgpt4o갤로그로 이동합니다. 15:36 68 0
485759 일반 왜 보이스 모델이랑 4.5 따로 공개하냐고 ㅋㅋ ㅇㅇ(119.64) 15:34 112 0
485757 일반 내가 누누히 말했다 ㅋ [3] ㅇㅇ(39.124) 15:30 183 0
485755 일반 프로그램 설계 할줄 알면 당연히 gpt로 혼자 북치고 장구치고 가능 ㅇㅇ(121.186) 15:25 72 0
485754 정보/ 사우디, 中 AI 스타트업에 4억달러 투자 [3] lightvector갤로그로 이동합니다. 15:18 141 0
485753 정보/ "항소심 승소 가능성은…" AI가 판례 참고해 5초만에 답변 lightvector갤로그로 이동합니다. 15:16 125 0
485752 정보/ 인공지능이 특허출원 가능할까…대법원에서 판단 [1] lightvector갤로그로 이동합니다. 15:14 100 0
485751 일반 난 오늘 밤샐거임 ㅎㅎ 새벽 3시 가즈아~ [4] 흑등고래갤로그로 이동합니다. 15:13 214 0
485750 일반 4o은 쓰면 쓸수록 애가 맛탱이가 가버리네 ㅋㅋ [5] ㅇㅇ(106.247) 15:09 174 0
485748 일반 gpt로 gemini 유튜브 요약 확장프로그램 만들었음 [2] ㅇㅇ갤로그로 이동합니다. 15:04 151 0
485747 일반 역노화가 축복일까?? [7] ㅇㅇ(223.33) 15:02 121 0
485746 일반 구독했는데 왜 4o 안되냐고 [3] ㅇㅇ(118.32) 15:02 142 0
485745 일반 4년자 IT 개발자에 있어서 AI이후 많이 변했음 [14] ㅇㅇ(218.157) 14:59 402 10
485744 일반 선형충들 듣실대노 ㅅㅂ [1] noosphere갤로그로 이동합니다. 14:59 72 2
485743 일반 나라가 돈을 뿌리는게 아니라 부자들이 돈을 뿌려야한다 ㅇㅇ [6] ㅇㅇ(219.248) 14:55 111 0
485742 일반 gpt 구독했는데 아직도 3.5야 [3] ㅇㅇ(118.32) 14:54 106 0
485741 일반 그래서 당뇨완치 언제됨? [4] ㅇㅇ(220.127) 14:36 111 0
485740 정보/ 올해는 에이전트의 해이다 친근한게이브갤로그로 이동합니다. 14:34 133 0
485739 일반 문과는 경영, 부동산학과 가는게 답이야? [6] ㅇㅇ(183.96) 14:33 125 0
485738 일반 AI 규제 어쩌고 하는말이 얼척이 없는게 [2] ㅇㅇ(1.224) 14:24 129 1
485737 일반 인류의 기술 전반이 정체되어가던중에 AI가 마지막 희망이었는데 [4] ㅇㅇ(175.211) 14:22 196 0
485736 일반 드디어 AI시대가 왔다고 엄마아빠한테 [5] ㅇㅇ(211.55) 14:17 257 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2