Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보/뉴스] Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5

ㅇㅇ(182.230) 2024.04.29 12:28:41

조회 744 추천 21 댓글 4

https://qwenlm.github.io/blog/qwen1.5-110b/

a15714ab041eb360be3335625683746f0053452dd6a4e289d63760f79c17cd6e58757c58203d1c0ca6189e4f59

- 오픈소스 커뮤니티에서 최근 1000억 개 이상의 매개변수를 가진 대규모 모델들이 쏟아져 나오고 있으며, 벤치마크 평가와 챗봇 분야에서 놀라운 성능을 보여주고 있음

- 알리바바도 Qwen1.5 시리즈의 첫 번째 100B+ 모델인 Qwen1.5-110B를 공개

- 기본 모델 평가에서 Meta-Llama3-70B와 견줄 만한 성능을 달성하였고, MT-Bench와 AlpacaEval 2.0을 포함한 채팅 평가에서 뛰어난 성능을 보여줌

Qwen1.5-110B 모델의 특징

- Qwen1.5-110B는 다른 Qwen1.5 모델들과 유사하며 동일한 Transformer 디코더 아키텍처로 구축됨

- 그룹화된 쿼리 어텐션(GQA)으로 구성되어 모델 서빙에 효율적임

- 32K 토큰의 컨텍스트 길이를 지원하며, 영어, 중국어, 프랑스어, 스페인어, 독일어, 러시아어, 한국어, 일본어, 베트남어, 아랍어 등 다수의 언어를 지원하는 다국어 모델

기본 언어 모델 평가 결과

- 기본 언어 모델에 대한 일련의 평가와 최근 SOTA 언어 모델인 Meta-Llama3-70B 및 Mixtral-8x22B와 비교

- 결과에 따르면 새로운 110B 모델은 기본 능력 면에서 Llama-3-70B 모델과 적어도 경쟁력이 있음

- 이 모델의 경우 사전 학습 및 사후 학습 레시피를 급격히 변경하지 않았으므로, 72B 대비 성능 향상은 모델 크기 증가에서 비롯된 것으로 보임

채팅 모델 평가 결과

- MT-Bench와 AlpacaEval 2.0에서 채팅 모델을 테스트함

- 이전에 공개된 72B 모델에 비해 110B는 두 가지 벤치마크 평가에서 현저히 우수한 성능을 보임

- 평가에서의 일관된 개선은 사후 학습 레시피를 크게 변경하지 않더라도 더 강력하고 큰 기본 언어 모델이 더 나은 채팅 모델로 이어질 수 있음을 나타냄

결론

- Qwen1.5-110B는 Qwen1.5 시리즈 중 가장 큰 모델이며, 시리즈 중 첫 번째로 1000억 개 이상의 매개변수를 가진 모델임

- 최근 공개된 SOTA 모델인 Llama-3-70B와 경쟁력 있는 성능을 보여주며, 72B 모델보다 크게 우수함

- 이는 더 나은 성능을 위해 모델 크기 확장에 여전히 많은 가능성이 있음을 나타냄

- Llama-3의 공개는 데이터를 극도로 큰 규모로 확장하는 것의 중요성을 보여주지만, 향후 공개에서 데이터와 모델 크기를 모두 확장하여 두 세계의 장점을 모두 얻을 수 있을 것이라 믿음

고정닉 6

원본 첨부파일 1

스크린샷 2024-04-29 122602.png

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2864	설문	비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는?	운영자	24/06/03	-	-
412470	공지	레이 커즈와일 신간 6월 25일 발매 [29]	모브	24.01.24	8095	34
242613	공지	특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [3105]	*특갤용*	23.08.06	39535	43
433260	공지	웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [2]	*부패하는유전자!!!*	24.03.06	2609	2
363220	공지	선형글 삭제 기준 [7]	*특갤용*	23.10.14	7294	24
375493	공지	필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40]	ㅇㅇ(182.230)	23.11.11	13443	122
373402	공지	직업 비하, 조롱 글 30일 차단됩니다. [51]	*특갤용*	23.11.07	8997	79
385147	공지	구글의 AGI 분류 체계 [17]	ㅇㅇ	23.11.22	8451	31
332612	공지	음모론 삭제 기준을 안내드립니다. [23]	*특갤용*	23.08.25	9207	30
259237	공지	특갤 용어 모음집 [6]	*특갤용*	23.08.09	22807	33
485779	일반	저번에 90일동안 모델 점검한다고 했음 [1]	ㅇㅇ(119.64)	16:55	22	0
485778	일반	요새LLM중에 코딩 젤 잘해주는게 어떤거임? [2]	ㅇㅇ(61.81)	16:52	17	0
485777	일반	의사 정치적 파워가 지금 텍시기사보다 못하지 [5]	ㅇㅇ(175.208)	16:50	40	0
485776	일반	아직 구글 워크스페이스에서 gemini 못쓰지?	ㅇㅇ(220.95)	16:44	19	0
485775	일반	wwdc 좀 빨리 했으면 좋겠다.	ㅇㅇ(118.223)	16:43	18	0
485774	일반	한국이 의사 대체 ai가한다고??ㅋㅋ제일늦을거다 [2]	ㅇㅇ(115.138)	16:42	69	1
485773	일반	미용사 헬스트레이너 왁싱사 해라 [1]	ㅇㅇ(112.159)	16:33	71	0
485772	일반	몇 년 동안 선형충들 뚝배기 깨지고 난동 피울 거 생각하면 [2]	ㅇㅇ(61.108)	16:29	108	0
485771	일반	주4일제부터 빨리 해야됨 [2]	ㅇㅇ	16:29	62	0
485770	일반	멍청해서 화가난다 [3]	ㅇㅇ(59.22)	16:20	148	0
485769	일반	오늘 새벽에 안나오면 오픈ai 줄빠따간다 [2]	ㅇㅋ	16:17	100	0
485768	일반	한 5년뒤에 태어나는 애들은 전부 영어 개잘하겠네 [4]	ㅇㅇ(222.102)	16:05	185	0
485767	일반	카운트다운계정 물어봄 [5]	ㅇㅇ(119.64)	15:50	294	0
485766	일반	지금2학년인데 나 취업할시기에 대체되면 그것도	ㅇㅇ(220.89)	15:49	82	0
485765	일반	ai 비서 추천좀 [2]	FISC	15:45	86	0
485764	일반	한국은 의료쪽 ai로 대체속도 빠를 것 같긴함 [8]	ㅇㅇ(211.184)	15:44	162	2
485763	일반	지금 공부잘하는애들 의대가는거 실수아닐까 [15]	ㅇㅇ(118.36)	15:39	312	4
485762	일반	기2본소득이 너무 정치적으로만 소비돼서 안타까움 [7]	lightvector	15:36	227	1
485761	일반	메스가키 음성으로 해봤는데 [1]	ㅇㅇ(110.11)	15:36	119	0
485760	일반	챗gpt가 혁신인게 돈이 되는게 혁신같다	chatgpt4o	15:36	68	0
485759	일반	왜 보이스 모델이랑 4.5 따로 공개하냐고 ㅋㅋ	ㅇㅇ(119.64)	15:34	112	0
485757	일반	내가 누누히 말했다 ㅋ [3]	ㅇㅇ(39.124)	15:30	183	0
485755	일반	프로그램 설계 할줄 알면 당연히 gpt로 혼자 북치고 장구치고 가능	ㅇㅇ(121.186)	15:25	72	0
485754	정보/ 정보/뉴스	사우디, 中 AI 스타트업에 4억달러 투자 [3]	lightvector	15:18	141	0
485753	정보/ 정보/뉴스	"항소심 승소 가능성은…" AI가 판례 참고해 5초만에 답변	lightvector	15:16	125	0
485752	정보/ 정보/뉴스	인공지능이 특허출원 가능할까…대법원에서 판단 [1]	lightvector	15:14	100	0
485751	일반	난 오늘 밤샐거임 ㅎㅎ 새벽 3시 가즈아~ [4]	흑등고래	15:13	214	0
485750	일반	4o은 쓰면 쓸수록 애가 맛탱이가 가버리네 ㅋㅋ [5]	ㅇㅇ(106.247)	15:09	174	0
485748	일반	gpt로 gemini 유튜브 요약 확장프로그램 만들었음 [2]	ㅇㅇ	15:04	151	0
485747	일반	역노화가 축복일까?? [7]	ㅇㅇ(223.33)	15:02	121	0
485746	일반	구독했는데 왜 4o 안되냐고 [3]	ㅇㅇ(118.32)	15:02	142	0
485745	일반	4년자 IT 개발자에 있어서 AI이후 많이 변했음 [14]	ㅇㅇ(218.157)	14:59	402	10
485744	일반	선형충들 듣실대노 ㅅㅂ [1]	noosphere	14:59	72	2
485743	일반	나라가 돈을 뿌리는게 아니라 부자들이 돈을 뿌려야한다 ㅇㅇ [6]	ㅇㅇ(219.248)	14:55	111	0
485742	일반	gpt 구독했는데 아직도 3.5야 [3]	ㅇㅇ(118.32)	14:54	106	0
485741	일반	그래서 당뇨완치 언제됨? [4]	ㅇㅇ(220.127)	14:36	111	0
485740	정보/ 정보/뉴스	올해는 에이전트의 해이다	친근한게이브	14:34	133	0
485739	일반	문과는 경영, 부동산학과 가는게 답이야? [6]	ㅇㅇ(183.96)	14:33	125	0
485738	일반	AI 규제 어쩌고 하는말이 얼척이 없는게 [2]	ㅇㅇ(1.224)	14:24	129	1
485737	일반	인류의 기술 전반이 정체되어가던중에 AI가 마지막 희망이었는데 [4]	ㅇㅇ(175.211)	14:22	196	0
485736	일반	드디어 AI시대가 왔다고 엄마아빠한테 [5]	ㅇㅇ(211.55)	14:17	257	0