디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 메타도 '트랜스포머'에 도전...컨텍스트 창 확장가능한 ‘메갈로돈’ 출시

ㅇㅇ(182.230) 2024.04.19 19:41:54
조회 118 추천 1 댓글 3
														

https://www.aitimes.com/news/articleView.html?idxno=158958

 



7ce8887fb08a07f739ee87e442ee776dba36fe70eaabfa853376ec77e5cd8be12097



메타가 입력 데이터가 커질수록 추론이 느려지고 메모리 공간이 많이 필요한 '트랜스포머' 아키텍처의 약점을 보완한 새로운 대형언어모델(LLM)을 공개했다.


벤처비트는 18일(현지시간) 메타와 미국 남가주 대학(USC) 연구진이 막대한 양의 메모리를 요구하지 않고도 컨텍스트 창을 수백만개의 토큰으로 확장 가능한 LLM ‘메갈로돈(Megalodon)’에 관한 논문을 온라인 아카이브에 게재했다고 전했다.


'챗GPT'나 '제미나이' 등 LLM에 사용되는 트랜스포머 아키텍처는 컨텍스트 창이 커짐에 따라 필요한 메모리와 계산 시간이 기하급수적으로 증가하는 단점이 있다. 예를 들어, 입력 크기를 토큰 1000개에서 2000개로 확장하면 입력을 처리하는 데 필요한 메모리와 계산 시간이 두배가 아닌 네배로 늘어나게 된다. 이는 텍스트 내 토큰들의 상관관계를 밝혀내기 위해 입력 정보를 병렬로 처리하는 '어텐션 메커니즘' 때문이다.


메갈로돈은 2022년에 처음 발표된 '메가(MEGA)' 기술을 기반으로 구축됐다. 메가는 모델의 복잡성을 크게 줄이는 방식으로, 어텐션 메커니즘을 수정하여 LLM이 메모리 및 계산 요구 사항을 폭발시키지 않고도 더 긴 입력을 처리할 수 있게 한다.


메갈로돈은 입력 시퀀스를 고정 크기 블록으로 나누어 모델 복잡도를 선형으로 줄이는 '청크별 어텐션(chunck-wise attention)'으로 메가를 개선했다. 청크별 어텐션을 사용하면 모델 학습 속도도 크게 향상된다.



7ce8887fb08a07f739ee87e443ee776d04e198c9a344d8bb006b981c831d527907



연구진에 따르면 2조 토큰의 데이터셋으로 훈련한 70억 매개변수의 메갈로돈-7B 모델은 '라마-2-7B' 및 '13B' 등과의 벤치마크에서 앞선 성능을 기록했다. 훈련 복잡성과 다운스트림 벤치마크에서 라마 2-7B보다 훨씬 뛰어난 성능을 기록했으며 일부 작업에서는 라마-2-13B와 동등한 성능을 보였다.


또 4000 토큰 컨텍스트 창에서 메갈로돈은 라마-2보다 약간 느리지만 3만2000 토큰으로 컨텍스트 길이를 확장하면 메갈로돈이 계산 효율성 때문에 라마-2를 크게 앞서는 것으로 나타났다. 긴 컨텍스트 모델링에 대한 실험 결과 메갈로돈이 무제한 길이의 시퀀스를 모델링할 수 있음을 시사한다고 주장했다.


현재 메갈로돈은 깃허브에서 제한 없이 상업적 목적으로 무료 사용 가능하다.


한편 4월에만 트랜스포머 아키텍처의 약점을 보완하기 위한 새로운 기술이 잇달아 공개되고 있다. 


이스라엘 스타트업 AI21 랩스는 SSM을 기반으로 하는 ‘맘바(Mamba)’와 트랜스포머 아키텍처의 최고의 특성을 결합한 LLM ‘잠바(Jamba)’를 출시했다. 구글은 이번 주 LLM 컨텍스트 창 길이를 무한확장할 수 있는 ‘인피니-어텐션(Infini-attention)’ 기술을 공개했다.


이 외에도 스타트업 심볼리카는 트랜스포머 아키텍처에 기반한 LLM을 실행하는데 많은 비용이 드는 문제를 해결하기 위해 기호(Symbols)를 조작해 작업을 정의하는 ‘심볼릭 AI(Symbolic AI)’ 기법을 도입했다.


자동등록방지

추천 비추천

1

고정닉 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [3136] 특갤용갤로그로 이동합니다. 23.08.06 39962 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [2] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2725 2
363220 공지 선형글 삭제 기준 [7] 특갤용갤로그로 이동합니다. 23.10.14 7446 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 13632 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [51] 특갤용갤로그로 이동합니다. 23.11.07 9100 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8625 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 9333 30
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 8238 34
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22998 33
488165 일반 항상 정치인이 문제임 ㅇㅇ(125.191) 18:32 2 0
488164 일반 그래도 6월에 갤주 신간 나오니까 좋다 천사다천사갤로그로 이동합니다. 18:31 1 0
488163 일반 가상현실에 대해 생각하다가 문득 궁금해짐 [1] ㅇㅇ(121.149) 18:29 11 0
488162 일반 2029 agi도 사실상 엄청나게 희망찬 예측인데 ㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 18:28 25 0
488161 일반 6월6일에 뭐 큰 거 온다면서 왔어? [1] ㅇㅇ(220.123) 18:26 31 0
488160 일반 구독료 상승되면 기존 구독자들은 가격 유지했으면 좋겠다 [1] ㅇㅇ(39.125) 18:24 24 0
488159 일반 agi가 나오는 2075년은 어떤 느낌일까 [1] ㅇㅇ(118.235) 18:22 21 1
488158 일반 2029년 agi는 그냥 gpt8이라고 생각하면 될거같은데 ㅇㅇ(114.200) 18:22 24 0
488157 정보/ 미국 캘리포니아주 의회 새 AI규제 법안 발의…실리콘밸리 “혁신 억압” ㅇㅇ(125.191) 18:22 31 0
488156 일반 뭐야 쭈식 투자 자랑글 삭제된건가? [1] ㅇㅇ(218.147) 18:21 27 0
488155 일반 a few weeks 라매 트만아... [1] ㅇㅇ(121.128) 18:16 30 0
488152 일반 뤼튼 근데 악의적 비방이 아니라 ㅇㅇ(116.123) 18:07 67 0
488151 일반 현생사는 사람들 대부분은 선형충임 [7] ㅇㅇ(106.101) 18:04 128 0
488150 일반 식주.충들 역겨우면 개추ㅋㅋ [1] ㅇㅇ(106.101) 18:03 76 0
488149 일반 연구 성과의 발전은 축적의 역사지 급진적인건 거의 없었음 ㅇㅇ(112.161) 18:01 32 0
488148 일반 암을 극복할 기술이 생기면 역노화도 나옴? ㅇㅇ(116.37) 17:59 30 0
488147 일반 노동대체는 직업 가진 사람만 좆되는게 아니다 [15] 특붕1갤로그로 이동합니다. 17:55 122 0
488146 일반 파딱님 중식투자 이야기하는 글 다 처냅시다 [3] ㅇㅇ(218.147) 17:54 61 1
488145 일반 [뇌피셜 찌라시] 뇌피셜 찌라시 싹다 조합한 가장 일리있는 예측 [9] ㅇㅇ(221.167) 17:52 138 3
488144 일반 뤼튼 악의적 비방글 법적대응 고려 [5] gpt교주갤로그로 이동합니다. 17:48 197 1
488143 일반 이새끼들은 걍 학습능력이 없음 [1] ㅇㅇ갤로그로 이동합니다. 17:46 114 0
488142 일반 4주까지 3일 남았는데 이새끼들 구라친거 맞냐 [3] ㅇㅇ(49.175) 17:43 100 0
488141 일반 분탕 선형충들은 사실 다 불안한 특붕이들임 [5] 비좀와라갤로그로 이동합니다. 17:43 96 0
488140 AI창 [UDIO] 윈도우 시작음으로 만든 노래 [4] ㅇㅇ(221.167) 17:41 129 5
488139 일반 오늘 선형쯍쯍이들 추함 역대급이긴 하네 ㅇㅇ갤로그로 이동합니다. 17:40 85 0
488138 일반 애초에 2029년 AGI도 전혀 근거 없는 소리 아님? [24] ㅇㅇ갤로그로 이동합니다. 17:38 282 0
488137 일반 내년 ㅋㅋㅋㅋㅋ 시발련 ㅋㅋㅋ ㅇㅇ(112.158) 17:36 82 0
488136 일반 이거 합법임? [10] ㅇㅇ(112.165) 17:31 145 0
488135 일반 특붕이들 살짝 다운된 거 같아서 안쓰럽노 [1] 트라야누스(14.32) 17:29 112 0
488134 일반 싹다노동시켜 [1] ㅇㅇ갤로그로 이동합니다. 17:28 53 0
488133 일반 클로드 개좆같네 이거 [3] ㅇㅇ(1.229) 17:26 148 0
488132 일반 덕덕고 챗 출시 ㄷㄷ [2] ㅇㅇ(182.209) 17:22 145 0
488131 일반 일레븐랩스 념글보고 속았다... [3] ㅇㅇ(220.79) 17:22 95 0
488130 일반 그냥 배아프다고 하면 될걸... ㅇㅇ갤로그로 이동합니다. 17:21 58 0
488129 일반 대르쿤 방식은 그냥 나오면 넘버링이 필요없지 [1] ㅇㅇ(14.42) 17:16 61 1
488128 일반 agi이전에 이것부터좀 나왔으면 [9] ㅇㅇ(112.165) 17:16 71 0
488127 역노화 근데 역노화 나와서 영생 누리면 가치관 변화 이런건 잘 없을듯... [2] ㅇㅇ갤로그로 이동합니다. 17:13 81 0
488126 일반 왜 거품론자들은 숏 타이밍 운운하면서 안살까 [15] ㅇㅇ갤로그로 이동합니다. 17:11 185 3
488125 일반 아니 어떻게 매형이 교수인데 디시까지함?? [2] ㅇㅇ(115.40) 17:09 178 0
488124 일반 매형이 교수인데 디씨하더라 ㅋㅋㅋ [6] A.I.갤로그로 이동합니다. 16:59 291 2
488123 일반 코랩진짜개열받네 ㅇㅇ(112.165) 16:58 51 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2