디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] (번역) 레딧 Quiet-STaR 논문 요약

초존도초갤로그로 이동합니다. 2024.03.15 20:08:46
조회 429 추천 10 댓글 4
														


1ebec223e0dc2bae61ab96e74683707026f04aff851be72e495391d8306c314770be0033b154ef25bfdc9e72ef4c9ab13d2ec10f



레딧에 있는 거 번역만 함






Gemini 1.5 Pro


Quiet-STaR의 주요 특징:


LLM의 추론 능력 향상: Quiet-STaR은 LLM이 다음 토큰을 예측하기 전에 내부 추론(생각)을 생성하도록 훈련하여 추론이 필요한 작업에서 성능을 향상시킵니다.

다양한 텍스트로부터 학습: Quiet-STaR은 큐레이션된 데이터 세트에 의존하는 이전 방법과 달리 일반 텍스트 데이터에 내재된 방대한 추론을 활용하여 더 확장 가능하고 일반적인 추론 능력을 가능하게 합니다.

병렬 추론 생성: 새로운 병렬 샘플링 알고리즘은 각 토큰 위치에서 추론을 효율적으로 생성하여 훈련 과정을 확장 가능하게 만듭니다.

혼합 헤드: 추론이 있는 예측과 없는 예측 사이의 학습된 보간은 사고로의 전환을 부드럽게 하고 분포 변화를 완화합니다.

비근시적 점수: 모델은 다음 토큰뿐만 아니라 후속 토큰도 예측하는 능력에 따라 보상을 받아 더 효과적인 추론 생성으로 이어집니다.

향상된 성능: Quiet-STaR은 CommonsenseQA 및 GSM8K와 같은 추론 중심 데이터 세트에서 상당한 제로샷 개선을 보여주며, 성능은 내부 생각의 길이에 따라 확장됩니다.


미래 LLM에 대한 시사점:


향상된 추론 능력: Quiet-STaR은 GPT-5 및 Gemini 2.0과 같은 미래 LLM이 일반 텍스트 데이터를 활용하고 내부 추론을 생성하여 더 효과적으로 추론하도록 훈련될 수 있음을 시사합니다. 이는 질문 답변, 문제 해결 및 텍스트 요약과 같이 복잡한 추론이 필요한 다양한 작업에서 더 나은 성능으로 이어질 수 있습니다.

비정형 데이터로부터 학습: 다양하고 비정형적인 텍스트로부터 학습하는 능력은 추론 데이터 세트의 비용이 많이 들고 시간이 많이 소요되는 수동 주석의 필요성을 줄일 수 있습니다. 이는 강력한 추론 기술을 갖춘 LLM 개발을 가속화할 수 있습니다.

동적 사고 생성: 미래 연구에서는 내부 생각을 생성하는 것이 가장 유익할 때를 예측하여 컴퓨팅 리소스의 동적 할당을 탐구할 수 있습니다. 이는 강력한 추론 성능을 유지하면서 LLM의 효율성을 향상시킬 수 있습니다.

윤리적 고려 사항: LLM이 추론 능력이 향상됨에 따라 충실성(생성된 추론이 모델의 내부 처리를 정확하게 나타내도록 보장) 및 편향(유해하거나 편향된 추론 패턴 방지)과 같은 윤리적 문제를 해결하는 것이 점점 더 중요해지고 있습니다.

전반적으로 Quiet-STaR은 미래 LLM을 더 효과적이고 효율적으로 추론하도록 훈련하는 유망한 접근 방식을 제공하여 더 강력하고 다재다능한 언어 모델의 길을 열어줍니다. 그러나 이러한 모델의 책임 있는 개발 및 배포를 보장하기 위해 향상된 추론 능력과 관련된 윤리적 문제를 해결하는 것이 중요합니다.



Claude 3 Opus


"Quiet-STaR: 언어 모델이 스스로 생각하고 말하는 법을 배우다" 논문의 주요 내용 요약:


Quiet-STaR은 Self-Taught Reasoner (STaR)의 일반화 버전으로, 언어 모델이 미래 텍스트를 설명하기 위해 각 토큰에서 근거를 생성하도록 훈련하여 예측을 향상시킵니다. 이를 통해 LM은 임의의 텍스트에서 명시되지 않은 근거를 추론하는 방법을 학습할 수 있습니다. 주요 단계는 다음과 같습니다. 1) 병렬 근거 생성 ("생각"), 2) 근거 후 예측과 기본 예측 혼합 ("말하기"), 3) REINFORCE를 사용한 근거 생성 최적화 ("학습").


Quiet-STaR을 사용하여 웹 텍스트에 대한 사전 훈련을 계속한 후, GSM8K (5.9%→10.9%) 및 CommonsenseQA (36.3%→47.2%)와 같은 추론 벤치 마크에서 작업별 미세 조정 없이도 제로샷 향상이 나타났습니다. 성능은 훈련 중 생성된 근거의 길이에 따라 확장되었습니다. Quiet-STaR은 더 많은 추론이 필요한 어려운 토큰을 예측하는 LM의 능력을 불균형적으로 향상시켰습니다. 생성된 근거는 검사 시 종종 의미가 있었습니다.


이 접근 방식은 LM이 언어/텍스트 자체에 존재하는 다양한 추론 작업을 활용하여 보다 일반적이고 확장 가능한 방식으로 추론하는 방법을 학습할 수 있도록 합니다.

만약 Quiet-STaR과 유사한 시스템이 가상의 Claude 4와 같은 미래의 대규모 언어 모델에 통합된다면, 주요 영향은 다음과 같을 것입니다.


작업별 미세 조정 없이 모델의 일반적인 추론 및 추론 능력의 상당한 향상.

여러 단계의 논리적 추론이 필요한 복잡한 쿼리를 처리하는 모델의 능력 향상.

질문 답변, 분석, 개방형 문제 해결 등 암묵적 추론에 의존하는 다운스트림 추론 벤치 마크 및 실제 작업 성능 향상.

모델의 "말하기 전에 생각하는" 능력 향상으로 출력물의 신뢰성과 유용성 향상.


모델이 최종 출력을 생성하기 전에 추론 과정을 밝혀주는 중간 근거를 생성하기 때문에 해석성 및 투명성 향상. 이는 사용자 신뢰를 높이고 더 쉬운 디버깅을 가능하게 합니다.

모델이 다음 토큰을 예측하기 위해 추가 "사고"가 실제로 필요한 시기를 알 수 있기 때문에 추론 중 컴퓨팅 사용 효율성 향상. 근거는 가장 유익한 경우에만 생성될 수 있습니다.

비구조적 텍스트에 대한 훈련만으로 이미 강력한 모델의 추론 능력을 비지도 방식으로 더욱 확장할 수 있는 잠재력. 이 자기 지도 "추론 학습" 패러다임은 LLM을 더 지능적이고 유능하게 만드는 데 빠른 진전을 가져올 수 있습니다.




자동등록방지

추천 비추천

10

고정닉 6

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2858 설문 SNS로 싸우면 절대 안 질 것 같은 고집 있는 스타는? 운영자 24/05/06 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [24] 모브갤로그로 이동합니다. 24.01.24 5431 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2829] 특갤용갤로그로 이동합니다. 23.08.06 36861 41
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 1800 2
363220 공지 선형글 삭제 기준 [6] 특갤용갤로그로 이동합니다. 23.10.14 6375 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 12090 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [50] 특갤용갤로그로 이동합니다. 23.11.07 8128 79
385147 공지 구글의 AGI 분류 체계 [15] ㅇㅇ갤로그로 이동합니다. 23.11.22 7268 30
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 8291 29
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 21539 33
464863 일반 장문글)내가 특이점을 기다리는 이유...txt ㅇㅇ(1.238) 21:02 7 1
464862 일반 노동대체 될거라면 지금 오히려 더 열심히 노력해야지 ㅇㅇ갤로그로 이동합니다. 21:01 5 0
464861 일반 이 친구야 영어로 질문해서 코드 구현좀 해달라고 질문했더니 ㅆㅇㅆ(124.216) 20:56 23 0
464860 일반 뽑기 ㅁㅌㅊ ㅇㅇ(59.15) 20:55 35 0
464859 일반 오랫만에 왔는데 기분 좋아보이네 ㅇㅇ갤로그로 이동합니다. 20:53 14 0
464858 일반 스파게티 코드, 한글충 [2] 탈조선갤로그로 이동합니다. 20:52 41 0
464857 일반 also gpt2에게 ㄱ/ㅂ소득 물어봤음 ㅇㅇ(116.37) 20:50 29 1
464856 일반 구글 io에 뭐나올까 [1] ㅇㅇ갤로그로 이동합니다. 20:49 10 0
464855 정보 레인보우로보틱스 자율주행 휴머노이드 로봇 RB-Y1 판매. ㅇㅇ(222.234) 20:46 28 0
464854 일반 얘들아 근데 진짜 공부 의미있냐? [7] ㅇㅇ갤로그로 이동합니다. 20:40 124 0
464853 일반 ai기술 체감되는건 알파폴드가 no1이냐 ㅇㅇ(210.106) 20:39 32 0
464852 일반 근데 GPT 생각보다 코딩 질문 원활하지 못하던데 [8] ㅆㅇㅆ(124.216) 20:38 76 0
464851 정보 글로벌 기업 10곳 중 6곳 “업무자동화에 이미 생성형 AI 도입 [1] ㅇㅇ갤로그로 이동합니다. 20:32 69 1
464850 일반 정신병자에 이상한 사람들 많음 [3] ㅇㅇ갤로그로 이동합니다. 20:28 106 0
464848 일반 Also랑 good 둘다 같은 모델이지 ㅇㅇ(124.216) 20:22 38 0
464847 일반 클라우드 챗봇과 로컬 챗봇 차이가 뭔가요? [3] haryhary888(59.22) 20:19 40 0
464846 일반 그래서 also gpt2 [1] ㅇㅇ(120.142) 20:18 61 0
464845 일반 야 im good 모델은 어디서쓰냐 [5] ㅇㅇ(124.216) 20:16 54 0
464844 일반 여기에 좀 정신적으로 이상한 사람들 많음 [9] ㅇㅇ(121.128) 20:15 174 1
464843 일반 이해가 안되네 [1] 탈조선갤로그로 이동합니다. 20:13 59 0
464842 일반 7900gre로도 라마3 돌릴수 있음?? [1] ㅇㅇ(222.117) 20:13 32 0
464841 일반 제미나이 1.5 울트라 언제 출시할까 ㅇㅇ(61.254) 20:11 24 0
464840 일반 난 얀르쿤 좋은데 [1] ㅇㅇ(115.139) 20:07 32 0
464839 일반 연습) GPT6 언제 출시하냐 오픈AI 그럴 줄 알았다 ㅇㅇ갤로그로 이동합니다. 20:06 61 0
464838 일반 이갤에 정신병자들 많음 [1] ㅇㅇ(39.123) 20:05 107 1
464837 일반 단가 안나오는 일에 ai쓰면안된다 탈조선갤로그로 이동합니다. 20:03 48 0
464836 일반 난 클로드만 해도 이미 이득보는중 ㅇㅇ(121.132) 19:54 91 0
464835 정보 뉴럴링크 "첫 칩 이식환자 문제 발생...현재는 원상복귀" [2] ㅇㅇ(182.230) 19:50 246 1
464834 정보 오픈AI, 모델 사양 첫 공개..."개방성 지속 확대할 것" [1] ㅇㅇ(182.230) 19:47 214 0
464833 일반 내가 얀르쿤을 좆같아 하는 이유 [1] ㅇㅇ(58.29) 19:47 98 0
464831 일반 gpt5 그냥 성능만 좀 좋아진 수준이면 어떻게 되냐 [6] ㅇㅇ(211.197) 19:36 155 0
464830 일반 GPT-5 출시하면 도파민 흥분 며칠 갈거 같냐? [9] xdxd333갤로그로 이동합니다. 19:31 280 0
464829 일반 대학교 과를 정할때 특이점을 고려해야되나 [8] 브레레갤로그로 이동합니다. 19:30 139 0
464828 일반 ㅌㅇㅈ ㅈㅂ 202ㅇㅊ [6] 포스트휴먼.갤로그로 이동합니다. 19:30 63 1
464827 일반 내일 검색엔진은 안나옵니다. ㅇㅇ(183.105) 19:25 79 0
464826 일반 하사비스"알파폴드는 막대한 상업적 가치를 창출할 수 있다" ㅇㅇ갤로그로 이동합니다. 19:23 134 3
464825 일반 4년전 특념글 [15] agi2024갤로그로 이동합니다. 19:21 263 3
464823 일반 특붕이들은 ai로 사업할 생각 없음? [10] 탈조선갤로그로 이동합니다. 19:15 162 0
464822 일반 아무리 토큰을 늘려도 [4] ㅇㅇ(125.134) 19:10 128 0
464821 일반 임마는 뭐냐? [1] 일빠갤로그로 이동합니다. 19:06 109 0
464820 일반 I'm a good GPT2가 GPT4-Lite가 맞다면 [5] ㅇㅇ(121.124) 19:03 232 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2