(번역) 레딧 Quiet-STaR 논문 요약 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 부재중입니다.(hnn12) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] (번역) 레딧 Quiet-STaR 논문 요약

초존도초

2024.03.15 20:08:46

조회 429 추천 10 댓글 4

1ebec223e0dc2bae61ab96e74683707026f04aff851be72e495391d8306c314770be0033b154ef25bfdc9e72ef4c9ab13d2ec10f

레딧에 있는 거 번역만 함

Gemini 1.5 Pro

Quiet-STaR의 주요 특징:

LLM의 추론 능력 향상: Quiet-STaR은 LLM이 다음 토큰을 예측하기 전에 내부 추론(생각)을 생성하도록 훈련하여 추론이 필요한 작업에서 성능을 향상시킵니다.

다양한 텍스트로부터 학습: Quiet-STaR은 큐레이션된 데이터 세트에 의존하는 이전 방법과 달리 일반 텍스트 데이터에 내재된 방대한 추론을 활용하여 더 확장 가능하고 일반적인 추론 능력을 가능하게 합니다.

병렬 추론 생성: 새로운 병렬 샘플링 알고리즘은 각 토큰 위치에서 추론을 효율적으로 생성하여 훈련 과정을 확장 가능하게 만듭니다.

혼합 헤드: 추론이 있는 예측과 없는 예측 사이의 학습된 보간은 사고로의 전환을 부드럽게 하고 분포 변화를 완화합니다.

비근시적 점수: 모델은 다음 토큰뿐만 아니라 후속 토큰도 예측하는 능력에 따라 보상을 받아 더 효과적인 추론 생성으로 이어집니다.

향상된 성능: Quiet-STaR은 CommonsenseQA 및 GSM8K와 같은 추론 중심 데이터 세트에서 상당한 제로샷 개선을 보여주며, 성능은 내부 생각의 길이에 따라 확장됩니다.

미래 LLM에 대한 시사점:

향상된 추론 능력: Quiet-STaR은 GPT-5 및 Gemini 2.0과 같은 미래 LLM이 일반 텍스트 데이터를 활용하고 내부 추론을 생성하여 더 효과적으로 추론하도록 훈련될 수 있음을 시사합니다. 이는 질문 답변, 문제 해결 및 텍스트 요약과 같이 복잡한 추론이 필요한 다양한 작업에서 더 나은 성능으로 이어질 수 있습니다.

비정형 데이터로부터 학습: 다양하고 비정형적인 텍스트로부터 학습하는 능력은 추론 데이터 세트의 비용이 많이 들고 시간이 많이 소요되는 수동 주석의 필요성을 줄일 수 있습니다. 이는 강력한 추론 기술을 갖춘 LLM 개발을 가속화할 수 있습니다.

동적 사고 생성: 미래 연구에서는 내부 생각을 생성하는 것이 가장 유익할 때를 예측하여 컴퓨팅 리소스의 동적 할당을 탐구할 수 있습니다. 이는 강력한 추론 성능을 유지하면서 LLM의 효율성을 향상시킬 수 있습니다.

윤리적 고려 사항: LLM이 추론 능력이 향상됨에 따라 충실성(생성된 추론이 모델의 내부 처리를 정확하게 나타내도록 보장) 및 편향(유해하거나 편향된 추론 패턴 방지)과 같은 윤리적 문제를 해결하는 것이 점점 더 중요해지고 있습니다.

전반적으로 Quiet-STaR은 미래 LLM을 더 효과적이고 효율적으로 추론하도록 훈련하는 유망한 접근 방식을 제공하여 더 강력하고 다재다능한 언어 모델의 길을 열어줍니다. 그러나 이러한 모델의 책임 있는 개발 및 배포를 보장하기 위해 향상된 추론 능력과 관련된 윤리적 문제를 해결하는 것이 중요합니다.

Claude 3 Opus

"Quiet-STaR: 언어 모델이 스스로 생각하고 말하는 법을 배우다" 논문의 주요 내용 요약:

Quiet-STaR은 Self-Taught Reasoner (STaR)의 일반화 버전으로, 언어 모델이 미래 텍스트를 설명하기 위해 각 토큰에서 근거를 생성하도록 훈련하여 예측을 향상시킵니다. 이를 통해 LM은 임의의 텍스트에서 명시되지 않은 근거를 추론하는 방법을 학습할 수 있습니다. 주요 단계는 다음과 같습니다. 1) 병렬 근거 생성 ("생각"), 2) 근거 후 예측과 기본 예측 혼합 ("말하기"), 3) REINFORCE를 사용한 근거 생성 최적화 ("학습").

Quiet-STaR을 사용하여 웹 텍스트에 대한 사전 훈련을 계속한 후, GSM8K (5.9%→10.9%) 및 CommonsenseQA (36.3%→47.2%)와 같은 추론 벤치 마크에서 작업별 미세 조정 없이도 제로샷 향상이 나타났습니다. 성능은 훈련 중 생성된 근거의 길이에 따라 확장되었습니다. Quiet-STaR은 더 많은 추론이 필요한 어려운 토큰을 예측하는 LM의 능력을 불균형적으로 향상시켰습니다. 생성된 근거는 검사 시 종종 의미가 있었습니다.

이 접근 방식은 LM이 언어/텍스트 자체에 존재하는 다양한 추론 작업을 활용하여 보다 일반적이고 확장 가능한 방식으로 추론하는 방법을 학습할 수 있도록 합니다.

만약 Quiet-STaR과 유사한 시스템이 가상의 Claude 4와 같은 미래의 대규모 언어 모델에 통합된다면, 주요 영향은 다음과 같을 것입니다.

작업별 미세 조정 없이 모델의 일반적인 추론 및 추론 능력의 상당한 향상.

여러 단계의 논리적 추론이 필요한 복잡한 쿼리를 처리하는 모델의 능력 향상.

질문 답변, 분석, 개방형 문제 해결 등 암묵적 추론에 의존하는 다운스트림 추론 벤치 마크 및 실제 작업 성능 향상.

모델의 "말하기 전에 생각하는" 능력 향상으로 출력물의 신뢰성과 유용성 향상.

모델이 최종 출력을 생성하기 전에 추론 과정을 밝혀주는 중간 근거를 생성하기 때문에 해석성 및 투명성 향상. 이는 사용자 신뢰를 높이고 더 쉬운 디버깅을 가능하게 합니다.

모델이 다음 토큰을 예측하기 위해 추가 "사고"가 실제로 필요한 시기를 알 수 있기 때문에 추론 중 컴퓨팅 사용 효율성 향상. 근거는 가장 유익한 경우에만 생성될 수 있습니다.

비구조적 텍스트에 대한 훈련만으로 이미 강력한 모델의 추론 능력을 비지도 방식으로 더욱 확장할 수 있는 잠재력. 이 자기 지도 "추론 학습" 패러다임은 LLM을 더 지능적이고 유능하게 만드는 데 빠른 진전을 가져올 수 있습니다.

고정닉 6

원본 첨부파일 1

Screenshot 2024-03-15 at 8.08.30 PM.png

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2858	설문	SNS로 싸우면 절대 안 질 것 같은 고집 있는 스타는?	운영자	24/05/06	-	-
412470	공지	레이 커즈와일 신간 6월 25일 발매 [24]	모브	24.01.24	5431	32
242613	공지	특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2829]	*특갤용*	23.08.06	36861	41
433260	공지	웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1]	*부패하는유전자!!!*	24.03.06	1800	2
363220	공지	선형글 삭제 기준 [6]	*특갤용*	23.10.14	6375	24
375493	공지	필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40]	ㅇㅇ(182.230)	23.11.11	12090	122
373402	공지	직업 비하, 조롱 글 30일 차단됩니다. [50]	*특갤용*	23.11.07	8128	79
385147	공지	구글의 AGI 분류 체계 [15]	ㅇㅇ	23.11.22	7268	30
332612	공지	음모론 삭제 기준을 안내드립니다. [23]	*특갤용*	23.08.25	8291	29
259237	공지	특갤 용어 모음집 [6]	*특갤용*	23.08.09	21539	33
464863	일반	장문글)내가 특이점을 기다리는 이유...txt	ㅇㅇ(1.238)	21:02	7	1
464862	일반	노동대체 될거라면 지금 오히려 더 열심히 노력해야지	ㅇㅇ	21:01	5	0
464861	일반	이 친구야 영어로 질문해서 코드 구현좀 해달라고 질문했더니	ㅆㅇㅆ(124.216)	20:56	23	0
464860	일반	뽑기 ㅁㅌㅊ	ㅇㅇ(59.15)	20:55	35	0
464859	일반	오랫만에 왔는데 기분 좋아보이네	ㅇㅇ	20:53	14	0
464858	일반	스파게티 코드, 한글충 [2]	탈조선	20:52	41	0
464857	일반	also gpt2에게 ㄱ/ㅂ소득 물어봤음	ㅇㅇ(116.37)	20:50	29	1
464856	일반	구글 io에 뭐나올까 [1]	ㅇㅇ	20:49	10	0
464855	정보	레인보우로보틱스 자율주행 휴머노이드 로봇 RB-Y1 판매.	ㅇㅇ(222.234)	20:46	28	0
464854	일반	얘들아 근데 진짜 공부 의미있냐? [7]	ㅇㅇ	20:40	124	0
464853	일반	ai기술 체감되는건 알파폴드가 no1이냐	ㅇㅇ(210.106)	20:39	32	0
464852	일반	근데 GPT 생각보다 코딩 질문 원활하지 못하던데 [8]	ㅆㅇㅆ(124.216)	20:38	76	0
464851	정보	글로벌 기업 10곳 중 6곳 “업무자동화에 이미 생성형 AI 도입 [1]	ㅇㅇ	20:32	69	1
464850	일반	정신병자에 이상한 사람들 많음 [3]	ㅇㅇ	20:28	106	0
464848	일반	Also랑 good 둘다 같은 모델이지	ㅇㅇ(124.216)	20:22	38	0
464847	일반	클라우드 챗봇과 로컬 챗봇 차이가 뭔가요? [3]	haryhary888(59.22)	20:19	40	0
464846	일반	그래서 also gpt2 [1]	ㅇㅇ(120.142)	20:18	61	0
464845	일반	야 im good 모델은 어디서쓰냐 [5]	ㅇㅇ(124.216)	20:16	54	0
464844	일반	여기에 좀 정신적으로 이상한 사람들 많음 [9]	ㅇㅇ(121.128)	20:15	174	1
464843	일반	이해가 안되네 [1]	탈조선	20:13	59	0
464842	일반	7900gre로도 라마3 돌릴수 있음?? [1]	ㅇㅇ(222.117)	20:13	32	0
464841	일반	제미나이 1.5 울트라 언제 출시할까	ㅇㅇ(61.254)	20:11	24	0
464840	일반	난 얀르쿤 좋은데 [1]	ㅇㅇ(115.139)	20:07	32	0
464839	일반	연습) GPT6 언제 출시하냐 오픈AI 그럴 줄 알았다	ㅇㅇ	20:06	61	0
464838	일반	이갤에 정신병자들 많음 [1]	ㅇㅇ(39.123)	20:05	107	1
464837	일반	단가 안나오는 일에 ai쓰면안된다	탈조선	20:03	48	0
464836	일반	난 클로드만 해도 이미 이득보는중	ㅇㅇ(121.132)	19:54	91	0
464835	정보	뉴럴링크 "첫 칩 이식환자 문제 발생...현재는 원상복귀" [2]	ㅇㅇ(182.230)	19:50	246	1
464834	정보	오픈AI, 모델 사양 첫 공개..."개방성 지속 확대할 것" [1]	ㅇㅇ(182.230)	19:47	214	0
464833	일반	내가 얀르쿤을 좆같아 하는 이유 [1]	ㅇㅇ(58.29)	19:47	98	0
464831	일반	gpt5 그냥 성능만 좀 좋아진 수준이면 어떻게 되냐 [6]	ㅇㅇ(211.197)	19:36	155	0
464830	일반	GPT-5 출시하면 도파민 흥분 며칠 갈거 같냐? [9]	xdxd333	19:31	280	0
464829	일반	대학교 과를 정할때 특이점을 고려해야되나 [8]	브레레	19:30	139	0
464828	일반	ㅌㅇㅈ ㅈㅂ 202ㅇㅊ [6]	포스트휴먼.	19:30	63	1
464827	일반	내일 검색엔진은 안나옵니다.	ㅇㅇ(183.105)	19:25	79	0
464826	일반	하사비스"알파폴드는 막대한 상업적 가치를 창출할 수 있다"	ㅇㅇ	19:23	134	3
464825	일반	4년전 특념글 [15]	agi2024	19:21	263	3
464823	일반	특붕이들은 ai로 사업할 생각 없음? [10]	탈조선	19:15	162	0
464822	일반	아무리 토큰을 늘려도 [4]	ㅇㅇ(125.134)	19:10	128	0
464821	일반	임마는 뭐냐? [1]	일빠	19:06	109	0
464820	일반	I'm a good GPT2가 GPT4-Lite가 맞다면 [5]	ㅇㅇ(121.124)	19:03	232	0