디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] 클로드3 GPQA 벤치결과모바일에서 작성

ㅇㅇ(61.75) 2024.03.11 03:16:11
조회 2815 추천 47 댓글 12
														

GPQA

생물학, 물리학, 화학 분야의 전문가가 작성한 448개의 객관식 문제로 구성된 도전적인 데이터세트

대학원 수준으로 질문이 극도로 어려움

https://arxiv.org/abs/2311.12022



인간

- 해당 분야 박사 학위 전문가 65%.

- 반면 고도로 숙련된 비전문가 검증자는 웹에 대한 무제한 액세스로 평균 30분 이상을 소비했음에도 불구하고 34%의 정확도에 도달했습니다



SOTA AI

- 클로드3 제로샷 50.4% vs GPT-4 34.1%

- 클로드3 Maj@32 5-shot CoT 적용하면 59.5%


* Maj@32: 이 부분은 "Majority at 32"의 약어로 해석될 수 있으며, 특정 조건이나 평가에서 32개 중 다수결을 의미할 수 있습니다. 일반적으로는 특정 기준에 대한 다수의 의견이나 결과를 나타내는 데 사용됩니다.


* 5-shot: "5-shot" 학습은 "few-shot" 학습의 한 예로, 모델이 매우 제한된 예시(이 경우, 5개의 예시)를 사용하여 특정 작업을 학습하는 방법을 말합니다.


* 제로샷: "zero-shot" 학습은 쉽게 말하면 모델이 한 번도 배우지 않은 작업을 학습하는 것을 의미합니다.


* CoT: "Chain of Thought"의 약어로, 모델이 복잡한 문제를 해결하기 위해 중간 단계나 추론 과정을 명시적으로 표현하는 방식을 의미합니다. 이 접근법은 특히 자연어 처리(NLP)나 문제 해결에서 모델이 보다 투명하고 이해하기 쉬운 방식으로 작업을 수행하도록 돕습니다. CoT 접근법은 모델이 추론 과정에서 "생각하는" 단계를 연속적으로 구성하여 문제를 해결하는 데 도움을 줍니다.




MATH

https://arxiv.org/abs/2103.03874


- 고등학생을 위한 경쟁 수학 문제로 구성

- 수학적 문제 해결을 위해 새로운 알고리즘 발전이 필요할 것이라면서 내놓은 벤치마크

- 2021년 6.9% 2025년 50% 예측했었던거



클로드3 제로샷 60.1% vs GPT-4 4-shot 52.9%

Maj@32 4-shot 73.7%

7cea8176b58a6ff136e898a518d6040396187adddfa8878984
자동등록방지

추천 비추천

47

고정닉 13

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 7217 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2974] 특갤용갤로그로 이동합니다. 23.08.06 38381 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2339 2
363220 공지 선형글 삭제 기준 [6] 특갤용갤로그로 이동합니다. 23.10.14 6994 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 13000 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [50] 특갤용갤로그로 이동합니다. 23.11.07 8717 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8074 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 8934 30
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22453 33
480402 일반 ㅌㅇㅈ ㅈㅂ 215ㅇㅊ 포스트휴먼.갤로그로 이동합니다. 17:48 12 1
480401 일반 2030년엔 완몰가에서 놀고 있겠지 람냥갤로그로 이동합니다. 17:43 26 0
480400 일반 로봇의 시대가 온다면.. ㅇㅇ(58.233) 17:40 26 0
480398 일반 한국은 갈라파고스가 아니라 오히려 반대 아닌가 [4] oo(183.91) 17:33 133 2
480397 일반 OpenAI 실시간 음성비서는 순차적으로 배포 예정 [5] ㅇㅇ(112.144) 17:32 166 1
480396 일반 생물체 뇌=새, 인공지능=비행기 이게 맞나? [7] ㅇㅇ(125.143) 17:30 79 0
480395 일반 한국 IT회사들은 오픈소스에 대한 인식이 개판이지. ㅇㅇ(118.235) 17:29 40 2
480394 일반 클로드4가 나오면 g5는 알아서 나옴 ㅇㅇ(175.209) 17:29 33 0
480393 일반 스칼렛요한슨 사건 그냥 '돈내놔'아니냐 [5] ㅇㅇ(211.200) 17:27 107 2
480392 일반 AI로 누구나 3D 모델링을 만들수 있는 세상이 내게 시급하다 [2] ㅇㅇ갤로그로 이동합니다. 17:25 66 0
480391 역노화 근데 난 역노화 보급률이 국가간 차이가 컸으면... [1] ㅇㅇ갤로그로 이동합니다. 17:24 56 0
480390 일반 앞으로 ai 카메라 이마에 심을 것임. [6] 내복맨갤로그로 이동합니다. 17:23 75 2
480389 일반 아직도 부족함.. 방정좀그만 떨었으면 [3] ㅇㅇ(76.38) 17:22 56 1
480388 일반 gpt5 곧 출시할려는거 같다 [1] ㅇㅇ(218.154) 17:19 142 0
480387 일반 PROPHETIC AI 아는 사람있음? 자각몽완몰가 기기 개발한다는데? [3] ㅇㅇ(183.105) 17:18 74 0
480386 일반 인간이 죽음을 극복하려면 의식에 대한 인식을 바꾸는게 빠를듯 [1] ㅇㅇ갤로그로 이동합니다. 17:17 48 0
480385 일반 잼민이 수학전문가모드는 언제 업뎃해주려나 ㅇㅇ갤로그로 이동합니다. 17:14 48 0
480383 일반 내가 진짜 하이퍼클로바 ㅈㄴ 기대했는데 실망이 컸음 [8] ㅇㅇ갤로그로 이동합니다. 17:10 148 4
480382 정보 캘리포니아 미친놈들이 이상한 AI 규제법안 내놓음 [7] ㅇㅇ갤로그로 이동합니다. 17:09 228 0
480381 일반 한국 IT 업계 = 한국 농업계 같은거임 [1] ㅇㅇ(114.199) 17:08 83 0
480380 일반 agi가 자리잡으면 주거 환경은 바뀌지않을까? ㅇㅇ(211.184) 17:08 21 0
480379 일반 만약 휴머노이드한테 자아가있으면.. [10] ㅇㅇ(104.28) 17:06 121 0
480378 일반 침습형인 뉴럴링크 좆도 기대안되는이유 [4] ㅇㅇ(183.105) 17:05 75 0
480376 일반 Pai 언제쯤 상용화될까 폰이나 pc처럼 [2] flower갤로그로 이동합니다. 17:01 51 0
480375 일반 클로바x 떡상하는 법 ㅇㅇ(112.161) 17:00 48 1
480374 일반 좆한씹국이 갈라파고스인 이유는 [2] ㅇㅇ(114.199) 16:58 157 8
480373 일반 임팩트가 중요하긴 한가봄 [1] ㅇㅇ갤로그로 이동합니다. 16:53 124 0
480372 일반 코파일럿은 정말 거지같네..발전이 없냐; ㅇㅇ갤로그로 이동합니다. 16:51 54 0
480371 일반 MS 빌드 핵심은 이거였지 [17] ㅇㅇ(118.36) 16:45 304 1
480370 일반 오늘도 노동해방과 특이점을 향한 기도를 올립니다 ㅇㅇ(220.127) 16:45 38 0
480369 일반 아레나 이제 gpt 잘 안나오네 ㅋㅋㅋㅋ [2] ㅇㅇ갤로그로 이동합니다. 16:43 131 0
480368 일반 agi의 도래가 의미하는것 [1] ㅇㅇ(211.253) 16:41 64 1
480367 일반 한국 Ai 스타트업 생태계 꼬라지.jpg [14] ㅇㅇ(61.74) 16:40 673 16
480366 일반 초지능이 들고올 new 사회체제는 어떨지 ㅇㅇ(121.128) 16:39 45 0
480365 일반 프랑스도 미스트랄 있는데 한국은 왜 AI모델 못 만드냐 [9] ㅇㅇ(59.15) 16:30 172 1
480364 일반 ai가 아무리 발달을 해도 사용을 잘 못하는 사람들은 [8] ㅇㅇ(112.161) 16:30 166 1
480363 일반 성간전쟁은 별 걱정 안해도 될 거 같음 [4] ㅇㅇ(119.193) 16:30 114 0
480362 일반 갈라파고스 아니라고 쉴드치는놈 왜 있음? [7] ㅇㅇ(123.212) 16:29 115 2
480361 일반 유럽은 오픈ai가 이런식으로 돌파할 거 같아 ㅇㅇ(112.161) 16:27 53 0
480360 정보 미국 빅테크, 미쳐버린 AI 쩐의 전쟁 [5] ㅇㅇ(59.26) 16:27 276 3
480358 일반 갈라파고스 여부는 국민들 성향으로 봐야지 ㅋㅋ [7] ㅇㅇ(211.184) 16:24 132 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2