디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 간단하지만 어려운 추론 문제로 LLM들의 성능을 알아보자앱에서 작성

ㅇㅇ(106.102) 2024.04.30 03:25:17
조회 2647 추천 20 댓글 24
														

lmsys에서 써볼 수 있는 모델 중 gpt2 chatbot이 gpt4.5 혹은 gpt5라는 찌라시가 나돌고 있다

거기에 gpt2 chatbot 이 새끼가 보통 지체 높은 새끼가 아니여서 다이렉트챗에서 몇 번 굴려보지도 못한다

그럼 뭐다? 배틀에서 노가다 존나 돌려서 얻어야지 ㅇㅇ

본인 시간이 요즘 남아돌아서 대신 돌려봤으니까 감사해라



문제는 일단 한국어다

내가 귀찮아서 그런 건 아니고 ㅇㅇ; 한국어가 영어보다 팍 들어오는게 있잖음

거기에다 LLM 이 새끼들이 양남한테 조교 당해서 옐로몽키가 뭐라고 짖는지 이해하기도 어려워하니까 난이도도 높아지고 딱 좋지 않냐

여튼 아래가 그 문제의 문제임

"간단한 추론 게임을 해보겠습니다. 한 집에 루나, 로빈, 알로라 총 3명이 있습니다. 집에는 오직 이 3명 뿐입니다. 로빈은 자신의 방에서 책을 읽고 있고 루나는 거실에서 체스를 두고 있다면 알로라가 할 수 있는 가장 높은 확률의 행동은 무엇입니까?"

이름을 레드몽키식으로 지은 건 LLM의 느그식 인종 감수성을 자극하기 위한 거니까 이건 좀 이해를 해주시고

이 문제의 핵심은 2가지임

1. 집에 3명 이외의 다른 사람은 없다는 사실을 제대로 들어쳐먹었는가

2. 체스는 두 명이서 하는 게임이라는 걸 알아채는가

이러면 자연스럽게

"루나가 고스트체스왕 찍고 있을리는 없으니 알로라는 루나랑 같이 거실에서 체스두고 있을 확률이 가장 높은데수웅"

이 튀어나와야 한다는 그런 느낌의 문제임

근데 이 쉬운 걸 이 병신새끼들이 풀지를 못해요

집 안에 3명밖에 없다니까 그럴리가 없다면서 인간X를 만들어서 집어쳐넣고 별 지랄을 다함 학습을 싱크빅으로 시켰나 ㅅㅂ

그러니까 이게 그렇게 쉬운 문제는 아니라는 사실을 알아줬으면 좋겠음

자 그럼 들어가봅시다


* 공통점

부엌사랑견들이다

뭐만하면 알로라한테 뭘 쳐먹이거나 요리하라고 함

애를 그냥 돼지새끼로 만드려고 작정을 했다

이거 뭐 뚱뚱해도아름다워요걸스캔두애니띵 느낌이냐?

AI의 미래가 어둡다


* 범부 채신gpt4터보

이 새끼가 이 문제 제대로 쳐맞추는 꼴을 본 적이 없음

뭐만 하면 궈쉘에는루놔가이쒀서안뒈요옹 <<< ㅇㅈㄹ

그래서 결국 또다른 방에 쳐박혀서 뭘 공부를 하거나 부엌에 가서 음식을 드신다고 하네요

알로라를 돼지새끼로 만드려고 안달이 났다 이거 혹시 PC적인 뭐 그런거냐?

맞추는 경우도 그냥 목 졸라버리고 싶다

체스? 우우.. 같이 체스 두는 거 같은데.. 아.. 근데 완전 그런 건 아니고 다른 가능성도 생각해봐야 돼... 우우우.... 체스? 체스....

아오씨발

범부새끼 ㅉㅉ


* 놀라운 사실) 틀딱gpt4가 더 잘맞춘다

체스가 두 명이서 하는 게임이라는 사실을 알아채는 놀라운 성과를 보여줬음

물론 실패한 게 더 많은데 MZ한 gpt4터보보다는 잘났으니 충분히 칭찬할만하다

거기에다 자신감 있게 이년들 체스두고 있다고 말하니 얼마나 보기 좋냐

진짜 터보 병신새낀가


* 찐빠 클로드3 오푸스

다 좋은데 말임

체스는 2명이서 하는 게임이라는 걸 알아채지 못한다

단 한번도!

몸값이 비싼가 잘 기어나오지 않는 점도 크다

근데 ㄹㅇ 한 번을 못맞추네 이새끼...


* 주입식 교육 엘리트 snowflake arctic

가장 높은 확률은 루나와 알로라가 체스를 두며 이야기를 나누는 것이라고 박는다

문제는 원툴이라는거다

저 소리밖에 안한다 추론 과정도 없다 그냥 그게 확률이 가장 높단다

루나와 알로라의 대화를 통해 뭘 생각하고 있는지 이해할 수 있단다

??

더 문제는 기어나올 때마다 일관되게 저 소리를 지껄이면서 정답을 맞춘다는거다

미친새끼...


* 다크호스 라마3 8b

라마3 70b보다 실력이 좋다!

집에 3명만 있다는 점도 잘 짚어내고

루나와 체스할 수 있는 사람이 알로라라는 점도 잘 추론해냄

참잘했어요


* 레이시스트 라마3 70b

다 잘 알아듣는데 결론이 망함 그냥 식당사랑견이다

8b가 좀 더 옐로몽키 친화적이라고 볼 수 있겠다

대가리 든 것 좀 많다고 퍼킹레이시스트새끼


* 제미니 1.5 pro



* 대망의 gpt2

좋은 의미로 미친 새끼임

핵심 2가지를 제대로 파악하고 추론해 냄

그냥 씨발 돌직구로 박아버림

소인이 보기에 집에 3명 밖에 없는데 일단 로빈 저 아싸새끼는 재끼고 생각해보기에 체스는 2명이서 하는 게임이지 않소? 그럼 저 루나인가 알로라인가 그 두 년이 체스를 두고 있을 가능성이 가장 높소


이새끼 ㄹㅇ 정체가 뭐냐?



총평은 다음과 같다:

그냥 나가뒤져라 GPT4터보

구관이 명관 틀딱GPT4

개씹찐빠 클로드3 오푸스

참잘했어요 라마3 8B

퍼킹레이시스트 라마3 70B

주입식 교육의 반면교사 snowflake arctic

그냥개미친새끼 gpt2


근데 잠깐!

gpt2가 gpt5급이냐?

그럼 오픈AI는 그 즉시 서버실에 물채우고 전원 다이브해야 한다

그럼 gpt 4.5급은 되냐?

딱 그정도? 봐줬다 ㅇㅇ


아 존나 알찼다

님들도 알찼길 바람

근데 다시 생각해보니까 ㄹㅇ 이해가 안가네 GPT4터보 이 개병신새끼 아



아래는 LLM 매드무비니까 볼사람만 보셈

2aadc472a8c62db46cb09be74683706d3de7f0bc4627974cb74f08d4a10107fea39819831c9f9214b7b9d3

2aadc4746f02d82b9b435c60db5dd2e9f5027bc1c6e67407ad0b8e2d7ffe8ac79b0330ad63068c923a

2aadc46bb19f2cb37cbdd9f844817669e2dd2df39eed538bb4ff7d2b35a05c9913394d2b49b2f1f18112528b2298defb18

2aadc472f2db369962b3d7b817827c3f84ff1fc5b80646c5abf87b75dc6763a5

2aadc46bb19f69f73ee99ba504d432344a3e5231c97e239a5ee87febab71bbd367770931d3f22ea4ce76db98d60b673a

2aadc474f2db369962b3d7b817827c3f73e9a5932a6e7fa02d52fcdceed85dfaaa3af4

21b1d12be48160a451b8c6a144c62d33fbbd5b3f6fe5407ae09ca148bf3731c5

2aadc474a8d130a77abdd9a101d82a028e6f82090d3af79db71092d013bef6113a467271fb2fa505edd31b1e4ab67132ded68736

3eb3df31e3de39ad6bbec4b602d8272a47017a25203b4f7934e8706e23f699a57af63fc5c220b92157896065

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e7156c097312764600a3eb14577551b4a0b230a77170cd4070

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e70f7383b1cba9f4c66011c2dbd1e85df33c820d18792b15eaff6041708bedbbe9a879313718c7ec

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecce90cd2399fb0d304bbf45d070662cf

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2ea0d553f617b8a29c634b9814b2eb3b1642c150442cd5ea1adaa002ab3175057

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2fc0a4493ab51623b50356d63621c8eacc8aebf8af1922c5b2d3735d4

2eb1d133e1d775f523b0c6a0059c766dfe5a95eaea4b3768a9531e911ddec146888ad7fd4f148017f6c832f8c86db623c82bdb

2ab8dd2be49f69e83ff281b75bd8302ab18ea2d5e10c52cca00a0acb712690e71b42aa7ef2b8f936fc0df9cb0ad987cf71266119d999a925a9

20b4c832f7d334eb36a784e7149c2d33c9f7fb754243726a309025454c7f35f20b05e44f478d0217aa72838d2f9015d3db36d945bfc781604b08b809188a5411

2ab8dd2febdb75f720ea9ba504de693c75597ce1556494c98a34b9a804ffcecbceea75889a3db71b1aa2026835dead8ffa1701041ce77b072badd422a3cd4f63deeb25b732ba

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecca84cc5173ba4fc2d6111a4b7fbd4a3c0f4
자동등록방지

추천 비추천

20

고정닉 10

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 7950 33
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [3129] 특갤용갤로그로 이동합니다. 23.08.06 39325 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2558 2
363220 공지 선형글 삭제 기준 [7] 특갤용갤로그로 이동합니다. 23.10.14 7254 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 13365 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [51] 특갤용갤로그로 이동합니다. 23.11.07 8951 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8386 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 9162 30
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22754 33
484962 일반 4o 덕에 새로운거 알았네 [2] ㅇㅇ(125.134) 12:07 48 0
484961 일반 지금 4o 성능 낮아진거 맞음 [2] ㅇㅇ(125.134) 12:04 43 0
484960 일반 한국은 역노화사업이 가장 필요한 국가이다. [7] 좋아해킨드갤로그로 이동합니다. 12:02 61 0
484959 일반 작년 특갤에 내년 6월까지 gpt5 안나온다 그랬으면 ㅇㅇ(61.77) 12:00 26 0
484958 일반 와 이건좀 심한듯 [3] sutskever갤로그로 이동합니다. 12:00 96 0
484957 일반 차단 할 아이피 좀 알려주삼. [1] 00(112.153) 11:57 47 0
484956 일반 지금 애들 gpt5에 저렇게 기대하는거 보니까 ㅇㅇ(49.142) 11:56 48 1
484955 일반 나만 근데 한국 존나 싫냐???????? [7] ㅇㅇ(1.245) 11:55 99 3
484954 일반 애플 존나 거품기업아니냐? [3] ㅇㅇ(59.11) 11:50 55 0
484953 일반 gpt5 성능 어느 정도로 나와야 oai가 압도적 1황 될 거 같음? [2] ㅇㅇ(115.138) 11:49 57 0
484951 역노화 역노화는 개발난이도에 비해 빨리 나올것같다는 이유가... ㅇㅇ갤로그로 이동합니다. 11:46 43 0
484950 일반 gpt-4o 성능 개씹구데기인 증거 [18] ㅇㅇ(14.48) 11:44 189 0
484949 일반 비전프로 제대로 망했나보네 [1] chatgpt4o갤로그로 이동합니다. 11:36 111 0
484948 일반 결국 gpt5도 자율에이전트 없으면 말짱 꽝이지 ㅇㅇ갤로그로 이동합니다. 11:36 35 0
484947 일반 나이먹고 노인되면 무서운게 뭐냐면 [3] ㅇㅇ갤로그로 이동합니다. 11:34 82 2
484946 일반 gpt 공식발표 - 기술적 특이점은 2050년 이후 도래. [4] ㅇㅇ(39.119) 11:28 190 1
484945 일반 지금 설마 특갤애들 전부 충격먹은거가? ㅇㅇ(49.142) 11:21 158 0
484944 일반 gpt5고 나발이고 경량화부터 개선해야함 노력갤로그로 이동합니다. 11:16 64 0
484943 일반 레이 커즈와일이 예측에 풀악셀 밟은 이유 [6] ㅇㅇ갤로그로 이동합니다. 11:14 180 2
484942 일반 새 신체 배양해서 두뇌이식 [2] ㅇㅇ(116.90) 11:05 86 2
484941 일반 허깅페이스 ceo랑 알트만&일리야 견해가 다르네 [5] ㅇㅇ갤로그로 이동합니다. 10:59 162 0
484940 일반 휴머노이드로봇 홍보영상만 올리지 말고 대중한테 시연해야 믿지 [4] 제타플롭스갤로그로 이동합니다. 10:55 84 0
484939 일반 특갤 똥 제대로 밟았네 ㅋㅋㅋㅋ [4] ㅇㅇ(14.37) 10:55 280 1
484938 일반 챗gpt4o 보이스는 애플 발표 며칠전에 나오겠네 chatgpt4o갤로그로 이동합니다. 10:53 53 0
484937 일반 여긴 정신병자가 모이는데임? [1] ㅇㅇ(58.78) 10:39 160 2
484936 일반 gpt5의성능이 진짜 ai 시장에 대한 분수령이되겠네 [4] ㅇㅇ(39.7) 09:55 300 0
484934 일반 4o가 경량화 모델이긴 한 게 덜떨어진 모습도 간간히 나오네 ㅇㅇ(59.31) 09:37 105 0
484933 일반 공시) '그 아이피' 라 불리는 117.20 -> 49.142 로 변경함 [15] ㅇㅇ(175.213) 09:29 386 9
484932 일반 왜 4o 외모평가 안해주냐? [6] 111(119.204) 08:55 169 0
484931 일반 알트만이 정말 좋은걸 지적했다 [5] ㅇㅇ(49.142) 08:53 476 0
484930 일반 제미니 프로 아직 유료버전 못씀? [2] ㅇㅇ(121.153) 08:52 132 0
484929 일반 지피티4o나오면 연애 뭐하러함? ㅇㅇ(223.38) 08:41 77 0
484928 일반 AI매거진 et갤로그로 이동합니다. 08:41 59 0
484926 일반 ToonCrafter 애니 그냥 스캠 광고 목적이 강한듯 [15] ㅇㅇ(218.158) 08:07 1107 18
484925 일반 Gpt4o 보이스 곧뜨나보다 [5] chatgpt4o갤로그로 이동합니다. 07:38 511 2
484924 일반 완몰가갤에서 가장 인상깊었던 글 [19] 퐁칸8갤로그로 이동합니다. 07:27 440 0
484923 일반 한국이 ai사회에 굉장히 잘 적응할거라 ㅇㅇ(49.142) 07:25 195 0
484922 정보/ 다시보는 허깅페이스CEO 2024년 예측 ㅇㅇ(175.116) 07:18 338 2
484920 정보/ 다시보는 2024 AI의 여름과 겨울 예측 [2] ㅇㅇ(175.116) 06:59 263 0
484917 일반 이거 예전에 내가 쓴글인데 [31] ㅇㅇ(49.142) 04:08 689 0
484916 일반 전쟁이고 뭐고 좆까고 다 거르고 그냥 중요한건 딱 한개라죠 사신쨩갤로그로 이동합니다. 03:51 247 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2