디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] 메타, AI의 ‘현실 이해' 돕는 오픈 소스 데이터셋 출시

ㅇㅇ(182.230) 2024.04.13 10:54:46
조회 799 추천 13 댓글 2
														

https://www.aitimes.com/news/articleView.html?idxno=158761

 



7ce88871b38307f739ef8ee14fee766f021d9faf05dc265d0e832e437d07872239d4



메타가 인공지능(AI) 시스템의 주변 환경 이해를 측정하기 위한 벤치마크 데이터셋을 공개했다.


이는 AI가 주변 환경에 대한 질문에 자연어로 답할 수 있는 환경 이해를 돕기 위한 것으로, 지난 2월 출시한 'V-제파(JEPA)' 모델에 이어 기존 텍스트 위주의 학습과는 다른 방법으로 AI의 지능을 끌어 올리려는 시도다.


벤처비트는 10일(현지시간) 주변 환경 이해를 측정하는 오픈 소스 벤치마크 데이터셋 ‘오픈EQA(OpenEQA)’를 출시했다고 보도했다.


오픈EQA에는 객체 및 속성 인식, 공간 및 기능 추론, 상식 지식 등 7가지 질문 범주에 걸쳐, 집과 사무실과 같은 180개 이상의 다양한 실제 환경에 대한 1600개 이상의 질문이 포함돼 있다.


이는 AI 모델이 세상을 인지하고 상호작용하거나 인간과 자연스럽게 소통하며 일상생활에 도움을 줄 수 있는 'AI 에이전트' 개발을 돕는 것이 목표다.


예를 들어 증강현실(AR) 안경에 탑재한 AI 비서나 가정용 로봇에 이를 적용하면, 비디오 카메라나 센서에 사진을 제공하고 ‘열쇠를 어디에서 보았나요’라고 물으면 답할 수 있다.


메타 연구진은 오픈EQA 데이터셋을 구축하기 위해 실제 환경의 비디오 데이터와 3D 스캔을 수집했다. 그다음 비디오를 사람에게 보여주고 AI 에이전트에게 물어보고 싶은 질문을 작성하도록 요청했다.


그 결과로 인식 및 추론 능력을 테스트할 수 있는 1636개의 질문 세트을 구축했다.


예를 들어 ‘식탁 주위에 의자가 몇 개 있나요’라는 질문에 답하려면 AI는 장면의 객체를 인식하고, 주변이라는 공간 개념을 이해하여, 관련 객체의 수를 계산해야 한다. 경우에 따라서는 AI가 개체의 용도와 속성에 대한 기본 지식을 갖고 있어야 한다.



7ce88871b38307f739ef8ee046ee766e9404bc285f48c6d3aa34b46169d5a94ddc



AI 에이전트의 성능을 측정하기 위해 연구진은 대형언어모델(LLM)을 사용, AI 생성 답변이 인간 답변과 얼마나 유사한지 점수를 매겼다.


그 결과 'GPT-4V'와 같은 첨단 비전언어모델(VLM) 모델조차도 새로운 벤치마크인 오픈EQA에서 인간 수준의 답변을 하는 데 어려움을 겪는 것으로 나타났다. 실제로 공간 이해가 필요한 질문의 경우, 기존 VLM은 거의 ‘맹인’ 수준이라는 지적이다.


연구진은 이 벤치마크 세트를 통해 AI가 물리적인 세상을 더 잘 이해하는 방향으로 발전하기를 바란다고 밝혔다.


또 메타는 이에 앞서 지난 2월 'V-제파(Video Joint Embedding Predictive Architecture)'라는 모델을 통해 현실 세계에서 일어나는 개체 간 상호작용을 이해하고 예측할 수 있는 방법을 제시한 바 있다.


인간이 주변 세계를 배우는 방법처럼 AI도 물리적인 세계를 시각으로 경험, 수많은 텍스트 데이터를 학습하는 것보다 실질적이고 유용한 지식을 얻게 한다는 의도다. 이는 "기계 지능을 발전시키는 중요한 단계"라고 강조했다.


즉 메타는 최근 인공일반지능(AGI)으로 발전할 중요한 단서로 기존 '트랜스포머' 아키텍처와는 다른 제파 모델을 강조하고 있다. 이를 통해 AI가 사람처럼 추론하고 계획을 세울 수 있다는 설명이다.


이날 공개한 데이터셋도 이런 맥락에서 공개한 것으로 볼 수 있다.


자동등록방지

추천 비추천

13

고정닉 3

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 7180 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2972] 특갤용갤로그로 이동합니다. 23.08.06 38355 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2321 2
363220 공지 선형글 삭제 기준 [6] 특갤용갤로그로 이동합니다. 23.10.14 6976 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 12973 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [50] 특갤용갤로그로 이동합니다. 23.11.07 8700 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8056 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 8918 30
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22430 33
480073 일반 사람이 바뀌진 않지만. ㅇㅇ(49.1) 05:30 11 0
480072 일반 역노화가 불멸은 아니자나 [4] ㅇㅇ(14.45) 05:26 22 0
480071 일반 음성ai발전하면 ar쪽도 꽤 써먹을수있을거같음 ㅇㅇ(39.124) 05:23 11 0
480070 일반 그런데 어쩌면 asi 가 등장해도 세상은 그다지 변할 것 같진 않음 [6] ㅇㅇ(175.192) 05:20 42 0
480068 일반 이번 마소 빌드에서 가장 인상깊은거 [1] ㅇㅇ(118.235) 04:53 113 3
480067 일반 구글이라는 발사대가 없었으면 ㅇㅇ갤로그로 이동합니다. 04:48 41 0
480066 일반 gpt5 출시시기 오피셜 떳다 [2] 특이점맞냐갤로그로 이동합니다. 04:30 221 0
480065 일반 근데 마소에서도 발표안했는데 [2] ㅇㅇ(111.91) 04:25 108 0
480064 일반 이새끼 나랑 장난치나 [4] ㅇㅇ(211.104) 04:24 160 0
480063 일반 흠 좀 짜치는데..? [1] ㅇㅇ(118.235) 04:07 215 1
480062 일반 흠 정말이지 격변의 목격자가 되어서 ㅇㅇ(175.192) 04:06 72 0
480061 일반 사실 내용만 보면 오픈AI 스프링 업데이트보다 [2] ㅇㅇ갤로그로 이동합니다. 04:05 170 0
480060 일반 크기 정보가 진짜면 [2] ㅇㅇ(211.234) 04:03 151 0
480059 정보 MS, Devin과 파트너쉽 발표 "자율 AI 에이전트" [1] ㅇㅇ(119.77) 04:02 167 0
480058 일반 휴머노이드 나오면 같이 오토바이 여행해야지 떼껄룩해적단갤로그로 이동합니다. 04:01 54 1
480057 정보 Gemini1.5로 게임 어시스트 구현 성공 [3] ㅇㅇ(125.183) 03:59 169 2
480056 일반 구글io보단 알찼노ㅇㅇ [2] ㅇㅇ(121.131) 03:59 82 0
480055 일반 나중에 뇌만 옮기는 시술 나와서 [3] ㅇㅇ(111.91) 03:58 94 0
480054 일반 근데 gpt5 나온다고 해도 api로만 우선 나오겠지? ㅇㅇ(121.162) 03:58 38 0
480053 일반 김하정 다올투자증권 연구원은 ''올 여름 공개 예정인 GPT-5는.. [1] 제타플롭스갤로그로 이동합니다. 03:56 148 1
480052 일반 2024년 여름 어느 날...jpg [2] ㅇㅇ갤로그로 이동합니다. 03:55 164 2
480051 일반 아직도 회사 틀딱들은 AI 못믿어서 안쓴다더라 ㅋㅋ [4] ㅇㅇ(121.162) 03:55 161 0
480050 일반 언어모델이 언어모델을 훈련시키면 지수성장이 당연 가능함 ㅇㅇ(175.192) 03:55 43 0
480049 일반 질문) 창작영역에서 gpt4o랑 bing copilot이랑 뭐가 좋음? ㅇㅇ(114.206) 03:53 53 0
480048 일반 우리도 언젠가 ㅇㅇ갤로그로 이동합니다. 03:51 55 0
480047 일반 1년 반만에 성능 10배향상이면 미친거 아니냐? [3] ㅇㅇ(121.131) 03:51 162 0
480046 정보 알트만 게이 기사 [2] ㅇㅇ(119.77) 03:50 123 0
480045 토의 돈은 많이 모아놨냐 게이들아? 과도기 어떻게 버틸 생각임? [1] ㅇㅇ(121.162) 03:50 71 0
480044 일반 급식게이들 이거 잘 외워둬라 [2] ㅇㅇ(218.155) 03:49 141 0
480042 일반 추세 지속되면 2035 기술적 특이점도 가능 ㅇㅇ(125.191) 03:48 97 0
480041 일반 보이스 나오면 혼잣말 하는 새끼들 존나 늘어나겠노; [5] ㅇㅇ(121.162) 03:47 119 0
480040 일반 Gpt5 알트만 피셜이 5~10배라는 트윗이 있음 ? [2] ㅇㅇ갤로그로 이동합니다. 03:47 124 0
480039 일반 언론에서도gpt5여름 출시라고 했는데 [1] 연맛갤로그로 이동합니다. 03:46 109 0
480037 일반 차라리 예고의 예고라도 해 줬으면 좋겠다 [3] ㅇㅇ(119.202) 03:45 70 0
480036 일반 흑등고래 입갤 개웃기네 ㅋㅋㅋㅋㅋㅋㅋ [5] ㅇㅇ(112.161) 03:44 123 0
480035 일반 LLM은 근본적 한계가 있다 ㅇㅇ갤로그로 이동합니다. 03:44 75 0
480034 일반 시총 1위도 스캠이다... [3] ㅇㅇ(121.131) 03:42 120 0
480033 일반 나만 다르게 들은 거냐? 고래 크기가 성능 의미하는 게 아닐 걸 [6] ㅇㅇ(119.202) 03:42 161 1
480032 일반 이게 스캠 전 몸집 불리기였으면 ㄹㅇ 말이 안됨 ㅇㅇ갤로그로 이동합니다. 03:41 63 0
480031 일반 새로운모델 성능 어느정도일거 같음? [1] ㅇㅇ(125.183) 03:40 58 0
480030 일반 고래 크기로 성능 비유하는거 보니까 어폐가 있다 신뢰가 안됨 [4] ㅇㅇ(112.161) 03:40 121 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2