디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] "많은 스타트업이 챗GPT로 생성한 데이터셋으로 챗봇 개발"

ㅇㅇ(182.230) 2024.04.18 20:26:04
조회 143 추천 3 댓글 1
														

https://www.aitimes.com/news/articleView.html?idxno=158886

 



7ce8887ebd8407f739ee86e743ee75684476a6913885829b111f36d7a4b1155acd



스타트업들이 개발한 인공지능(AI) 챗봇 중 다수는 오픈AI의 '챗GPT'가 생성한 데이터를 사용하여 만들어졌을 가능성이 높다는 분석이 나왔다. 이는 사실상의 데이터 도용으로, 업계의 공공연한 비밀로 알려졌다.


디 인포메이션은 15일(현지시간) 많은 스타트업들이 자체 모델을 훈련하거나 고도화하기 위해 오픈AI나 다른 회사의 대형언어모델(LLM)에서 생성한 데이터를 사용한다고 보도했다.


예를 들어 스타트업들은 오픈AI의 'GPT-4'를 돈을 내고 사용하면서, 많은 질문-답변 데이터를 확보한 후 자체 모델 훈련에 활용하는 식이다. 즉 '생성 데이터'로 모델 성능을 높이는 방식이다.


일반적으로는 메타나 미스트랄 AI 등의 인기 있는 오픈 소스 LLM을 기반으로, 오픈AI에서 확보한 데이터를 훈련해 자체 모델을 만들거나 고도화한다는 설명이다. 개발자들이 오픈AI를 사용해 생성한 대답을 올리는 사이트인 '셰어GPT'도 많은 회사들이 활용하는 것으로 알려졌다.


하지만 이런 방식으로 자체 모델을 구축하는 스타트업들 다수는 오픈AI 모델을 사용한 것을 감추고 있다.


다니엘 한  언슬로스AI 공동 창업자는 “기업 절반 정도가 GPT-4나 엔트로픽의 '클로드'에서 일정 부분 데이터를 생성하는 것으로 보고 있다”라고 말했다.


심지어 일부 개발자들은 이런 과정을 자동화하기 위해 '오픈파이프(OpenPipe)' 같은 서비스도 활용한다고 전했다.


물론 오픈AI와 앤트로픽, 구글과 같은 주요 AI 기업들은 기술적으로 이러한 행위를 금지하기 때문에 이러한 행위는 스타트업을 위험에 빠뜨릴 수 있다는 지적이다.


이에 대해 샘 알트만 오픈AI CEO는 지난해 한 행사에서 스타트업 창업자들에게 소규모 창업자들이 회사의 기술을 이런 방식으로 사용해도 괜찮다고 말한 바 있는 것으로 전해 졌다. 하지만 이런 문제가 성장에 걸림돌이 된다고 판단되면, 언제든 정책을 바꿀 가능성이 있다.


소규모 스타트업들만 다른 회사 데이터를 가져다 쓰는 건 아니다. 오픈AI나 메타 등도 여기에서 자유롭지 않다.


뉴욕타임스에 따르면 오픈AI는 GPT-4를 개발 중이던 2021년 기존에 수집한 학습용 데이터가 고갈될 위기에 처하자, 유튜브 영상 속 말소리를 받아 적는 ‘위스퍼(Whisper)’라는 음성인식 프로그램까지 개발해 GPT-4 학습에 사용하기도 했다. 


그 결과 지난해 공개된 GPT-4는 무단 사용이 금지된 유튜브 콘텐츠를 100만시간 이상 학습한 것으로 알려졌다. 이에 대해 오픈AI는 자체적으로 큐레이션한 고유한 데이터셋들이 있다는 해명을 내놓았다.


NYT는 “당시 오픈AI 직원들은 이것이 위법일 수 있다는 것을 인지하고 있었지만, AI 학습을 위해서라면 정당한 작업이라고 믿었다”라고 전했다.


메타 역시 페이스북과 인스타그램 게시물뿐 아니라 소설, 에세이, 뉴스기사 등 저작권이 명확한 데이터들까지 무단으로 사용한 것으로 드러났다.


하지만 모든 AI 개발자가 이런 방식으로 작업하는 것은 아니라는 설명이다.


조나단 프랭클 데이터브릭스 수석 과학자은 “강력한 오픈 소스 LLM을 개발하기 위해 경쟁사의 작업에 하나도 의존하지 않았다”라고 주장했다.


앤트로픽도 “다른 모델의 출력으로 LLM을 훈련하지 않는다”라고 밝혔다.


자동등록방지

추천 비추천

3

고정닉 2

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 7163 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2972] 특갤용갤로그로 이동합니다. 23.08.06 38340 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2316 2
363220 공지 선형글 삭제 기준 [6] 특갤용갤로그로 이동합니다. 23.10.14 6970 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 12968 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [50] 특갤용갤로그로 이동합니다. 23.11.07 8695 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8050 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 8912 30
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22423 33
479602 일반 와 ㅅㅂ ㅇㅇ(218.39) 01:09 13 0
479601 일반 큰거오냐?? 이세이미야케갤로그로 이동합니다. 01:09 7 0
479600 일반 의사나 빨리 대체했으면 ㅇㅇ(223.62) 01:08 6 0
479599 일반 말하는거 자신있는거 보니까 뭐 있나본데? ㅇㅇ(121.183) 01:08 8 0
479598 일반 코파일럿 입갤 ㅇㅇ(218.39) 01:08 5 0
479597 일반 ㅈㄴ 사람 기대되게 만드네 말하는게 [1] ㅇㅇ(218.39) 01:08 24 0
479595 일반 이 사람 말 잘하네 [3] ㅇㅇ(119.202) 01:05 64 1
479594 일반 사람이 컴퓨터를 이해하는게 아닌 컴퓨터가 우리를 ㄷㄷ ㅇㅇ(218.39) 01:04 38 0
479593 일반 느낌 왔다 말하는 거 보니까 큰거다 ㄷㄷ ㅇㅇ(218.39) 01:04 32 0
479592 일반 잼민이 사칙연산 물어봤는데 ㅇㅇ(115.139) 01:04 14 0
479591 일반 주소 [1] ㅇㅇ(218.39) 01:02 56 0
479590 일반 유튭엔 안 보이는데 라이브 어디서 함? [2] ㅇㅍㅈ갤로그로 이동합니다. 01:02 75 1
479589 일반 올해안에 gpt5 안나오면 진짜 어카지 [6] 이세이미야케갤로그로 이동합니다. 01:01 80 0
479588 일반 시작한다 [1] ㅇㅇ갤로그로 이동합니다. 00:59 78 0
479587 정보 앤트로픽 새로운 해석 가능성 논문 [6] ㅇㅇ(125.191) 00:55 150 0
479586 일반 ㅋㅋ 원래 보이스 콧소리+끼부리는거 대박이였는데 ㅇㅇ(211.179) 00:55 47 0
479585 일반 큰일은 킹텔이 한다 [4] ㅇㅇ갤로그로 이동합니다. 00:54 100 0
479584 일반 그러지 말고... 내 목소리를 담아가오... ㅇㅇ(14.53) 00:54 28 0
479583 일반 마소 뭐 있었음? 자는데 [2] ㅇㅇ(59.26) 00:52 126 0
479582 정보 Microsoft 나머지 Phi-3 모델 출시 ㅇㅇ(125.191) 00:51 90 0
479580 정보 95% 효율로 물을 전기 분해하는 새로운 기술 [2] ㅇㅇ(182.230) 00:50 89 1
479579 일반 “진짜” ai는 킹텔이 한다 [2] ㅇㅇ갤로그로 이동합니다. 00:49 97 0
479578 일반 her <= 이건 빼박 oai 잘못이잖아 [9] ㅇㅇ(14.53) 00:48 181 1
479577 일반 사람들이 받아들일 수 있는 속도 <- 의외로 느릴지도 ㅇㅇ갤로그로 이동합니다. 00:47 41 0
479576 일반 온디바이스가 이런거 말하는거임? ㅇㅇ갤로그로 이동합니다. 00:46 46 0
479575 일반 그래서 자율에이전트 플랫폼 선두기업은 어느게 되는거야? ㅇㅇ(175.192) 00:45 11 0
479574 일반 나 씻겨주는 AI 안드로이드 언제 나옴? ㅇㅇ갤로그로 이동합니다. 00:42 27 0
479573 일반 퀄컴이 뜨는게 온디바이스 시대의 개막과 관계있다 [1] 제타플롭스갤로그로 이동합니다. 00:41 36 0
479572 일반 프론티어모델 연기 이거 뭐야 씨발 [2] ㅇㅇ갤로그로 이동합니다. 00:38 162 0
479571 일반 ai한테 풀이과정 너무 상세히 물으면 안되노 [4] ㅇㅇ(115.139) 00:34 78 0
479570 일반 안 올리간 건지 지워진 건지 안 보여서 재업 .(211.52) 00:34 32 0
479569 일반 나 왜 글 계속 지워짐 .(211.52) 00:31 28 0
479568 일반 마소 AI PC 생지랄은 그냥 마케팅임 [9] rtOS갤로그로 이동합니다. 00:30 189 0
479567 일반 MS는 달리셈! ㅇㅇ(125.191) 00:27 102 0
479566 일반 마소 빌드 몇시? [1] indie갤로그로 이동합니다. 00:26 109 0
479564 일반 4o가 온디바이스면 그날로 바로 똥꼬 연다 [1] ㅇㅇ(211.234) 00:25 85 0
479563 일반 리콜 온디바이스 <<< 모델이 온디바이스라는 게 아니다 ㅇㅇ갤로그로 이동합니다. 00:24 57 0
479562 일반 온디바이스가 말이 되겠냐고 ㅋㅋ ㅇㅇ(117.111) 00:22 76 0
479561 일반 샘 알트먼 패러디 계정 존나웃기네 ㅋㅋㅋㅋ [4] rtOS갤로그로 이동합니다. 00:22 205 0
479560 일반 phi2m 2 small 이랑 medium 나옴 [6] ㅇㅇ갤로그로 이동합니다. 00:19 113 0
479559 일반 ai 에이전트 100개만 있어도 인터넷 여론조작 쌉가능이냐 [1] ㅇㅇ(222.120) 00:16 69 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2