OpenAI는 오랫동안 기다려온 GPT의 업데이트인 GPT-4를 마침내 출시했습니다.
이 대규모 언어 모델(LLM)은 강력한 새 기능으로 이미 전 세계 사용자를 놀라게 했습니다.
기존 LLM인 OpenAI의 바이럴 챗봇인 ChatGPT를 구동하는 GPT-3.5보다 월등히 뛰어난 성능을 자랑하는 GPT-4는 더 복잡한 입력도 이해할 수 있고, 더 큰 문자 입력 제한, 다중 모드가 가능하고 사용하기 쉽습니다.
더 안전합니다.
GPT-4는 더 복잡한 입력을 이해할 수 있습니다.
GPT-4의 가장 큰 새 기능 중 하나는 더 복잡하고 미묘한 신호를 이해하는 기능입니다.
OpenAI에 따르면 GPT-4는 “다양한 전문 및 학술 벤치마크에서 인간 수준의 성능을 보여줍니다.
” 이것은 특정 교육(예: SAT, BAR 및 GRE). GPT-4는 이러한 테스트를 종합적으로 이해하고 풀며 합리적으로 높은 점수를 얻었을 뿐만 아니라 매번 이전 버전인 GPT-3.5를 능가했습니다.
GPT-4의 더 큰 단어 제한으로 인해 더 미묘한 입력 단서를 이해하는 기능이 가능합니다.
새 모델은 최대 25,000단어의 입력 프롬프트를 처리할 수 있습니다(컨텍스트를 위해 GPT-3.5는 8,000단어로 제한됨). 이를 통해 사용자는 프롬프트에 더 많은 세부 정보를 압축하여 모델에 더 많은 정보를 제공하고 더 긴 출력을 생성할 수 있습니다.
GPT-4는 라트비아어, 웨일스어, 스와힐리어와 같이 덜 사용되는 언어를 포함하여 26개 이상의 언어를 지원합니다.
MMLU 벤치마크의 3샷 정확도를 기반으로 GPT-4는 GPT-3.5뿐만 아니라 PaLM 및 Chinchilla와 같은 다른 주요 LLM보다 성능이 뛰어납니다.
여기서 GPT-4는 24개 언어에서 영어 성능을 능가합니다.
다중 모드 기능
이전 버전의 ChatGPT는 텍스트 프롬프트로 제한되었습니다.
그러나 GPT-4의 새로운 기능 중 하나는 다중 모드 기능입니다.
이 모델은 텍스트 및 이미지 프롬프트를 수락할 수 있습니다.
이는 AI가 이미지를 입력으로 받아 텍스트 프롬프트처럼 해석하고 이해할 수 있음을 의미합니다.
이 기능은 두 가지를 결합한 문서, 프리핸드 스케치 및 스크린샷을 포함하여 모든 크기와 유형의 이미지와 텍스트로 확장됩니다.
그러나 이미지를 읽는 GPT-4의 능력은 이미지를 해석하는 것 이상입니다.
예를 들어 디자인 프로젝트를 진행 중이고 웹 사이트 레이아웃의 대략적인 손으로 그린 스케치가 있다고 가정해 보겠습니다.
이 스케치를 텍스트 설명이나 지침과 함께 이미지 입력으로 GPT-4에 공급할 수 있습니다.
예를 들어 GPT-4에게 주어진 스케치에서 HTML 및 CSS 코드를 생성하고 다른 장치에 응답하는 웹 사이트를 만들도록 요청할 수 있습니다.
GPT-4는 스케치를 분석하고 레이아웃을 이해하며 텍스트 설명도 고려합니다.
그런 다음 Gpt-4는 스케치된 디자인 및 지시된 요구 사항에 해당하는 적절한 HTML 및 CSS 코드를 생성합니다.
또 다른 예로 GPT-4를 사용하여 이미지의 캡션이나 설명을 생성할 수 있습니다.
배구를 하는 사람들이 있는 해변 장면의 이미지를 제공한다고 가정해 보겠습니다.
시적 또는 유머러스한 톤과 같은 특정 스타일로 장면을 설명하도록 모델에 요청하는 텍스트 프롬프트를 추가할 수도 있습니다.
GPT-4는 이미지를 처리하고 장면의 요소를 인식하며 원하는 스타일로 제목이나 설명을 생성합니다.
이러한 예는 다양한 유형의 입력(텍스트 및 이미지)을 처리 및 결합하고 텍스트 및 시각적 정보를 모두 고려하는 출력을 생성하여 다양한 도메인에 걸쳐 보다 포괄적인 솔루션을 제공하는 GPT-4의 기능을 보여줍니다.
인공 지능의 발전은 프로그래밍의 종말을 의미합니까? 아직은 아니지만 이 기능은 프로그래머를 돕는 데 유용할 것입니다.
기능이 유망해 보이지만 아직 연구 프리뷰 단계에 있으며 대중에게 공개되지 않았습니다.
또한 모델이 시각적 입력을 처리하는 데 많은 시간이 걸리고 OpenAI 자체가 더 빨라지기 위해 작업과 시간이 필요할 수 있음을 보여줍니다.
더 나은 이동성
GPT-4의 향상된 기동성은 사용자 또는 개발자가 보다 정확하고 원하는 결과를 달성하기 위해 조종하고 제어할 수 있는 향상된 기능을 의미합니다.
이는 GPT-4가 특정 지침을 더 잘 따르고 특정 문자나 스타일을 보존하며 사용자가 설정한 제한을 준수할 수 있음을 의미합니다.
OpenAI가 GPT-4의 작동성을 개선하는 한 가지 방법은 개발자가 AI의 작업을 안내하는 “시스템” 메시지를 제공할 수 있도록 하는 것입니다.
이러한 시스템 메시지에서 원하는 방향, 스타일 또는 작업을 설명함으로써 개발자는 사용자 경험을 어느 정도 사용자 정의할 수 있습니다.
더 나은 기동성은 또한 GPT-4가 기능을 손상시키거나 의도한 스타일에서 벗어날 가능성이 적다는 것을 의미하므로 AI가 특정 역할이나 행동을 유지해야 하는 애플리케이션에서 더 안정적입니다.
예를 들어 GPT-4가 소크라테스식 튜터로 구현된 경우 사용자가 해당 역할에서 벗어나려고 해도 이 방식으로 계속 응답합니다.
전반적으로 GPT-4의 개선된 조작성은 AI 모델로 작업하는 개발자에게 더 나은 사용자 경험, 더 신뢰할 수 있는 결과 및 더 큰 사용자 정의 가능성으로 이어집니다.
안전
OpenAI는 GPT-4를 더 안전하고 일관성 있게 만들기 위해 6개월을 투자했습니다.
OpenAI 정책에 따르면 GPT-4는 부적절하거나 금지된 콘텐츠에 대한 요청에 응답할 가능성이 82% 적고 민감한 요청에 응답할 가능성이 29% 더 높다고 회사는 주장합니다.
또한 GPT-3.5에 비해 실제 응답을 생성할 확률이 40% 더 높습니다.
완벽하지 않고 때때로 다른 답변을 제공하며 예측이 틀릴 수 있습니다.
물론 GPT-4가 더 나은 인식과 예측 능력을 가지고 있지만 여전히 AI를 맹목적으로 신뢰해서는 안 됩니다.
성능 개량
인간 실험에서 모델의 성능을 평가하는 것 외에도 OpenAI는 기계 학습 모델용으로 설계된 기존 벤치마크와 비교하여 로봇을 평가합니다.
GPT-4는 전통적인 LLM과 “최첨단 모델”을 “상당히 능가”한다고 주장합니다.
이러한 벤치마크에는 이미 언급한 MMLU, AI2 ARC(Reasoning Challenge), WinoGrande, HumanEval 및 Drop이 포함되며 모두 개별 기능을 테스트합니다.
학업 비전 벤치마크에서 성능을 비교할 때도 유사한 결과를 찾을 수 있습니다.
VQAv2, TextVQA, ChartQA, AI2 Diagram(AI2D), DocVQA, Infographic VQA, TVQA 및 LSMDC와 같은 테스트를 실행했으며 모두 GPT-4가 주도했습니다.
그러나 OpenAI는 연구원들이 이 모델이 해결할 수 있는 새로운 문제를 계속 찾고 있기 때문에 GPT-4에 대한 이러한 테스트 결과가 “기능의 폭을 완전히 대표하지 못한다”고 말했습니다.
보다 정확한 성능, 사용 보안 및 고급 기능을 갖춘 GPT-4는 $20/월 ChatGPT+ 월간 구독 플랜으로 대중에게 제공됩니다.
OpenAI는 또한 GPT-4를 사용하여 소비자 중심 제품을 개발하기 위해 다양한 조직과 협력하기 시작했습니다.
Microsoft Bing, Duolingo, Stripe, Be My Eyes, Khan Academy 등은 제품에 GPT-4를 구현했습니다.
GPT-4는 GPT-3.5에 비해 점진적인 업데이트일 수 있지만 전반적으로 AI의 큰 성과입니다.
최종 사용자와 개발자를 위한 API를 통해 모델에 더 쉽게 액세스할 수 있으므로 LLM 구현에 대한 좋은 예가 될 것 같습니다.