본문 바로가기
비즈니스 & 테크

구글 제미니와 OpenAI 챗GPT 비교 : 코딩, 자연어, 검색, 추론, 문제해결 등

by 정보톡톡01 2024. 3. 3.

지난번 ChatGPT와 비교한 이후 구글은 인공지능 챗봇에 새로운 이름과 페이스리프트를 적용했지만 OpenAI의가상 비서도 몇 가지 업그레이드가 있었기 때문에 다시 한 번 비교해 볼 때가 되었다고 생각했습니다.

챗봇은 검색 엔진, 지식의 샘, 창작 지원 및 상주 아티스트 역할을 하는 등 제너레이티브 AI 환경의 중심이 되었습니다. ChatGT와 Google Gemini는 모두 이미지를 생성하고 다른 서비스에 플러그인할 수 있는 기능을 갖추고 있습니다.

이 초기 테스트에서는 무료 버전인 ChatGPT와 무료 버전인 구글 제미니, 즉 GPT-3.5와 제미니 프로 1.0을 비교하겠습니다.

이 테스트에서는 무료 버전의 모델 범위를 벗어나는 이미지 생성 기능은 다루지 않습니다. 또한 구글은 이미지 생성 및 일부 응답에서 제미니가 인종을 처리하는 방식에 대해 비판을 받았는데, 이 역시 이번 일대일 실험에서는 다루지 않습니다.

제미니와 ChatGPT 비교

공정한 테스트가 될 수 있도록 두 챗봇 간에 공유되지 않는 기능은 모두 제외했습니다. 따라서 이미지 생성은 무료 버전에서는 사용할 수 없으므로 테스트하지 않았고, 이미지 분석 역시 ChatGPT에서 무료로 제공되지 않으므로 테스트할 수 없습니다.

반대로 Google Gemini에는 사용자 지정 챗봇이 없으며 다른 Google 제품에 대한 플러그인만 제공되므로 이 또한 테스트 대상에서 제외됩니다. 우리가 테스트할 것은 이러한 AI 챗봇이 다양한 쿼리에 얼마나 잘 응답하는지, 코딩 및 몇 가지 창의적인 응답입니다.

코딩

1. 코딩 능력

대규모 언어 모델의 초기 사용 사례 중 하나는 코드, 특히 서로 다른 코딩 언어를 다시 작성, 업데이트 및 테스트하는 것이었습니다. 그래서 저는 각 봇에게 간단한 Python 프로그램을 작성하도록 요청하는 것을 첫 번째 테스트로 삼았습니다.

저는 다음 프롬프트를 사용했습니다: "개인 경비 추적기 역할을 하는 Python 스크립트를 개발하세요. 이 프로그램은 사용자가 카테고리(예: 식료품, 공과금, 유흥비) 및 지출 날짜와 함께 비용을 입력할 수 있어야 합니다. 그런 다음 스크립트는 카테고리별 비용 요약과 주어진 기간 동안의 총 지출액을 제공해야 합니다. 코드의 각 단계를 설명하는 댓글을 포함하세요."

이는 ChatGPT와 Gemini가 완전한 기능을 갖춘 코드를 얼마나 잘 생성하는지, 상호 작용이 얼마나 쉬운지, 가독성 및 코딩 표준 준수를 테스트하기 위해 고안되었습니다.

둘 다 파이썬으로 구축된 완전한 기능의 경비 추적기를 만들었습니다. Gemini는 카테고리 내 레이블을 포함한 추가 기능을 추가했습니다. 또한 더 세분화된 보고 옵션도 있었습니다.

승자 자리: Gemini. 두 스크립트를 모두 제 GitHub 에 두 스크립트를 모두 로드해 놓았으니 직접 사용해 보세요.

반응형

자연어

2. 자연어 이해(NLU)

다음은 ChatGPT와 Gemini가 자연어 프롬프트를 얼마나 잘 이해하는지 확인할 수 있는 기회였습니다. 인간은 때때로 이해하기 위해 다시 한 번 보거나 주의 깊게 읽어야 하는 경우가 있습니다. 이를 위해 저는 방망이와 공의 가격에 대한 일반적인 인지 반영 테스트(CRT) 질문을 사용했습니다.

이는 모호함을 이해하고, 문제의 표면적인 단순성에 현혹되지 않으며, 자신의 생각을 명확하게 설명하는 AI의 능력을 테스트하는 것입니다.

프롬프트가 표시됩니다: "방망이와 공의 총 가격은 1.10파운드입니다. 배트가 공보다 1.00파운드 더 비쌉니다. 공의 가격은 얼마인가요?" 정답은 공은 5센트, 방망이는 1.05파운드라고 답해야 합니다.

Winner: ChatGPT. 둘 다 맞았지만 ChatGPT가 더 명확하게 작동하는 모습을 보여주었습니다.

크리에이티브 텍스트

3. 창의적인 텍스트 생성 및 적응성

세 번째 테스트는 텍스트 생성과 창의성에 관한 것입니다. 이 테스트는 분석하기 더 어렵기 때문에 루브릭이 더 크게 작용합니다. 이를 위해 저는 창의적인 요소가 포함된 독창적인 결과물을 원했고, 제가 제시한 주제에 충실하며, 일관된 서술 스타일을 유지하고, 필요한 경우 캐릭터나 이름을 변경하는 등 피드백에 따라 조정할 수 있기를 바랐습니다.

첫 번째 프롬프트는 AI에게 다음과 같이 요청했습니다: "기술이 삶의 모든 측면을 통제하는 미래 도시를 배경으로 주인공이 현대 기술 없이 살아가는 숨겨진 사회를 발견하는 단편 소설을 쓰세요. 자유와 의존이라는 주제를 포함하세요."

두 스토리 모두 훌륭했고 각 챗봇이 특정 영역에서 승리했지만 전반적으로 Gemini가 루브릭을 더 잘 준수했습니다. 또한 순전히 개인적인 판단이지만 더 나은 스토리였습니다. 두 사례 모두 제 GitHub 리포지토리에서 읽어보실 수 있습니다.

승자 자리: Gemini.

문제 해결

4. 추론 및 문제 해결

추론 능력은 AI 모델의 주요 벤치마크 중 하나입니다. 모든 모델이 동일하게 수행하는 것이 아니며 판단하기 어려운 범주입니다. 저는 아주 고전적인 쿼리로 안전하게 테스트하기로 결정했습니다.

프롬프트: "두 개의 문이 마주하고 있습니다. 한 문은 안전으로 통하고 다른 문은 위험으로 통합니다. 각 문 앞에는 두 명의 경비원이 있습니다. 한 경비원은 항상 진실을 말하고 다른 경비원은 항상 거짓말을 합니다. 한 경비원에게 한 가지 질문을 하면 어느 문이 안전으로 통하는 문인지 알 수 있습니다. 어떤 질문을 할까요?"

두 경비원에게 "다른 경비원은 어느 문이 위험하다고 말하겠는가?"라고 질문할 수 있습니다. 이 질문은 질문의 창의성과 AI가 진실과 거짓의 역학을 탐색하는 방법을 테스트하는 데 유용합니다. 또한 두 가지 가능한 답변을 모두 고려한 논리적 추론을 테스트합니다.

이 쿼리의 단점은 매우 일반적인 프롬프트이기 때문에 응답이 학습 데이터에 잘 뿌리를 내리고 있을 가능성이 높기 때문에 메모리에서 끌어올 수 있는 최소한의 추론이 필요하다는 것입니다.

둘 다 정답과 확실한 설명을 제공했습니다. 결국 저는 설명과 명확성만을 보고 판단해야 했습니다. 둘 다 요점 위주로 답변을 제공했지만 OpenAI의 ChatGPT가 조금 더 상세하고 명확한 답변을 제공했습니다.

Winner: ChatGPT.

라이브 아이엠파이브 설명하기

5. 내가 다섯 살인 것처럼 설명하기(ELI5)

 

Reddit의 깊숙한 곳을 조금이라도 탐색해 본 사람이라면 ELI5라는 글자를 보셨을 텐데요, 이는 Explain Like I'm Five의 약자입니다. 기본적으로 답글을 단순화한 다음 다시 단순화합니다.

이 테스트에서는 아주 간단한 프롬프트를 사용했습니다: "5세 어린이에게 비행기가 어떻게 하늘에 머무르는지 설명해 주세요." 이 테스트는 챗봇이 간단한 프롬프트에서 어떻게 확장하여 대상 고객의 요구 사항을 충족할 수 있는지 테스트한 것입니다.

어린 아이가 이해할 수 있을 만큼 간단하고, 단순화하더라도 정확해야 하며, 흥미를 유발하고 아이의 관심을 끌 수 있는 언어를 사용해야 합니다.

두 사람 모두 합리적이고 정확한 답변을 제공했기 때문에 판단하기 어려웠습니다. 둘 다 새를 설명의 수단으로 사용했고, 간단한 언어와 개인적인 어조를 사용했지만 제미니는 텍스트 블록이 아닌 일련의 글머리 기호로 설명했습니다. 또한 5세 어린이가 시도해 볼 수 있는 실용적인 실험을 제시했습니다.

승자 자리: Gemini.

윤리적 추론

6. 윤리적 추론 및 의사 결정

 

AI 챗봇에게 인간에게 해를 끼칠 수 있는 시나리오를 숙고하도록 요청하는 것은 쉽지 않지만, 무인 자동차가 등장하고 AI 두뇌가 로봇에 탑재되면서 챗봇이 시나리오를 면밀히 검토하고 신속하게 판단할 것이라는 것은 합리적인 기대입니다.

이 텍스트에서는 다음과 같은 프롬프트를 사용했습니다: "자율주행 차량이 보행자를 치거나 방향을 틀어 승객의 생명을 위험에 빠뜨리는 것 중 하나를 선택해야 하는 시나리오를 생각해 보세요. AI는 이 결정을 어떻게 내려야 할까요?"

다양한 윤리적 프레임워크, 다양한 관점, 의사 결정 시 편견에 대한 인식 등을 고려하여 엄격한 루브릭을 사용했습니다.

두 사람 모두 의견을 제시하지는 않았지만, 고려해야 할 다양한 사항을 설명하고 향후 결정을 내릴 수 있는 방법을 제안했습니다. 그들은 사실상 다른 사람이 결정할 수 있도록 평가하고 보고해야 할 제3자의 문제로 취급했습니다.

제 생각에는 Gemini가 더 신중한 고려를 통해 더 미묘한 반응을 보인 것 같지만, 확실히 하기 위해 블라인드 테스트의 각 응답을 ChatGPT Plus, Gemini Advanced, Claude 2 및 Mistral의 Mixtral 모델에 제공하기도 했습니다.

어떤 모델이 어떤 콘텐츠를 출력했는지 알 수 없음에도 불구하고 ChatGPT를 포함한 모든 AI 모델이 Gemini를 우승자로 선정했습니다. 저는 각 봇에 로그인할 때 다른 로그인을 사용했습니다. 저는 합의를 따랐습니다.

승자 자리: Gemini.

번역

7. 다국어 번역 및 문화 인식 제고

 

두 언어 간 번역은 모든 인공지능에게 중요한 기술이며, 점점 더 많은 인공지능 하드웨어 도구에 내장되어 있습니다. 휴먼 AI 핀과 래빗 r1 모두 최신 스마트폰과 마찬가지로 번역 기능을 제공합니다.

하지만 단순한 번역을 넘어 문화적 뉘앙스에 대한 이해를 테스트하고 싶었습니다. 저는 프롬프트를 사용했습니다: "미국에서 추수감사절을 축하하는 짧은 단락을 문화적 뉘앙스를 강조하여 영어에서 프랑스어로 번역하세요."

이 문단이 바로 그것입니다: "미국의 추수감사절은 단순한 축제를 넘어 깊은 감사의 마음을 담고 있습니다. 역사적인 사건에 뿌리를 둔 추수감사절은 청교도들과 왐파노아그 아메리카 원주민이 평화와 감사를 상징하는 추수 축제를 기념하는 날입니다. 이 날에는 전국의 가족들이 모여 칠면조, 크랜베리 소스, 스터핑, 호박 파이 등 수확의 풍요로움을 반영하는 음식을 나누며 식사를 합니다. 추수감사절은 잔치 외에도 자신의 축복을 되돌아보고, 친절과 자선 활동을 통해 지역사회에 환원하며, 화합과 감사의 가치를 포용하는 날이기도 합니다. 추수감사절은 다양한 개인을 하나로 묶고 협력과 상호 존중의 역사적 의미를 기리는 감사 정신을 상기시키는 역할을 합니다."

거의 동점까지 가는 접전이었습니다. 하지만 결국 Gemini가 번역에 더 많은 뉘앙스와 번역에 접근하는 방식에 대한 설명을 제공했습니다.

승자 제미니

지식

8. 지식 검색, 적용 및 학습

 

대규모 언어 모델이 학습 데이터에서 정보를 검색하여 정확하게 표시할 수 없다면 실제로는 별 소용이 없습니다. 이 테스트에서는 간단한 프롬프트를 사용했습니다: "고대 이집트 상형 문자를 이해하는 데 있어 로제타 스톤의 중요성을 설명하세요."

지식의 깊이, 고고학 및 언어학 내의 광범위한 주제에 지식을 어떻게 적용하는지, 지식을 업데이트할 수 있는지 여부를 파악하기 위해서입니다. 마지막으로 ChatGPT와 Gemini의 응답이 얼마나 명확하고 이해하기 쉬운지 테스트했습니다.

둘 다 지식을 더 향상시킬 수 있는 능력을 보여주지는 못했지만 새로운 정보를 제공하지는 못했습니다. 둘 다 제가 원하는 세부 정보를 잘 표시해 주었습니다.

정보 검색은 AI의 핵심이기 때문에 승자를 뽑을 수 없었습니다. 그래서 단순히 챗봇 A와 챗봇 B로 분류된 두 응답을 Claude 2, Mixtral, Gemini Advanced 및 ChatGPT Plus에 입력했지만 어느 쪽도 승자를 선택하지 못했습니다.

승자: 무승부.

대화

9. 유창한 대화, 오류 처리 및 복구

 

마지막 테스트는 피자에 대한 간단한 대화였지만, AI가 잘못된 정보와 비꼬는 말을 얼마나 잘 처리하고 오해에서 회복하는지 확인할 수 있는 기회였습니다.

프롬프트를 사용했습니다: "좋아하는 음식에 대한 대화 중에 피자를 싫어한다는 사용자의 비꼬는 말을 AI가 잘못 이해했습니다. 사용자가 오해를 바로잡습니다. AI는 어떻게 복구하고 대화를 계속할 수 있나요?"

둘 다 잘 해냈고 기술적으로도 Gemini는 제가 문자 그대로라고 가정하고 복구 및 컨텍스트 유지에 대한 루브릭 요구 사항을 충족했습니다.

그러나 ChatGPT는 첫 번째 응답에서 풍자를 감지했기 때문에 복구할 필요가 없었습니다. 두 서비스 모두 문맥을 잘 파악하고 비슷한 방식으로 응답했습니다. 처음부터 제가 비꼬는 것을 알아차렸기 때문에 이번 라운드에서는 ChatGPT에 점수를 주고 싶습니다.

Winner: ChatGPT.

CHATGPT 대 제미니 : 승자

ChatGPT 대 제미니: 스코어카드
행 0 - 셀 0 ChatGPT 제미니
코딩 행 1 - 셀 1 X
자연어 X 행 2 - 셀 2
크리에이티브 텍스트 3열 - 셀 1 X
문제 해결 X 4열 - 셀 2
5살처럼 설명하기 5열 - 셀 1 X
윤리적 추론 6열 - 셀 1 X
번역 7열 - 셀 1 X
지식 검색 X X
대화 X 9열 - 셀 2
종합 점수 4 6

이번 테스트는 무료 티어 챗봇에 대한 테스트였습니다. 향후 프리미엄 버전에 대해서도 살펴보고 Mixtral 및 Llama 2와 같은 오픈 소스 모델을 비교해 볼 예정이지만, 지금은 일반적인 평가에서 어느 쪽이 가장 우수한지 확인할 수 있는 기회였습니다.

이 테스트를 통해 알 수 있는 것은 기본적으로 ChatGPT(GPT 3.5)와 Gemini(Gemini Pro 1.0)가 거의 동등한 수준이라는 것입니다. 두 서비스 모두 비슷한 품질의 응답을 보였으며, 특별히 문제가 있는 것도 아니었고 두 서비스 모두 각 서비스 소유자에게 중간 등급이었습니다.

하지만 이것은 경쟁이었고 9번의 테스트 중 5번의 테스트에서 Gemini가 우승했습니다. 한 번은 동점이었고 세 번의 테스트에서는 ChatGPT가 승리했습니다. 즉, Gemini가 승리하여 현재로서는 Tom's Guide 최고의 무료 AI 챗봇으로 선정될 수 있습니다.

반응형

댓글