인공지능

[인공지능#5] 생성형AI

오뚜기정보 2023. 10. 22. 13:22

챗GPT와 같은 생성형 인공지능(Generative AI)은 여러 산업에 혁명을 일으킬 수 있는 강력한 도구다. 몇 가지 키워드나 구체적 명령을 입력하면 AI가 학습한 대규모 데이터세트를 기반으로 새로운 문서와 이미지 등을 생성해낸다. 본 기사는 기자와 디자이너가 만든 것이 아니라 모두 생성형 AI가 생성해냈다. 생성형 AI 플랫폼 챗GPT가 내용을 썼으며, 기사의 모든 이미지 또한 미드저니가 생성했다.

 

 

생성형 AI의 정의

생성형 AI는 텍스트, 이미지, 음악, 비디오와 같은 원본 콘텐트를 생성할 수 있는 일종의 인공지능이다. 알고리즘을 사용하여 패턴을 학습하고 해당 학습을 기반으로 새로운 출력을 생성한다. 생성형 AI 시스템은 일반적으로 신경망과 같은 딥러닝 기술을 사용하여 방대한 양의 데이터를 분석하고 입력 데이터와 유사한 새로운 콘텐트를 생성한다.

생성형 AI에 대한 대중적인 접근 방식 중 하나는 GAN(Generative Adversarial Networks)을 사용하는 것이다. 이 네트워크는 새로운 콘텐트를 생성하는 생성 네트워크와 콘텐트를 평가하여 진위 여부를 결정하는 판별 네트워크 등 두 가지 신경망으로 구성된다. 두 네트워크는 생성된 콘텐트의 품질을 향상하기 위해 서로 경쟁한다.

생성형 AI는 게임 및 시각 효과를 위한 사실적인 이미지 생성, 온라인쇼핑을 위한 개인화된 추천 생성, 음악 또는 예술 작품 전체 생성 등 다양한 응용 분야를 보유하고 있다. 그러나 딥페이크나 다른 형태의 잘못된 정보 생성과 같은 생성 AI의 오용 가능성에 대한 우려도 있다.

생성형 AI가 영향을 끼칠 산업

생성형 AI는 이미 다양한 산업에 상당한 영향을 미치고 있으며 미래에 대한 전망은 매우 유망하다. 다음은 생성 AI의 영향을 받을 가능성이 있는 산업의 몇 가지 예다.

엔터테인먼트 및 미디어: 생성형 AI는 이미 게임이나 영화를 위한 더욱 사실적이고 몰입감 있는 가상 환경을 만드는 데 사용되고 있다.

전자상거래: 생성형 AI는 고객 데이터를 분석하고 제품·서비스에 대한 개인화된 추천을 생성하는 데 사용되고 있다. 이를 통해 기업은 마케팅·판매 전략을 개선하고 고객 만족도와 충성도를 높일 수 있다.

의료: 생성형 AI를 사용하여 의료 이미지를 분석하고, 의사가 질병을 더욱 정확하고 빠르게 식별하고 진단할 수 있다. 또 다양한 질병에 대한 신약·치료법을 개발하는 데 사용될 수 있다.

교육: 생성형 AI를 사용하여 학생을 위한 개인화된 학습 경험을 만들고 대화형 교육 콘텐트를 생성할 수 있다.

제조 및 설계: 생성형 AI를 사용하여 새로운 제품 설계·제조 프로세스를 생성하고 공급망·물류 운영을 최적화할 수 있다. 이를 통해 기업은 비용을 절감하고 효율성을 높일 수 있다.

생성형 AI 분야의 선도기업

오픈AI: 인류에게 안전하고 유익한 AI를 개발하고 홍보하는 데 중점을 둔 연구 기관이다. 그들은 인간과 같은 언어를 생성할 수 있는 GPT-3를 포함하여 여러 최첨단 생성형 AI 모델을 개발하는 것으로 알려져 있다.

NVIDIA: 기계학습 및 AI 애플리케이션에 사용되는 그래픽처리장치(GPU)를 개발하는 것으로 알려진 기술 회사다. 그들은 사람과 물체의 사실적인 이미지를 생성할 수 있는 StyleGAN을 포함하여 몇 가지 강력한 생성형 AI 모델을 개발했다.

구글: AI 기술 개발의 오랜 역사를 가지고 있으며 다양한 애플리케이션을 위한 생성형 AI 모델 개발에 적극적으로 참여하고 있다. 예를 들어 자연어 텍스트를 생성할 수 있는 T5라는 언어 모델을 개발했다.

어도비: 디자이너와 아티스트를 위한 창의적인 도구를 개발하는 것으로 알려진 소프트웨어 회사다. 그들은 색상 팔레트를 생성하고 사용자 입력을 기반으로 디자인을 제안할 수 있는 어도비 센세이(Adobe Sensei)라는 도구를 포함하여 여러 생성형 AI 도구를 개발했다.

IBM: 최첨단 AI 기술을 개발하는 것으로 알려진 기술 회사다. 그들은 사용자 입력에 대한 자연어 응답을 생성할 수 있는 왓슨이라는 생성형 AI 도구를 개발했다.

인공일반지능(AGI)의 등장과 한계 및 우려점

AGI는 AI 시스템이 인간이 할 수 있는 모든 지적 작업을 수행할 수 있는 능력을 말한다. AGI의 개발은 많은 분야를 혁신하고 복잡한 문제를 해결할 수 있는 잠재력을 가지고 있지만 고려해야 할 중요한 제한 사항과 우려 사항도 있다.

제한 사항

기술적 한계: AGI 개발은 아직 초기 단계이며 극복해야 할 기술적 과제가 많다. 예를 들어, 현재 AI 시스템은 자연어를 이해하고 복잡한 데이터를 해석하는 능력이 여전히 제한적이다.

윤리적 한계: AI가 더욱 발전함에 따라 프라이버시, 편견 및 책임과 관련된 문제를 포함하여 AGI의 윤리적 영향에 대한 우려가 있다.

경제적 한계: AGI의 광범위한 채택은 잠재적으로 특정 산업에서 상당한 실직과 경제적 혼란으로 이어질 수 있다.

우려 사항

제어 및 안전: AGI 시스템이 안전하고 오작동 또는 의도하지 않은 결과가 발생할 경우 제어할 수 있는지 확인하는 방법에 대한 우려가 있다.

예측 불가능성: AGI 시스템이 더욱 발전함에 따라 동작 및 의사결정 프로세스를 예측하기가 더욱 어려워진다. 이러한 예측 불가능성은 AGI 시스템이 인간이나 사회 전체에 유해한 방식으로 작용할 가능성에 대한 우려를 불러일으킨다.

인간과 상호작용: 인간과 상호작용하도록 설계된 AGI 시스템은 인간의 감정을 이해하고 적절하게 대응할 수 있어야 한다. 이러한 시스템이 인간에게 해를 끼치거나 고통을 주지 않도록 하는 방법에 대한 우려가 있다.

결론적으로 AGI의 출현은 많은 분야에 혁명을 일으킬 수 있는 잠재력을 가지고 있지만 안전하고 윤리적인 발전을 보장하기 위해서는 해결해야 할 중요한 한계와 우려가 있다. AGI가 책임감 있고 유익한 방식으로 개발되도록 연구원, 정책 입안자 및 이해 관계자가 협력하는 것이 중요하다.

[박스기사] 챗GPT가 소개하는 주요 생성형 AI 공개 플랫폼

챗GPT, 달리(DALL-E), 미드저니(MidJourney), 딥마인드(DeepMind) 등 생성형 AI 플랫폼은 최근 폭발적으로 활용되고 있다.

챗GPT: 오픈AI는 자연어 생성에 사용되는 GPT(Generative Pretrained Transformer)와 텍스트 설명에서 이미지를 생성하는 모델인 DALL-E를 포함하여 여러 생성형 AI 모델을 개발했다. 이러한 모델은 언어 번역에서 콘텐트 생성에 이르기까지 다양한 애플리케이션에서 사용된다.

달리(DALL-E): 텍스트 설명에서 이미지를 생성할 수 있다. 이 모델은 동물, 가구 등 일상적인 개체에서 ‘젤리 빈으로 만든 큐브’와 같이 추상적인 개념에 이르기까지 다양한 개체의 이미지를 생성할 수 있다. 이 기술은 제품 디자인, 게임, 시각 효과와 같은 분야에서 잠재적으로 응용할 수 있다.

미드저니(MidJourney): 드레스, 상의, 바지 등 패션 아이템의 이미지를 생성할 수 있는 제너레이티브 AI 모델 민디(Mindi)를 개발한 스타트업이다. 이 기술은 딥 러닝을 사용하여 기존 패션 디자인을 분석, 학습하고 독창적이고 심미적으로 만족스러운 새로운 디자인을 생성한다. 생성된 디자인은 색상, 질감, 패턴 등 여러 요소를 기반으로 사용자를 정의할 수 있어 패션 디자이너와 브랜드에 매력적인 도구다.

딥마인드(DeepMind): 고급 AI 기술 개발에 중점을 둔 연구 기관이다. 그들은 바둑에서 세계 챔피언을 이긴 프로그램인 AlphaGo와 단백질 구조를 예측할 수 있는 프로그램인 AlphaFold를 포함하여 여러 생성형 AI 모델을 개발했다. 이러한 모델은 약물 발견, 맞춤의학과 같은 분야에서 잠재적으로 응용할 수 있다.

 

 

 

 

생성형 AI의 작동 방식

ChatGPT와 놀랍도록 논리 정연한 대화를 경험했거나 사용자의 설명을 바탕으로 Midjourney가 진짜 같은 그림을 그려내는 것을 보았다면, 생성형 AI가 마법처럼 느껴질 수 있습니다. 이러한 마법의 비결은 무엇일까요?

AI 애플리케이션을 사용할 때 딥러닝 모델은 방대한 양의 훈련 데이터에서 학습한 패턴을 재생성합니다. 그런 다음 인간이 구성한 매개 변수 내에서 지금까지 학습한 내용을 바탕으로 새로운 것을 만들어 냅니다.

딥러닝 모델은 훈련 데이터의 복사본이 아니라 유사한 데이터 포인트가 가깝게 배열된 인코딩된 버전을 저장합니다. 그런 다음 이 표현은 디코딩되어 유사한 특징을 가진 새로운 원본 데이터를 구성합니다. 

사용자 정의 생성형 AI 애플리케이션을 빌드하려면 모델뿐만 아니라 인간이 감독하는 미세 조정 또는 활용 사례별 데이터 레이어와 같은 조정이 필요합니다.

오늘날 널리 사용되는 생성형 AI 애플리케이션은 대부분 사용자 프롬프트에 응답합니다. 원하는 것을 자연어로 설명하면 생성형 AI 애플리케이션이 마치 마법처럼 요청한 것을 출력합니다.

생성형 AI의 활용 사례로는 무엇이 있나요?

글쓰기와 이미지 영역에서 생성형 AI의 획기적인 발전은 뉴스 헤드라인을 장식하고 사람들의 상상력을 사로잡았습니다. 다음은 빠르게 발전하는 생성형 AI 기술의 몇 가지 초기 활용 사례입니다.

글쓰기. ChatGPT가 헤드라인을 장식하고 스스로 글을 쓰기 시작하기도 전에 생성형 AI 시스템은 이미 인간의 글쓰기를 모방하는 솜씨가 훌륭했습니다. 언어 번역 툴은 생성형 AI 모델의 첫 활용 사례들 중 하나였습니다. 오늘날의 생성형 AI 툴은 실질적으로 모든 주제에 대한 고품질 콘텐츠 생성 프롬프트에 응답할 수 있습니다. 이러한 툴은 다양한 길이와 문체로 글을 쓸 수도 있습니다.

이미지 생성. 생성형 AI 이미지 툴은 프롬프트에 대한 응답으로 고품질 사진들을 합성하여 무수히 많은 피사체와 스타일을 생성할 수 있습니다. Adobe Photoshop의 Generative Fill과 같은 일부 AI 툴은 기존 작품에 새로운 요소를 추가할 수 있습니다.

음성 및 음악 생성. 작성된 텍스트와 사람 목소리의 샘플 오디오를 사용하여 AI 보컬 툴은 실제 사람의 소리를 모방하는 내레이션이나 노래를 만들 수 있습니다. 프롬프트나 샘플에서 인공지능으로 음악을 창작하는 다른 툴도 있습니다.

동영상 생성. 새로운 서비스들이 모션 그래픽을 만들기 위해 다양한 생성형 AI 기술을 실험하고 있습니다. 예를 들어, 일부 서비스는 오디오를 스틸 이미지와 매칭하고 피사체의 입과 얼굴 표정을 말하는 것처럼 보이게 만들 수 있습니다.

코드 생성 및 완성. 일부 생성형 AI 툴은 소프트웨어 개발자를 지원하기 위해 요청 시 작성된 프롬프트를 가져와 컴퓨터 코드를 출력할 수 있습니다.

데이터 증강. 생성형 AI는 실제 데이터를 사용하는 것이 불가능하거나 바람직하지 않을 때 대량의 합성 데이터를 생성할 수 있습니다. 예를 들어, 개인 식별 정보를 포함하지 않고 보건 의료 데이터를 이해하도록 모델을 훈련하려는 경우 합성 데이터가 유용할 수 있습니다. 또한 훈련이나 테스트를 목적으로 소규모이거나 불완전한 데이터 세트를 대규모의 합성 데이터 세트로 확장할 때도 합성 데이터를 사용할 수 있습니다.

딥러닝이란?

생성형 AI의 기반이 되는 딥러닝은 대량의 데이터를 분석하고 해석하기 위한 머신 러닝 기술입니다. 딥 뉴럴 러닝 또는 딥 뉴럴 네트워킹이라고도 하는 이 프로세스는 컴퓨터가 인간이 지식을 얻는 방식을 모방하여 관찰을 통해 학습하도록 가르칩니다. 딥러닝은 인간 언어를 컴퓨터에 이해시키는 기술, 즉 자연어 처리(NLP)에 있어 중요한 개념입니다.

딥러닝을 입력 레이어에서 시작하여 출력 레이어로 끝나는 흐름도의 한 유형으로 생각하면 도움이 될 수 있습니다. 이 두 레이어 사이에는 다양한 수준의 정보를 처리하고 새로운 데이터를 지속적으로 수신할 때 동작을 조정하는 '숨겨진 레이어'가 있습니다. 딥러닝 모델에는 수백 개의 숨겨진 레이어가 있을 수 있으며, 각 레이어는 데이터세트 내의 관계와 패턴을 발견하는 데 관여합니다. 

여러 노드로 구성된 입력 레이어에서부터 시작하여 데이터는 모델에 도입되고 적절히 분류된 후에 다음 레이어로 이동합니다. 데이터가 각 레이어를 통과하는 경로는 각 노드에 설정된 계산을 기반으로 합니다. 결국 데이터는 각 레이어를 통과하면서 관측치를 수집하여 그 과정에서 궁극적으로 데이터의 출력 또는 최종 분석을 생성합니다.

딥러닝의 발전 속도를 가속화한 기술이 그래픽 처리 장치(GPU)입니다. GPU는 원래 비디오 게임 그래픽의 렌더링을 가속화하기 위해 설계되었습니다. 그러나 병렬식 계산을 수행하는 효율적인 방법으로서 GPU는 딥러닝 워크로드에 매우 적합한 기술로 입증되었습니다.

딥러닝 모델의 크기와 속도의 획기적 발전은 현재의 획기적인 생성형 AI 애플리케이션의 물결로 직접 이어졌습니다.

신경망이란?

신경망은 우리 뇌의 연결과 같은 생물학적 신경계를 모방한 정보 처리 방식입니다. AI가 겉보기에는 관련성이 없는 정보 세트들 간에 연결 관계를 생성할 수 있는 것은 바로 이 신경망이 있기 때문입니다. 신경망의 개념은 딥러닝과 밀접한 관련이 있습니다.

딥러닝 모델은 신경망 개념을 사용하여 어떻게 데이터 포인트들을 연결할까요? 인간의 뇌가 작동하는 방법부터 살펴보겠습니다. 인간의 뇌는 상호 연결된 많은 뉴런을 포함하고 있으며 이러한 뉴런은 뇌가 수신하는 데이터를 처리할 때 정보 전달자 역할을 합니다. 이 뉴런들은 서로 통신하고 뇌의 다른 영역 간에 정보를 전달하기 위해 전기 자극과 화학 신호를 사용합니다. 

인공 신경망(ANN)은 이러한 생물학적 현상을 기반으로 하지만, 노드라고 하는 소프트웨어 모듈로 만들어진 인공 뉴런에 의해 형성됩니다. 이러한 노드는 (뇌의 화학 신호 대신) 수학적 계산을 사용하여 정보를 전달하고 전송합니다. 이 시뮬레이션 신경망(SNN)은 데이터 포인트를 클러스터링하고 예측하여 데이터를 처리합니다.

다양한 신경망 기술은 여러 종류의 데이터에 적합합니다. 순환 신경망(RNN)은 언어를 처리하기 위한 방법으로 단어를 순차적으로 학습하는 것과 같이 순차 데이터를 사용하는 모델입니다.

RNN에 착안한 트랜스포머(transformer)는 언어를 더 빠르게 처리할 수 있는 특수한 종류의 신경망 아키텍처입니다. 트랜스포머는 문장에서 단어들의 관계를 학습합니다. 이는 각 단어를 순차적으로 수집하는 RNN보다 더 효율적인 프로세스입니다.

대규모 언어 모델(LLM)은 트랜스포머를 일반화된 대규모 데이터 세트에 적용하여 훈련된 딥러닝 모델입니다. LLM은 널리 사용되는 여러 AI 채팅 툴과 텍스트 툴을 지원합니다.

또 다른 딥러닝 기술인 확산 모델은 이미지 생성에 적합하다는 것이 입증되었습니다. 확산 모델은 자연 이미지를 흐릿한 시각적 노이즈로 전환하는 프로세스를 학습합니다. 그런 다음 생성형 이미지 툴이 프로세스를 이어받아 반전시켜 임의의 노이즈 패턴부터 시작해 실제 사진과 유사해질 때까지 조정합니다.

딥러닝 모델은 매개 변수로 표현됩니다. 대출 신청서에 있는 10개의 입력값을 토대로 훈련된 간단한 신용 예측 모델의 경우 매개 변수가 10개가 될 것입니다. 이와 달리 LLM의 매개 변수는 수십억 개에 달할 수 있습니다. ChatGPT의 기반 모델 중 하나인 OpenAI의 GPT-4(Generative Pre-trained Transformer 4)는 1조 개의 매개 변수를 가지고 있다고 보고된 바 있습니다.

 

기반 모델이란?

기반 모델은 대량의 일반 데이터를 기반으로 훈련된 딥러닝 모델입니다. 훈련이 완료된 후에는 모델을 개선해 전문화된 활용 사례를 만들 수 있습니다. 이름에서 알 수 있듯이, 이러한 모델은 여러 다양한 애플리케이션의 기반을 형성할 수 있습니다.

오늘날 새로운 기반 모델을 만드는 것은 규모가 상당한 프로젝트입니다. 일반적으로 인터넷, 디지털 도서관, 학술 자료 데이터베이스, 스톡 이미지 컬렉션 또는 기타 대규모 데이터 세트에서 수집되는 막대한 양의 훈련 데이터가 필요한 프로세스이기 때문입니다. 이 정도의 데이터를 기반으로 모델을 훈련하려면 GPU의 클라우드를 구축하거나 임대하는 등 막대한 인프라가 필요합니다. 현재까지 최대 규모의 기반 모델의 경우 구축 비용이 수억 달러에 이른다고 알려져 있습니다.

처음부터 새로 기반 모델을 훈련하는 데는 많은 노력이 필요하기 때문에 제3사가 훈련한 모델에 사용자 정의를 적용하는 것이 일반적입니다. 기반 모델을 사용자 정의하는 기술에는 여러 가지가 있습니다. 여기에는 미세 조정, 프롬프트 조정, 그리고 고객별 또는 도메인별 데이터 추가가 포함될 수 있습니다.

미세 조정이란?

미세 조정은 특정 작업이나 도메인에 더 적합한 새로운 모델을 만들기 위해 기반 모델을 개선하는 프로세스입니다. 조직은 다목적 모델을 사용하지 않고, 원하는 활용 사례에 맞는 훈련 데이터를 추가할 수 있습니다.

일반적으로 초기 훈련에 비해 미세 조정에 필요한 데이터와 시간이 훨씬 적습니다. 기반 모델의 훈련 기간이 몇 주에서 몇 개월 단위인 것에 비해 미세 조정 프로세스는 몇 시간에 불과합니다.

미세 조정은 사용자에게 어떻게 도움이 될까요? 다목적 모델을 사용 중이라면 원하는 결과를 얻도록 AI 애플리케이션에 프롬프트를 표시할 때마다 구체적인 예시와 지침을 입력해야 할 수도 있습니다. 그러나 미세 조정을 이용하면 어떤 종류의 결과를 원하는지 예측하는 작업이 이미 수행되어 있습니다. 따라서 프롬프트를 더 간단하게 작성할 수 있으므로 시간과 리소스 사용량을 줄일 수 있습니다.

생성형 AI의 리스크는 무엇이 있을까요?

단기간에 큰 발전을 이룬 생성형 AI 기술은 긍정적, 부정적으로 모두 큰 반향을 일으켰습니다. 생성형 AI 기술의 장단점은 여전히 밝혀지는 중입니다. 지금부터는 생성형 AI에 관한 주요 우려 사항을 간단하게 살펴보겠습니다.

위험 초래. 악의적인 사용자가 소셜 미디어의 대규모 허위 정보 캠페인 또는 실제 인물을 겨냥한 무단 딥페이크 이미지와 같이 악의적인 목적에 생성형 AI 툴을 사용하는 경우처럼 즉각적이고 분명한 위험이 존재합니다.

유해한 사회적 편향 강화. 생성형 AI 툴은 위험한 고정 관념과 혐오 발언 등 훈련 데이터에 존재하는 인간의 편향을 반복하는 것으로 나타났습니다.

잘못된 정보 공급. 생성형 AI 툴은 명백히 잘못된 가짜 정보와 장면을 생산할 수 있으며, 이를 “환각”이라고도 합니다. 생성된 콘텐츠의 오류 중에는 채팅 질문에 대한 무의미한 답변이나 손가락이 너무 많이 달린 사람 손 이미지처럼 무해한 것들도 있습니다. 그렇지만 섭식 장애에 관한 질문에 위험한 조언을 제공한 챗봇처럼 AI의 실수가 심각한 문제를 초래한 사례가 있습니다.

보안 리스크와 법적 위험. 생성형 AI 시스템은 보안 리스크를 초래할 수 있습니다. 보안 설계가 적용되지 않은 애플리케이션에 사용자가 민감한 정보를 입력하는 경우가 그에 해당합니다. 생성형 AI의 응답은 저작권 보호 콘텐츠를 재생산하거나 실제 사람의 음성이나 신원을 동의 없이 도용하여 법적 위험을 초래할 수 있습니다. 또한 일부 생성형 AI 툴은 사용이 제한적일 수 있습니다.