AI 현황에 관한 사견

10133바이트

나는 소프트웨어 개발자이긴 하지만 수학은 영 못하기도 하고 관심도 없어서 AI에 대한 이해는 조금 관심 있는 비개발자 수준을 넘지 못할 것이다. 그럼에도 내가 써본 것들 위주로 몇 자 적어두고자 한다.

이미지

이미지 생성은 이미 알파고 모먼트가 찾아왔다고 해도 될 것 같다. 인간이 (포토샵, 일러스트레이터 등 디지털 수단을 포함해) 오롯이 수공예로 만들어내는 이미지는 상업적으로 서서히 지분을 빼앗길 것이다. 낮은 비용으로 그럴싸한 이미지를 찍어내는 데에는 이미 차고도 넘치는 수준으로 기술이 발달했고, 상당한 속도로 계속해서 발전하고 있다.

AI 이미지는 아직 멀었다? 다 똑같고 티가 난다? 그거야 그쪽이 본 AI 이미지가 예쁘장하고 대체로 헐벗은 여자 이미지 뿐이니까 그렇다. 대중에게 주목받기가 쉬워서 그렇지 AI 이미지 생성 세계에서 사실 이들의 비중은 크지 않고, 따라서 돌려쓰는 기술이나 테크닉이 고만고만하다. 스테이블 디퓨전의 경우 2.0 버전이 되며 NSFW 이미지가 데이터셋에서 제외된 탓에 발전이 정체되어 있는 탓도 있다. 미드저니나 노블AI의 경우는 로컬 구동이 가능한 구조가 아니기에 구조적으로 NSFW 이미지를 뽑기가 애초에 어렵다. 그놈의 손가락 이슈는 미드저니에서 이미 크게 개선되었고, 지금의 스테이블 디퓨전을 쓴다고 해도 품을 들여 ControlNet을 사용하면 어렵지 않게 해결할 수 있다. 무식하게 손만 인페인트를 돌리는 방법도 있으며, 가장 속편하게는 손을 나오지 않게 하면 된다. 이도 아니면 사람 써서 손만 싸게 고치는 방법도 있다.

스테이블 디퓨전은 내 2060에서도 그렇게까지 나쁘지 않은 속도로 구동되며 더 낮은 사양의 그래픽 카드에서 돌리는 사람들도 있는 것으로 알고 있다. 정 GPU가 없으면 구글 코랩이 있고 비용을 조금 들여 클라우드 GPU 임대 서비스를 활용할 수도 있다. automatic1111의 웹 UI가 가장 널리 쓰이는데, 셋업 및 활용에는 기초적인 기술의 이해가 필요하지만 코랩 원클릭 인스톨러도 있으니 찍먹은 아무나 할 수 있다.

저작권에 관해서 말이 많지만 써본 입장으로서는, AI 생성 이미지의 저작권 인정을 할 수 없는 이유가 “딸깍딸깍하면 나오니까”라면 크게 틀렸다고 말하고 싶다. 마음에 드는 이미지를 뽑기 위해서는 적지 않은 시간과 노력, 지식과 기술이 필요하다. 머릿속에 담고 있는 이미지가 있다면 스케치라도 해야 하기에 더 그렇다. 데이터셋과 관련된 문제라면 머지 않아 해결될 부분이라고 생각한다. 내 의견은 인간도 살면서 봐온 이미지를 바탕으로 창작을 하는 건 지금의 생성형 AI와 하등 다를 게 없다는 쪽이다.

이미지 생성에 본격적으로 입문하고 싶다면 국내 정보는 최대한 피할 것을 추천하고 싶다. 구글에서 5초면 찾을 수 있는 UNet의 기본 구조만 봐도 알 만한 사항을 포함해, 처음부터 끝까지 그럴싸하기만 한 오정보가 너무나도 판치고 있다. 국내 이미지 생성 AI 커뮤니티는 원리에 대한 조금의 고찰도 없이 “이렇게 하니까 저렇게 되더라”의 경험칙 총집합이다. 본인이 생각하는 정보의 수준이 그 정도로도 충분하다면야 뭐 어쩔 수 없지만… 게다가 정보를 얻을 만한 곳이라봐야 아카라이브 뿐인데 가장 활성화되어 있는 AI 그림챈의 경우 2D 페도 짤이 일상적으로 올라오는 곳이라 비위 상할 일도 잦을 수 있다. 과장이 아니고 잘못 읽은 것도 아니다. 검열 없는 페도 짤이 일상적으로 올라온다.

언어

ChatGPT는 단언컨대 현 시점의 가장 뜨거운 감자이다. 극단적으로 양분된 의견이 있는데, 하나는 AGI가 마치 이미 강림하기라도 한 듯 구는 쪽과, 메타버스나 3D TV마냥 이미 죽어버린 buzzword쯤으로 치부하는 쪽이 있다. 둘 다 심각하게 틀렸다.

오늘의 언어 AI에는 사실을 지어내 말하는 이른바 hallucination을 비롯해 다양한 문제점이 있다. 다만 그런 문제들이 있다는 것만 알아두면 된다. 어느 도구를 쓰더라도 주의점을 알아야 하는 것은 똑같다. 통조림을 깔 때에도 조심해야 하는 게 세상 이치인데, AI에 고스란히 두뇌 작용을 아웃소싱하고 싶다는 심보로는 AI가 아니라 스마트폰이나 인터넷도 제대로 쓰기 힘들다. 현재 LLM의 문제로 지적되는 것들은 사람이랑 대화할 때도 똑같이 적용된다. 종이만 쓰던 시대에도 정확한 레퍼런스를 직접 찾아보지 않는다면 화를 입는 것은 피할 수 없었다. 가짜 정보가 범람하는 것은 생성형 AI의 문제라기보다 인터넷의 원죄에 가깝다. 숫자 셈을 못한다는 불만은 메모장을 놔두고 그림판을 쓰면서 텍스트를 쓰기 어렵다는 정도의 푸념과 같다고 해두자.

Alpaca, LLaMa와 같은 오픈 소스 모델들이 나오고 있긴 한데 얼른 하나가 스테이블 디퓨전마냥 평정해서 결과물만 날름 빨아먹고 싶은 심정이다. 일단 앞단은 oobabooga의 웹 UI가 automatic1111 포지션을 맡고 있는 것 같다. 이러나 저러나 하이엔드 제품이라고 해도 소비자용 GPU에서 구동할 수 있는 수준은 되는 것 같은데 새 GPU를 맞춘 다음에나 직접 돌려볼 요량이라 성능은 확인해보지 못했다. 손쉽게 사용할 수 있으며 검열 없는 언어 AI의 도래는 분명 두려운 부분이 있으나, ChatGPT가 맨날 답도 하기 전에 “AI 언어 모델로서 어쩌구 저쩌구”하는 걸 보고 있으면 다른 게 아니라 속이 터져서 오픈 소스 세계에서 제발 뭐라도 일어났으면 좋겠다.

언어 AI 모델의 활용이 앞으로 개발자의 생산성을 판이하게 바꿀 것이라는 견해가 있다. 내가 개발자 친구가 많이 없어서 주류라고는 못 하겠지만, 수많은 것들 중 가장 현실적이며 생산적인 관점이라고는 할 수 있을 것이다. 아무리 적게 잡아도 엑셀 등 스프레드시트에서 함수를 쓸 수 있느냐 정도의 차이는 불러올 것이다. CoPilot과 같은 코드 생성에 특화된 모델에 한정한 이야기가 전혀 아니다. IT 업계에서 특히 두드러지겠지만 어느 분야에서도 잠재력이 있다고 생각한다.

ChatGPT의 경우 다양한 한계를 극복하기 위해 플러그인을 붙일 수 있는 기능을 예고했고, 이게 breakthrough가 될 수 있을지는 모르겠지만 적지 않은 임팩트가 있을 것이라고 생각한다. 이런 게 처음 나오면 생태계가 채워지는 데 시간이 걸리게 마련이나 현재 ChatGPT에 집중된 그 모든 관심도를 고려하면 생각보다 금방 뭐라도 될 것 같다. 결국 얼마나 효율적이고 창의적인 플러그인이 나오느냐의 문제인데 이것도 ChatGPT의 응답을 기반으로 구성될 수 있다고 생각하니 새삼 묘하다. 반면 복잡하거나 어려운 태스크를 해결하기 위한 오픈 소스 커뮤니티의 응답으로 Auto-GPT가 있으나 arbitrary한 코드를 on-the-fly로 실행한다는 발상이 아직은 꺼림직해서 써보지 않았다.

종합

현 AI 기술에 관한 세간의 논의는 어떤 기술이건 “적절히” 사용해야 탈 없이 최대를 끌어낼 수 있다는 점을 망각한 채 이루어지는 것 같다. AI는 분명하게도 어느 정도의 활용도를 갖춘 시점에 이르렀으며 우리는 단지 그 시작을 보고 있을 뿐이다.

딥 러닝은 개발과 구동에 연산력과 에너지를 말도 안 되는 수준으로 요구한다는 점에서 여러 모로 우려되는 부분이 있지만, 스테이블 디퓨전의 성공과 잇따른 오픈 소스 LLM의 등장은 최소한 기술이 빅 테크에 종속되는 미래를 막아줄 수 있을 것 같다. 최근에는 구글 내부 문서 중 오픈 소스 개발과의 경쟁에서 이길 수 없다는 견해를 담은 것이 유출된 것으로 알려져 있다. 사내에서 지배적인 견해라고 볼 수는 없겠으나 꽤나 고무적인 사실이다.

하나 또 걱정되는 것이라면 AI 생성물이 인터넷에 대규모로 유통되고 그것과 인간의 작품을 구분하기 어려운 지경이 되었을 때의 문제이다. 바둑 기보야 승리에 관해 명시적인 규칙이 있으니 인간이 개입되지 않는 학습이 가능했으나, 이미지와 텍스트 결과물은 전적으로 인간의 활용도에 따라 판단되어야 한다는 점이 결정적으로 다르다고 생각한다. 결함이 분명한 현 언어 모델의 산출물이 다시 언어 모델의 데이터셋으로 활용되는 미래는 아직은 조금도 희망차 보이지 않는다. 테드 창은 이런 순환의 결과로 인터넷 자체가 풍화된 JPEG 이미지 같아질 수 있다는 의견을 내놓은 바 있다. 생성형 AI에 관해서 대단히 과소평가되고 있는 문제라고 생각한다.

아무튼, 일단 무식하게 데이터를 때려박고서야 성능이 나오는 현 기술의 특성 상 기조가 유지되는 한 영어가 되냐 마냐는 AI 활용도의 고점을 결정지을 것이다. 한국어로만 쓰겠다면 행운을 빈다. 최소한 지금보다 나빠지긴 어려울 것이다. AI와 관계 없이 원래부터 정보 기술은 언어에 따라 접근할 수 있는 정보의 수준과 양이 판이하게 달랐다. 번역 AI가 조금 나아진 이후로 “영어 더 이상 배울 필요가 없다”를 주창하던 모든 재야 미래학자들에게 안부를 묻는다.