AI가 거품인 이유

개발로그

AI가 거품인 이유

ddony8128 2026. 2. 16. 08:41

(2025년 8월 25일 시점에서 작성한 글입니다.)

GPT 5가 공개된 지 일주일 정도 되었다. 샘 알트먼은 GPT 5를 두고 ‘맨해튼 프로젝트에 비견된다’, ‘너무 똑똑해 스스로 쓸모없음을 느꼈다’ 같은 다소 호들갑스러운 발언을 했다. 그러나 막상 공개 이후 평가는 냉정하다. ‘여전히 헛소리가 많다’, ‘그렇게 똑똑하지 않다’. 필자는 샘 알트먼의 이런 과장된 발언이 오히려 OpenAI와 업계의 불안감을 드러낸다고 생각한다.

내가 이번 달까지 다니던 회사는 LLM을 활용한 프로덕트를 만드는 스타트업이었기에, 새로운 모델이 나올 때마다 직접 테스트해볼 수 있었다. 시스템 설계와 프롬프팅을 하면서 때로는 성능에 감탄하기도 했고, 때로는 AI의 한계를 실감하기도 했다.

그렇기에 일반적인 개발자 혹은 비개발자들보다는 LLM에 대해 비교적 잘 알고 있다고 자부한다. 현재 LLM에 대한 세간의 평가는 다소 거품이 끼어 있다고 생각한다.

1. 똑똑한 입력이 여전히 필요하다

한동안 ‘프롬프트 엔지니어링은 끝났다’라는 말이 돌았다. 대충 물어봐도 모델이 알아서 원하는 대로 해준다는 이야기다. 절대 그렇지 않다.

가성비를 맞추기 위해 프로덕트에 GPT-4.1, GPT-4.1 mini 모델을 사용했다. 얼마나 말을 안 듣는지, 프롬프팅을 제대로 해보지 않은 사람은 체감하기 어려울 것이다. ‘반드시 영어로 답하라’라고 해두어도 사용자가 한국어로 질문하면 한국어로 답해버린다. ‘주어진 정보만 활용하라’라고 해도 존재하지 않는 유튜브 영상을 만들어낸다.

‘프롬프팅을 잘 못해서 그런 것 아니냐’고 반박할 수도 있다. 맞다, 나는 프롬프트 전문가는 아니다. 개발과 기획을 병행하는 와중에 프롬프팅‘도’ 해야 하는 상황이었는데, 두세 시간을 붙잡고 GPT를 조련해야 했다는 사실 자체가 LLM이 아직 갈 길이 멀다는 방증이라고 생각한다.

2. 비싸고 비효율적이다

LLM 모델 개발에는 막대한 비용과 방대한 고품질 데이터가 필요하다. 그렇게 투자해도 좋은 결과가 보장되는 것은 아니다. LLM 학습 과정은 여전히 시행착오와 노하우 의존도가 높다.

모델을 운영하는 데에도 많은 비용이 들어간다. 토큰 하나를 생성할 때마다 수십억 개 파라미터가 동원된 연산이 돌아가며 전기와 컴퓨팅 자원을 소모한다. API 단가가 높을 수밖에 없는 이유다.

그럼에도 LLM 기술을 주력으로 활용하는 회사 중에서 안정적인 순이익을 내는 곳은 드물다. LLM이 창출하는 부가가치를 비용보다 크게 만드는 일은 생각보다 쉽지 않다.

3. AI만으로는 부가가치를 창출할 수 없다

기존 직무에 AI를 도입해 생산성을 높이는 것을 AX라고 한다. 필자가 다니던 회사에서도 건설사를 대상으로 AX 프로젝트를 진행했지만 쉽게 진척되지 않았다. 경영진의 니즈와 실무진의 니즈가 달랐고, 건설 실무를 이해하는 데에도 시간이 오래 걸렸다. 무엇보다 데이터 상태가 매우 지저분했다.

AX를 위해서는 경영진과 실무진의 니즈를 모두 이해해야 하고, 동시에 그들이 AI에 대해 올바르게 이해하도록 도와야 한다. AI가 무엇을 할 수 있고 무엇을 못 하는지, 직무 프로세스 중 어디에 AI를 투입해야 효과가 나는지 합의가 이루어진 뒤에야 테스트가 가능하다. 이후에도 능률 향상을 구체적인 수치로 검증하고 지속적으로 다듬는 과정이 필요하다. 실제로 LG CNS에서도 고객사 교육, MVP 개발, 반복 테스트 등 긴 과정을 거쳐야 효과를 본다고 알려져 있다.

AI로 부가가치를 창출하려면 뛰어난 AI 기술 자체보다 사업 감각, UX 설계, 현업 이해가 훨씬 중요하다. GPT가 쓸 만해진 지 3년이 지난 지금도 업계의 관심이 모델 개발에 과도하게 쏠려 있어, LLM을 성공적으로 활용하는 회사가 아직 많지 않다고 본다.

4. 벤치마크가 점점 유명무실해지고 있다

새 모델이 나올 때마다 높은 벤치마크 점수를 내세우는 것이 일종의 관행이 되었다. 문제는 그 벤치마크들이 생각만큼 객관적이지 않다는 점이다. LLM은 ‘범용’ 도구이기 때문에 어떤 벤치마크를 선택하느냐에 따라 성적표가 크게 달라진다.

모델을 특정 벤치마크에 맞춰 학습시키거나, 점수가 잘 나온 벤치마크만 선별적으로 공개하는 것도 충분히 가능하다. 실제로 최근 기대하고 사용해본 모델들 중에서도 몇 번의 문답만에 과대포장임을 체감한 경우가 적지 않았다.

마치 LLM 자체만으로 세상이 곧바로 바뀔 것처럼 이야기하는 사람들이 많다. 또 자사 모델이 세계 최고 수준이라고 과장하는 회사들도 적지 않다. 닷컴 버블과 유사한 흐름이 일부 나타나고 있다고 생각한다. 과도한 낙관주의와 호들갑은 경계할 필요가 있다.

막연히 AI를 ‘알 수 없는 엄청난 것’으로 치부하기보다, 현실적으로 자신의 일상이나 직무에 어떻게 적용할 수 있을지 차분히 탐색해보기를 권한다.

저작자표시 비영리 동일조건 (새창열림)