[SN59] 실시간 통역 Babelbit
- source: https://x.com/babelbit/status/2036824717500338429
- translate: https://bittensor.kr

실시간 통역까지의 30년 여정
수십 년의 협업이 Babelbit으로 이어지기까지 — 그리고 끝내 열리지 못한 축배
2024년 8월 15일. 두 아버지가 이메일로 딸들의 A-레벨 시험 결과를 축하했다. Babelbit 창업자 매슈 카라스(Matthew Karas)의 아들은 케임브리지에, 마이크 린치(Mike Lynch)의 딸 한나(Hannah)는 옥스퍼드에 합격했다.
두 사람은 다음 주에 만나 맥주 한 잔 하기로 했다. 매슈의 동료이자 현재 Babelbit의 공동 창업자인 조시 그라이퍼(Josh Greifer)에게도 나눌 소식이 있었다. 수년 간 쫓아온 돌파구가 열린 것이다. 음성 변환 지연 시간 50 밀리초. 잠재적으로는 25ms까지.
음성 기술 분야에서 30년을 일한 끝에, 매슈는 마침내 실시간 통역을 가능하게 할 마지막 퍼즐 조각을 손에 쥐었다.
마지막 퍼즐을 채우기 전, 마이크 린치는 나흘 후 요트 사고로 세상을 떠났다.
그 맞춰진 퍼즐이 Babelbit이 되었다. 이것이 그 이야기의 전부다.
28년간의 협업
매슈와 마이크 린치가 처음 만난 것은 1996년이었다. 매슈는 뉴스 인터내셔널(News International)과 BT의 합작 벤처에서 영국 최초의 주요 웹 포털 중 하나를 구축하고 있었다. 마이크는 막 Autonomy를 창업하여 "다이나믹 리즈닝 엔진(Dynamic Reasoning Engine)"을 개발하고 있었는데, 이는 텍스트의 의미를 이해하는 통계적 접근 방식으로 시대를 수십 년 앞선 기술이었다.
당시 대부분의 전문가들은 의미를 추출하려면 문장을 문법적으로 파싱해야 한다고 믿었다. 마이크는 통계 분석이 그보다 더 잘할 수 있다고 확신했다. 케임브리지 대학원 시절 문법적 접근 방식의 한계를 직접 체험한 매슈는 즉각 동의했다.

두 사람은 함께 1996년 기준으로 마법처럼 보이는 것을 만들어냈다. 지금은 어디서나 볼 수 있는 "이와 유사한 기사(More Like This)" 기능이다. 누구도 수동으로 태그를 달거나 분류 체계를 만들지 않아도, 신문·백과사전·속보 등 전혀 다른 매체에 걸쳐 관련 기사를 동적으로 추천할 수 있었다.
뉴스코프(News Corp)의 미국 동료들이 이를 보고 실리콘밸리로 가져가라고 했다. 하지만 그 혁신은 매슈의 것이 아니었다 — 수백 주에 걸친 마이크의 다이나믹 리즈닝 엔진 연구 위에서 만들어진 것이었다.
이것이 이후 28년간 반복될 패턴이었다. 매슈는 마이크가 개발하거나 투자하는 핵심 기술에서 실생활의 응용 가능성을 찾아냈다.
BBC: 대규모 검증
1997년, 매슈는 BBC 뉴스 온라인 개발을 이끌어 달라는 요청을 받았다. 그는 Autonomy를 함께 데려왔다.
과제는 이랬다. 중국어, 아랍어, 러시아어, 스페인어, 웨일스어를 포함해 최종적으로 47개 언어에서 작동하는 다국어 검색 엔진을 구축하는 것. 출시까지 다섯 달, 기술 부채에 허덕이는 소규모 팀으로.
Autonomy 엔진에는 결정적인 장점이 있었다. 자신이 처리하는 언어가 무엇인지 알지 못한다는 것이었다. 핵심 알고리즘은 영어든 중국어든 동일하게 작동했다. 단어 경계가 없는 중국어의 경우, 매슈는 간단한 단어 분리기를 구현하여 문자를 DRE에 입력했고, 첫 시도에 바로 작동했다.

1998년의 일이다. 바이두(Baidu)는 2년 후에야 설립된다.
그 외에도 여러 혁신을 만들어냈다.
- 수년에 걸친 관련 기사를 시간순으로 정렬하는 타임라인 생성기
- SEO를 위한 자동 메타태그 생성 — 베이지안 주제 추출로 핵심 키워드를 식별
- 같은 속보 기사가 다섯 개씩 뜨는 현상을 방지하는 관련성 점수 시스템
하지만 가장 중요한 혁신은 나중에, 매슈가 Autonomy의 텍스트 분석과 음성 인식을 결합했을 때 탄생했다.
음성 인식의 돌파구
케임브리지 대학원 시절 매슈는 자연어 처리와 음성 처리를 모두 연구했다. 그의 교수 두 명은 고급 음성 인식을 구현하는 회사를 창업했다. 스티브 영(Steve Young, 마이크로소프트에 매각된 Entropic)과 토니 로빈슨(Tony Robinson, Autonomy에 매각된 Softsound이다.
매슈는 대부분의 사람들이 놓친 것을 깨달았다. 음성 인식은 받아쓰기를 위한 것만이 아니라는 사실이다. 색인(indexing)을 위한 것이기도 하다.
음성 인식 시스템이 오디오를 처리할 때, 모든 단어의 정확한 타임스탬프를 알고 있다. 출력 텍스트를 색인화하면 녹음된 음성을 검색하고, 특정 단어가 발화된 그 순간으로 바로 이동할 수 있다.
BBC에서는 영상 클립이 1분 정도에 불과해 활용도가 제한적이었다. 하지만 원리 자체는 유효했다. 말한 내용을 검색하고 말한 시점으로 이동할 수 있다면, 녹음된 음성을 다루는 방식 자체를 혁신할 수 있었다.
매슈는 BBC를 떠나 이 아이디어를 여러 회사에서 10년에 걸쳐 발전시켰고, 결국 토니 로빈슨의 팀과 Dremedia라는 회사에서 다시 함께 일하게 됐다.
Dremedia: 20년 앞선 기술
어떤 돌파구는 그냥 시대를 너무 앞서 온다. 2001년에서 2003년 사이, 매슈의 회사 Dremedia는 놀라운 것을 만들어냈다.
- 컷-앤-페이스트 영상 편집: 스크립트를 붙여 넣으면 러프 컷이 만들어진다
- 가라오케 방식의 언어 학습: 아무 단어나 클릭하면 발음을 들을 수 있다
- 화면 속 텍스트로부터 검색 가능한 메타데이터 생성: 축구 선수 유니폼의 글씨조차 검색이 됐다
- 인터뷰 특정 구간의 즉각 검색 및 재생
이사회에 참여했던 다큐멘터리 감독 로저 그라프(Roger Graef)는 이 시스템이 편집 시간을 75%까지 단축할 수 있다고 추산했다.

더 타임스(The Times)는 Dremedia의 혁신 기술을 보도했고, 인디펜던트(The Independent)는 매슈 카라스를 2002년 '주목할 인물'로 선정했다.
문제는 영화 산업이 준비되어 있지 않았다는 것이다. 대부분의 편집자들은 여전히 면도날로 35mm 필름을 자르는 방식에 감성적 애착을 갖고 있었다. 관심을 보인 구매자들도 불가능한 명제에 봉착했다. 전 직원 재교육, 글로벌 시장 재편, 그리고 4배 빠르기 때문에 시간당 4배 더 받는다는 논리를 어떻게 납득시킬 것인가.
이 기술은 Autonomy에 합병되어 결국 기업 시장 — 수백만 분의 영상을 정리해야 하는 은행과 통신사 — 으로 팔려 나갔다. 금융 기관은 편집 기법에 감성적 애착을 갖고 있지 않았다.
하지만 매슈는 중요한 것을 증명해냈다. 녹음된 음성을 텍스트처럼 검색 가능하게 만들 수 있다는 것을.
Neurence라는 돌파구
시간을 돌려 2019년. 마이크는 인보크 캐피털(Invoke Capital)을 출범시키고 AI 스타트업에 투자하고 있었다. 그중 하나가 Neurence로, "칵테일 파티 문제" — 소음이 많은 환경에서 특정 목소리를 분리하는 방법 — 를 연구하고 있었다.
팀은 표준적인 접근 방식을 쓰고 있었다. 신경망을 훈련시켜 잡음 섞인 음성을 깨끗한 음성으로 변환하는 것. 매슈는 다른 방법을 제안했다.
변환하는 대신, 음성을 인식하고 처음부터 다시 합성하면 어떨까. 음소(소리)와 화자의 특성(억양, 음높이, 개인적 특이성)을 추출한 뒤, 처음부터 잡음이 없었던 것처럼 완벽한 음성을 생성하는 것이다.
마이크와 Neurence CEO는 더 빠른 결과를 원했고, 변환 방식을 고수했다. 매슈는 프로젝트를 떠났다.
2년 후, 그들은 매슈의 방식을 시도했다. 즉시 작동했다. 수정처럼 맑은 음성이었다. 하지만 문제가 있었다. 지연 시간이었다. 소리를 정확하게 식별하려면 인식 윈도우가 충분히 길어야 했기 때문에, 최소 250ms, 아마도 그 이상이 필요했다.
그리고 2024년 8월, 조시가 매슈에게 믿기 어려운 소식을 전했다. 해결했다고. 50ms 지연. 잠재적으로 25ms.
매슈는 조시에게 그 기술을 세 번, 네 번 반복해서 설명해 달라고 했다. 그러다 번쩍했다.
"이제 알겠어… 다음에 올 말을 예측하는 거구나."
계시
"다음에 올 말을 예측한다"는 그 한 마디가 모든 것을 열었다.
누군가가 말을 끝내기 전에 그 다음 내용을 예측할 수 있다면, 말이 끝나기 전에 번역을 시작할 수 있다. 단어 단위가 아니라. 완전한 구(句) 단위로.
누군가가 "I pledge allegiance to the..."라고 말할 때, "flag"라는 단어를 기다릴 필요가 없다. 의미를 학습한 LLM은 98%의 확신으로 예측한다: "flag of the United States of America and to the Republic for which it stands."
완전한 구절. 이미 번역 중. 말하기도 전에.
이것이 바로 인간 통역사의 작동 방식이다. 문장이 끝날 때까지 기다리지 않는다. 맥락을 바탕으로 발화의 방향을 예측하고 화자보다 앞서 통역을 시작한다.
30년 동안 기계는 이것을 할 수 없었다.
구(句) 단위 예측이 모든 것을 바꾼다. 통역 수준의 품질을 유지하면서 3초 미만의 지연.
왜 Bittensor인가
매슈에게는 아키텍처가 있었다. 30년의 도메인 전문성이 있었다. 구 단위 예측으로 실시간 통역에 필요한 지연 시간을 달성할 수 있다는 증거가 있었다.
하지만 2024년에 중앙화된 음성 번역 회사를 세운다는 것은 수십억 달러의 컴퓨팅 자원과 확립된 유통망을 가진 구글, 메타, OpenAI와 경쟁한다는 의미였다.
Bittensor는 다른 길을 제시했다.
최고의 모델이 승리하는 탈중앙화 네트워크. 경쟁적 마이닝을 통해 컴퓨팅이 확장되는 구조. 서브넷 토큰이 투기가 아닌 실행을 추적하는 시스템.
매슈는 @tom_tensor, 조시 그라이퍼, 미카 메나드(Mica Menard)와 함께 Babelbit(SN59)을 공동 창업했다. 음성 기술, 금융 인프라, 저지연 오디오 처리 분야에 걸친 수십 년의 복합 경험을 가진 팀이다.
또 하나의 VC 자금을 쫓는 AI 스타트업이 아니다. 하나의 문제를 해결하는 데 바친 30년의 집약이다.
마이크를 위하여
마이크 린치는 Neurence의 돌파구 소식을 끝내 듣지 못했다. 그 맥줏집 약속도 지키지 못했다. 그와 딸 한나는 2024년 8월 19일 세상을 떠났다.
하지만 비전은 계속된다.

1996년, 마이크는 통계 분석이 문법적 파싱보다 텍스트에서 의미를 더 잘 추출할 수 있다고 내기를 걸었다. 모두가 틀렸다고 했다. 그는 Autonomy를 110억 파운드짜리 회사로 키웠다.
2024년, 매슈는 LLM이 인간처럼 음성을 통역할 수 있다고 내기를 건다 — 단순히 단어를 변환하는 것이 아니라. 의미를 이해하는 것이다.
Babelbit은 다음 주 프랑스어-영어 실시간 통역을 출시한다.
30년 만에 이루어진 일이다.
마이크 린치(1965-2024)는 1996년 Autonomy Corporation을 창업하고 정보 검색에 대한 통계적 접근 방식을 개척했다. 그는 핵심 기술의 지지자였으며 커리어 전반에 걸쳐 수많은 혁신가들을 후원했다. 이 글은 그의 기억에 바칩니다.
