Chutes × Harvard University 협력 발표

오늘 우리는 큰 소식을 공유하려고 합니다.

Chutes는 하버드 대학교(Harvard University) 연구팀과 협력하여 AI 추론(inference) 효율성의 한계를 확장하는 연구를 진행하게 되었습니다.

연구 개요

하버드 연구팀은 Juncheng Yang 교수 (@1a1a11a) 가 이끌고 있으며, 추론 속도를 크게 향상시키면서 하드웨어 사용량을 줄이는 새로운 Prefix Caching 알고리즘을 개발하고 있습니다.

이 알고리즘은 연산 강도(compute intensity)를 동적으로 평가하여

하버드 연구팀은 이 시스템을 실제 환경(real-world conditions) 에서 테스트하기 위해 Chutes에 협력을 요청했으며, 우리는 이번 협업에 매우 기대하고 있습니다.

초기 테스트에서 이미 다음과 같은 인상적인 결과가 나타났습니다.

현재는 이 결과를 더욱 발전시키기 위해 추가 테스트가 필요한 상황입니다.

이번 테스트에 참여하는 사용자에게는 다음과 같은 혜택이 제공됩니다.

연구용 엔드포인트(endpoint)에 참여할 경우 다음 사항에 동의하는 것으로 간주됩니다.

따라서 다음과 같은 데이터는 제출하지 않는 것을 권장합니다.

만약 비공개 또는 독점 데이터를 사용하는 워크로드라면 기존의 표준 엔드포인트(standard endpoint) 를 계속 사용하시기 바랍니다.

민감한 데이터가 아닌 경우라면 테스트 참여를 권장합니다.

참여자는 다음과 같은 이점을 얻을 수 있습니다.

연구용 엔드포인트는 지금 바로 사용 가능하며,
관심 있는 누구나 참여할 수 있습니다.

테스트가 완료되고 프로젝트가 정식 출시되면
이번 연구에서 얻은 개선 사항이 Chutes의 추론 인프라(inference stack) 에 직접 통합될 수 있습니다.

그 결과 플랫폼 전체에서 다음과 같은 효과가 기대됩니다.