Devin, 소프트웨어 엔지니어링 AI는 다른 AI를 학습하고 스스로 웹사이트를 코딩

123124123 2024.03.14. 12:38

130 0 0

https://mbong.kr/plusd/2102176 복사

Devin, 소프트웨어 엔지니어 AI는 다른 AI를 학습하고 스스로 웹사이트를 코딩

Devin의 능력과 작업 범위:

Devin은 GitHub 코파일럿과 같은 코딩 어시스턴트보다 더 나은 성능으로, 코딩 작업부터 버그 수정, 최종 실행까지 다양한 엔지니어링 작업을 처리할 수 있습니다.

Devin은 사용자의 자연어 프롬프트를 받아들여 복잡한 엔지니어링 작업에 대한 상세한 계획을 개발하고, 프로젝트를 시작하고, 코드를 작성하며, 문제를 해결하며, 테스트하고, 실시간으로 진행 상황을 보고합니다.

미래 전망 및 기술적 측면:

Devin은 인간 감독자/사용자 감독 하에 AI 작업자로 모든 소프트웨어 개발과 컴퓨터 작업을 수행할 수 있는 새로운 패러다임을 제시합니다.

Cognition은 Devin을 통해 다양한 작업을 처리할 수 있으며, 향후 더 많은 테스트와 업데이트를 통해 기술적 측면을 강화할 예정입니다.

유명한 Github 코파일럿을 비롯한 여러 코딩 어시스턴트가 있지만, Devin은 코드 작성부터 관련 버그 수정, 최종 실행까지 전체 개발 프로젝트를 엔드투엔드 처리할 수 있는 능력으로 다른 코딩 어시스턴트보다 돋보인다고 합니다. 이 스타트업은 이러한 종류의 서비스를 최초로 선보였으며, 심지어 Upwork에서 프로젝트를 처리할 수 있다고 밝혔습니다.

Devin의 발표는 AI 지원 개발 분야에서 중요한 변화를 의미하며, 엔지니어는 단순히 베어본 코드를 작성하거나 스니펫을 제안하는 보조자가 아니라 프로젝트를 위한 본격적인 AI 작업자를 확보할 수 있게 되었습니다.

하지만 현재 Devin은 비공개로 유지되고 있으며, 블룸버그의 저널리스트 Ashlee Vance가 여기에서 자신의 사용 경험을 소개하는 등 일부 고객에게만 액세스를 개방하고 있습니다.

Devin은 정확히 무엇을 할 수 있을까요?

오늘 코그니션 웹사이트에 게시된 블로그 게시물에서 코그니션의 창립자 겸 CEO이자 수상 경력이 있는 스포츠 코더인 Scott Wu는 Devin이 샌드박스 컴퓨팅 환경 내에서 자체 셸, 코드 편집기, 브라우저 등 일반적인 개발자 도구에 액세스하여 수천 개의 의사 결정이 필요한 복잡한 엔지니어링 작업을 계획하고 실행할 수 있다고 설명합니다.

인간 사용자는 Devin의 챗봇 스타일 인터페이스에 자연어 프롬프트를 입력하기만 하면 AI 소프트웨어 엔지니어가 이를 받아 문제를 해결하기 위한 상세한 단계별 계획을 개발합니다. 그런 다음 사람이 사용하는 것과 마찬가지로 개발자 도구를 사용하여 프로젝트를 시작하고, 자체 코드를 작성하고, 문제를 해결하고, 테스트하고, 진행 상황을 실시간으로 보고하여 사용자가 모든 과정을 계속 지켜볼 수 있도록 합니다.

인간 관찰자가 보기에 뭔가 이상해 보이는 경우, 사용자는 채팅 인터페이스로 이동하여 AI에게 문제를 해결하라는 명령을 내릴 수도 있습니다. 이를 통해 엔지니어링 팀은 프로젝트의 일부를 AI에 위임하고 인간의 지능을 필요로 하는 보다 창의적인 작업에 집중할 수 있다고 코그니션은 말합니다.

이러한 방식으로 Devin은 가까운 미래에 모든 소프트웨어 개발과 컴퓨터 작업 전반이 인간 감독자/사용자의 감독을 받는 AI 작업자에 의해 수행될 수 있는 새로운 패러다임을 엿볼 수 있는 가능성을 제시합니다.

다양한 개발 작업을 처리할 수 있습니다.

Wu가 공유한 데모에 따르면 Devin은 현재 형태로 다양한 작업을 처리할 수 있습니다. 여기에는 앱/웹 사이트의 엔드투엔드 배포 및 개선, 코드베이스의 버그 발견 및 수정과 같은 일반적인 엔지니어링 프로젝트부터 GitHub의 연구 리포지토리 링크를 사용하여 대규모 언어 모델에 대한 미세 조정을 설정하거나 낯선 기술을 사용하는 방법을 배우는 것과 같은 보다 복잡한 작업까지 포함됩니다.

한 경우에는 블로그 게시물에서 코드를 실행하여 숨겨진 메시지가 있는 이미지를 생성하는 방법을 배웠습니다. 또 다른 사례에서는 컴퓨터 비전 모델을 실행하기 위한 코드를 작성하고 디버깅하여 Upwork 프로젝트를 처리했습니다.

실제 오픈소스 프로젝트의 깃허브 문제를 AI 어시스턴트에게 도전하는 SWE 벤치 테스트에서 AI 소프트웨어 엔지니어는 사람의 도움 없이 13.86%의 문제를 엔드투엔드 방식으로 정확하게 해결할 수 있었습니다. 이에 비해 Claude 2는 4.80%만 해결할 수 있었고, SWE-Llama-13b와 GPT-4는 각각 3.97%와 1.74%의 문제를 처리할 수 있었습니다. 이 모든 모델은 심지어 어떤 파일을 수정해야 하는지 알려주는 지원도 필요했습니다.

아직 설명되지 않은 핵심 기술

소프트웨어 개발에서의 AI는 새로운 기술이 아닙니다. 이 분야에는 꽤 오래전부터 인기 있는 GitHub Copilot과 StarCoder부터 Hugging Face에 몇 가지 작은 AI 코딩 모델을 갖춘 Replit, 최근 5억 달러의 가치로 6500만 달러의 시리즈 B 투자를 유치한 Codeium에 이르기까지 다양한 도구가 존재해 왔습니다.

그러나 이러한 제품들은 대부분 코딩을 지원하는 데 AI를 사용하는 데 중점을 두고 있습니다. 텍스트 프롬프트에서 베어본 코드를 생성하고, 관련 IDE 컨텍스트와 함께 요약하거나 스니펫을 검색하여 팀의 워크플로우를 가속화할 수 있습니다. Devin을 통해 Cognition AI는 한 단계(또는 여러 단계) 더 나아가 전체 프로젝트를 처리할 수 있는 본격적인 AI 작업자를 제공하게 될 것으로 보입니다.

아직 테스트가 더 필요하지만, 소프트웨어 엔지니어링 프로젝트를 완료하기 위해 여러 단계를 처리할 수 있다는 점이 이 도구의 가장 큰 장점입니다. 코그니션은 이러한 성과를 정확히 어떻게 달성했는지, 자체 모델을 사용했는지 아니면 타사의 모델을 사용했는지는 밝히지 않았지만 "장기적인 추론과 계획의 발전"의 결과라고 언급했습니다.

현재 이 회사는 용량을 늘리고 일부 사용자에게만 Devin에 대한 조기 액세스를 제공하는 작업을 진행 중입니다. 엔지니어링 작업을 강화하고자 하는 이해관계자는 이메일을 통해 연락하여 액세스 권한을 얻을 수 있다고 합니다. 추후에 더 광범위한 액세스가 제공될 예정입니다.

코그니션은 또한 웹사이트에 코딩은 "시작에 불과하다"고 언급했는데, 이는 추론의 발전을 활용하여 다른 분야에서도 유사한 AI 에이전트/워커를 출시할 수 있음을 시사하는 것으로 보입니다. 이 회사는 지금까지 2,100만 달러의 투자를 받았습니다.

(단순 번역으로 오역이 있을수 있습니다 자세한 내용은 원문 참조 부탁드립니다)

★★★★★★★★★★

신고스크랩