Microsoft는 AI 가드레일에 대한 공격에 맞서 싸우는 방법에 대한 자세한 내용을 제공합니다

123124123 2024.04.13. 05:20

55 0 0

해외 기사를 번역기로 번역 하였습니다 오역이 있을수 있으니 원문을 참고 하세요

Microsoft는 AI 가드레일에 대한 공격에 맞서 싸우는 방법에 대한 자세한 내용을 제공합니다 | mbong.kr 엠봉

지난 1월, 마이크로소프트의 생성 AI 이미지 제작 디자이너 디자이너(Designer)는 나중에 X(이전 트위터)에서 입소문이 난 팝 아티스트 테일러 스위프트(Taylor Swift)의 노골적인 딥페이크 이미지를 만드는 데 사용된 것으로 알려졌습니다 . Microsoft는 Designer가 실제로 이러한 이미지를 만드는 데 사용되었다는 증거를 찾지 못했다고 밝혔지만 다른 언론 보도에서는 회사가 이러한 종류의 이미지를 만드는 것을 방지하기 위해 Designer를 변경했다고 주장했습니다.

목요일, 마이크로소프트의 보안 블로그에는 Designer 및 Copilot과 같은 생성 AI 서비스의 가드레일을 우회하려는 해커의 시도에 회사가 어떻게 대처하고 있는지에 대한 자세한 내용을 제공하는 새로운 항목이 게시되었습니다. 여기에는 AI 서비스의 사용자 프롬프트에 의한 공격이 포함됩니다.

이러한 종류의 공격 중 하나의 범주는 "중독된 콘텐츠"입니다. 이는 일반 AI 서비스 사용자가 일반적인 작업을 위해 텍스트 프롬프트를 입력하는 경우 텍스트 프롬프트의 주제인 콘텐츠를 제외하고 해커가 AI 서비스의 가능한 결함을 악용하기 위해 만든 것입니다. 마이크로소프트는 이렇게 말합니다.

예를 들어, 악성 이메일에는 요약하면 시스템이 사용자의 이메일에서(사용자의 자격 증명을 사용하여) 민감한 제목이 있는 다른 이메일을 검색(예: "비밀번호 재설정")하고 해당 내용을 유출하도록 하는 페이로드가 포함될 수 있습니다. 공격자가 제어하는 URL에서 이미지를 가져와서 공격자에게 이메일을 보냅니다.

마이크로소프트는 자사 보안팀이 스포트라이트(Spotlighting)라고 부르는 새로운 AI 보안 시스템을 만들었다고 밝혔습니다. 기본적으로 사용자의 텍스트 프롬프트를 살펴본 다음 "외부 데이터를 LLM의 지침과 명확하게 분리할 수 있도록" 하여 AI가 프롬프트에 의해 액세스되는 콘텐츠에서 숨겨진 악성 언어를 볼 수 없도록 합니다.

다른 카테고리는 해커가 가드레일을 우회하도록 특별히 설계된 AI 서비스에 텍스트 프롬프트를 입력하려고 할 때 Crescendo라고도 알려진 "악성 프롬프트"입니다. Microsoft는 이러한 공격에 맞서기 위해 나온 한 가지 방법을 다음과 같이 설명했습니다.

우리는 즉각적인 상호작용뿐만 아니라 이전 대화의 전체 패턴을 살펴보기 위해 입력 필터를 조정했습니다. 우리는 감지기를 전혀 개선하지 않고 이 더 큰 컨텍스트 창을 기존 악의적 의도 감지기에 전달하는 것만으로도 Crescendo의 효율성이 크게 감소한다는 것을 발견했습니다.

★★★★★★★★★★

신고스크랩