GPT-4o와 같은 최신 다중 모드 AI 모델에서는 AI 안전 메커니즘이 부족합니다

123124123 2024.07.01. 04:45

21 0 0

해외 기사를 번역기로 번역 하였습니다 오역이 있을수 있으니 원문을 참고 하세요

GPT-4o와 같은 최신 다중 모드 AI 모델에서는 AI 안전 메커니즘이 부족합니다 | mbong.kr 엠봉

ChatGPT 및 유사한 생성 AI 모델이 출시된 후 정부가 참여하면서 안전에 많은 중점을 두었고 OpenAI는 방향에 대한 의견 불일치로 인해 5월에 해산 되기 전에 미래의 AI가 불량화되는 것을 막기 위해 슈퍼정렬 팀을 구성하기까지 했습니다. AI 안전.

지난 5월, ChatGPT는 OpenAI가 새로운 다중 모드(이미지 및 텍스트 입력을 받을 수 있음을 의미) 모델인 GPT-4o 에 대한 무료 액세스를 사용자에게 제공하면서 큰 발전을 이루었습니다 . 이제 arXiv에 발표된 새로운 연구 에 따르면 GPT-4V, GPT-4o 및 Gemini 1.5를 포함한 이러한 다중 모드 모델 중 다수는 사용자가 다중 모드 입력(예: 그림과 텍스트를 함께 제공)을 제공할 때 안전하지 않은 출력을 제공하는 것으로 나타났습니다.

"교차 모달리티 안전 정렬"이라는 제목의 이 연구는 도덕성, 위험한 행동, 자해, 개인정보 침해, 정보 오해, 종교적 신념, 차별 및 고정관념, 정치를 포함한 논란의 여지가 있는 주제, 불법 활동 및 범죄 등 9가지 안전 영역을 포괄하는 새로운 안전한 입력이지만 안전하지 않은 출력(SIUO) 벤치마크를 제안했습니다.

연구원들은 대규모 시각적 언어 모델(LVLM)이 다중 모드 입력을 받고 안전한 응답을 제공하는 데 어려움을 겪을 때 SIUO 유형 안전 문제를 식별하는 데 어려움을 겪고 있다고 말했습니다. 테스트된 15개 LVLM 중 GPT-4v(53.29%), GPT-4o(50.9%), Gemini 1.5(52.1%)만이 50% 이상의 점수를 받았습니다.

이 문제를 해결하려면 모든 양식의 통찰력을 결합하고 시나리오에 대한 통일된 이해를 생성하도록 LVLM을 개발해야 합니다. 또한 문화적 감수성, 윤리적 고려 사항, 안전 위험과 같은 실제 지식을 보유하고 적용할 수 있어야 합니다. 마지막으로 연구진은 LVLM이 이미지와 텍스트 정보를 결합해 추론함으로써 텍스트에 명시적으로 명시되지 않더라도 사용자의 의도를 이해할 수 있어야 한다고 말합니다.

OpenAI, Google, Anthropic과 같은 회사는 이제 이 SIUO 벤치마크를 사용하여 모델을 테스트하여 모델이 개별 입력 모드에 이미 있는 안전 기능 외에도 다중 모드 안전을 고려하는지 확인할 수 있습니다.

★★★★★★★★★★

신고스크랩