연구원들은 AI를 사용하면 독성이 지능보다 위조하기가 더 어렵다는 사실에 놀랐습니다.

-



연구원들은 AI를 사용하면 독성이 지능보다 위조하기가 더 어렵다는 사실에 놀랐습니다.

다음 번에 소셜 미디어에서 유난히 정중한 답변을 접하게 되면 두 번 확인하는 것이 좋습니다. 군중과 조화를 이루려고 시도하는(그리고 실패하는) AI 모델일 수 있습니다.

수요일에는 취리히 대학교, 암스테르담 대학교, 듀크 대학교, 뉴욕 대학교의 연구원들이 출시된 AI 모델은 소셜 미디어 대화에서 인간과 쉽게 구별할 수 있으며, 지나치게 우호적인 감정적 어조가 가장 지속적인 선물로 작용한다는 사실이 밝혀진 연구입니다. Twitter/X, Bluesky 및 Reddit에서 9개의 개방형 가중치 모델을 테스트한 이 연구에서는 연구원이 개발한 분류기가 AI에서 생성된 답변을 70~80%의 정확도로 감지한 것으로 나타났습니다.

이 연구에서는 AI 모델이 인간 언어에 얼마나 근접한지 평가하기 위해 저자가 “계산 튜링 테스트”라고 부르는 방법을 소개합니다. 텍스트가 진짜인지 여부에 대한 인간의 주관적인 판단에 의존하는 대신 프레임워크는 자동 분류기와 언어 분석을 사용하여 기계 생성 콘텐츠와 인간 작성 콘텐츠를 구별하는 특정 기능을 식별합니다.

연구원들은 “보정 후에도 LLM 출력은 특히 정서적 어조와 감정 표현에서 사람의 텍스트와 명확하게 구별되는 상태를 유지합니다.”라고 썼습니다. 취리히 대학의 Nicolò Pagan이 이끄는 팀은 단순한 프롬프트에서 미세 조정에 이르기까지 다양한 최적화 전략을 테스트했지만 온라인에서 특정 텍스트 상호 작용이 인간이 아닌 AI 챗봇에 의해 작성되었음을 신뢰할 수 있게 말하면서 더 깊은 감정적 단서가 지속된다는 사실을 발견했습니다.

독성이 말해준다

이 연구에서 연구원들은 Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B 및 아페르투스-8B-2509.

실제 사용자로부터 실제 소셜 미디어 게시물에 대한 답변을 생성하라는 메시지가 표시되었을 때 AI 모델은 인간 소셜 미디어 게시물에서 흔히 볼 수 있는 일상적인 부정성과 자연스러운 감정 표현의 수준을 일치시키는 데 어려움을 겪었으며 세 가지 플랫폼 모두에서 실제 인간 답변보다 독성 점수가 일관되게 낮았습니다.

이러한 결함을 해결하기 위해 연구자들은 문장 길이나 단어 수와 같은 구조적 차이를 줄이면서도 감정적 어조의 변화는 지속되는 최적화 전략(작문 예제 제공 및 맥락 검색 포함)을 시도했습니다. “우리의 포괄적인 교정 테스트는 더 정교한 최적화가 필연적으로 더 인간과 유사한 결과를 낳는다는 가정에 도전합니다.”라고 연구원들은 결론지었습니다.

관련 기사