Într-o postare publicată luni pe blogul său, OpenAI a comparat atacurile cibernetice cu fraudele și ingineria socială întâlnite pe internet. Compania subliniază că aceste amenințări „nu vor fi probabil niciodată rezolvate în totalitate”.
OpenAI a recunoscut, de asemenea, că funcția de „agent mode” a browserului său AI, ChatGPT Atlas, „extinde suprafața de atac” din perspectiva securității.
ChatGPT Atlas a fost lansat în luna octombrie, iar cercetătorii în securitate au demonstrat rapid că pot influența comportamentul browserului prin instrucțiuni ascunse în documente sau pe pagini care par inofensive.
Recent, Centrul Național de Securitate Cibernetică din Marea Britanie a emis un avertisment similar, afirmând că atacurile de acest tip „s-ar putea să nu poată fi niciodată complet prevenite”.
OpenAI: testare și reacție
Pentru a reduce riscurile, OpenAI anunță că implementează o strategie de testare continuă și reacție rapidă. Un element esențial al acestei strategii este dezvoltarea unui „atacator automatizat” bazat pe modele lingvistice mari (LLM), care este antrenat prin învățare prin recompensă pentru a juca rolul unui hacker.
Această soluție simulează noi metode de atac și ajută compania să identifice vulnerabilități înainte ca acestea să fie exploatate în lumea reală.
Un exemplu oferit de OpenAI ilustrează cum un e-mail malițios a determinat agentul AI să trimită din greșeală un mesaj de demisie. După implementarea actualizărilor de securitate, browserul a reușit să detecteze atacul și să îl semnaleze utilizatorului.
Cu toate acestea, specialiștii în securitate cibernetică atenționează că riscurile persistă.
OpenAI recomandă utilizatorilor să restricționeze accesul agenților AI și să solicite confirmări înainte de acțiuni importante, cum ar fi trimiterea de mesaje sau efectuarea de plăți.













