GitHub: Va folosi datele clienților pentru instruirea modelului său AI
Microsoft's GitHub intenționează să înceapă în luna viitoare utilizarea datelor de interacțiune ale clienților – "în special intrări, ieșiri, fragmente de cod și context asociat" – pentru a-și instrui modelele AI. Conform theregister.com, politica revizuită se aplică utilizatorilor Copilot Free, Pro și Pro+, începând cu 24 aprilie.
👉 Excepții și opțiuni pentru utilizatorii GitHub Copilot
Utilizatorii Copilot Business și Copilot Enterprise sunt exonerați datorită termenilor contractuali, iar studenții și profesorii care accesează Copilot vor fi, de asemenea, scutiți. Cei afectați au opțiunea de a renunța, conform "practicilor din industrie stabilite" – ceea ce înseamnă conform normelor din SUA, spre deosebire de normele europene unde este frecvent necesară opțiunea de a opta-in. Pentru a renunța, utilizatorii GitHub ar trebui să viziteze /settings/copilot/features și să dezactiveze "Permiteți GitHub să folosească datele mele pentru instruirea modelului AI" sub secțiunea Confidențialitate.
Mario Rodriguez, directorul de produse al GitHub, ar prefera să nu faceți asta. "Prin participare, veți ajuta modelele noastre să înțeleagă mai bine fluxurile de lucru în dezvoltare, să ofere sugestii de tipar de cod mai precise și sigur și să îmbunătățească abilitatea lor de a vă ajuta să identificați eventuale erori înainte de a ajunge în producție," a scris el într-un post pe blog. Pentru a-și justifica comportamentul dorințelor necontrolate, GitHub menționează în întrebările frecvente că Anthropic, JetBrains și compania mamă Microsoft au politici de utilizare a datelor similare cu opțiunea de renunțare.
👉 Impactul și reacțiile comunității la noile politici GitHub
Motivul pentru această schimbare, conform lui Rodriguez, este că datele de interacțiune îmbunătățesc performanța modelului AI al companiei. Adăugarea de date de interacțiune de la angajații Microsoft a dus la îmbunătățiri semnificative, susține el, cum ar fi rata crescută de acceptare pentru sugestiile modelului AI.
Această schimbare de politică modifică oarecum înțelegerea referitoare la rețelele private GitHub, care sunt notional "numai accesibile pentru tine, persoanele cu care împarți explicit accesul și, în cazul rețelelor organizaționale, anumiți membri ai organizației." Acestea ar putea fi descrise mai precis ca "rețele private GitHub*," cu un asterisc pentru a denota limitele definiției cuvântului "privat" de către GitHub. Așa cum explică întrebările frecvente: "Dacă un utilizator Copilot are setările configurate pentru a permite instruirea modelului pe datele lor de interacțiune, fragmentele de cod din rețelele private pot fi colectate și utilizate pentru instruirea modelului în timp ce utilizatorul este activ angajat cu Copilot în acea rețea."
Recenta discuție în comunitatea GitHub nu include mult entuziasm pentru acest plan. Judecând doar după voturile emoji, utilizatorii au oferit 59 de voturi negative și doar trei rachete, ceea ce înțelegem că semnalează un anumit grad de entuziasm. Dar, printre cele 39 de postări comentând pe această schimbare la momentul în care acest articol a fost redactat, nimeni altcineva în afară de Martin Woodward, VP al relațiilor cu dezvoltatorii de la GitHub, nu a susținut cu adevărat ideea.
Indignarea utilizatorilor ar putea fi oarecum diminuată dacă utilizatorii GitHub și-ar da seama că Codex-ul OpenAI – utilizat în GitHub Copilot – este "un model de limbaj GPT ajustat pe cod disponibil public din GitHub." Această formulare arată că calul AI îndesat cu date a ieșit deja din grajd, așa să spunem. Încuierea ușilor în acest moment nu va schimba faptul că industria AI este construită pe date colectate fără a solicita un indicator puternic de consimțământ entuziast.