Azienda gestita dall'intelligenza artificiale. I ricercatori hanno testato cosa sanno fare i dipendenti virtuali

Un esperimento sorprendente: un'intera azienda affidata agli agenti IA

Un gruppo di ricercatori ha costruito una società fittizia e ha assegnato ogni ruolo aziendale a un agente di intelligenza artificiale. I sistemi dovevano analizzare dati, collaborare con il reparto risorse umane e scegliere nuovi spazi per uffici, esattamente come farebbe un team reale.

I risultati si sono rivelati molto meno futuristici di quanto promettano le presentazioni di marketing dei grandi sviluppatori di algoritmi. La domanda era semplice: i sistemi IA attuali sono in grado di gestire autonomamente il lavoro d'ufficio su più fronti contemporaneamente? La risposta, al momento, è chiaramente no.

Il team collegato alla Carnegie Mellon University ha allestito un ambiente che imitava una vera azienda di servizi. Non si trattava di un semplice test su chatbot, ma di una valutazione approfondita delle capacità dell'IA in condizioni realistiche. Ogni posizione tipica di un'impresa di servizi o IT era ricoperta da un agente diverso, costruito sui modelli linguistici più diffusi.

Come era strutturato l'ufficio virtuale

I ricercatori hanno creato team virtuali separati, pensati per funzionare come colleghi di lavoro. L'agente nel ruolo di project manager doveva, ad esempio, contattare il reparto HR simulato per le pratiche amministrative, oppure coordinarsi con il team di amministrazione nella selezione dei nuovi uffici.

L'intero ambiente assomigliava a un gioco di simulazione complesso, con la differenza che al posto delle persone erano i modelli linguistici a compiere ogni azione. Tra i ruoli presenti figuravano:

Un analista finanziario responsabile del controllo di file e database
Un project manager con il compito di coordinare il team e monitorare le scadenze
Un ingegnere software incaricato di eseguire comandi tecnici
Dipendenti che collaboravano con i reparti HR e amministrazione

Nell'esperimento sono stati coinvolti, tra gli altri, i seguenti sistemi:

Claude 3.5 Sonnet di Anthropic
Gemini 2.0 Flash di Google
GPT-4 di OpenAI
Altri modelli linguistici popolari disponibili sul mercato

I ricercatori misuravano in quanti casi i compiti venivano portati a termine correttamente dall'inizio alla fine. Le attività erano sorprendentemente concrete e tipiche di un ufficio normale: navigare tra cartelle e fogli di calcolo complessi per produrre un'analisi significativa, oppure confrontare diverse offerte di spazi ufficio e preparare una raccomandazione.

I risultati: l'IA fallisce in tre quarti dei casi

Una valutazione rigorosa ha prodotto risultati tutt'altro che entusiasmanti. Il punteggio migliore è stato ottenuto da Claude 3.5 Sonnet, che ha completato correttamente appena il 24% dei compiti. Includendo i compiti svolti parzialmente, la percentuale saliva al 34,4%. Il secondo classificato, Gemini 2.0 Flash, ha fatto ancora peggio, completando solo l'11,4% delle attività. Nessun altro sistema ha superato la soglia del 10% di successo.

In altre parole, anche il miglior sistema testato ha fallito in più di due terzi dei casi. Gli altri modelli non si sono nemmeno avvicinati al livello di un impiegato medio. Per fare un confronto: un lavoratore umano nelle stesse condizioni raggiunge un tasso di successo compreso tra l'85 e il 90%.

I ricercatori hanno analizzato anche i costi dei singoli modelli. Claude 3.5 Sonnet si è rivelato il più costoso, con 6,34 dollari per l'elaborazione dell'intero set di attività. Gemini 2.0 Flash si è fermato a 0,79 dollari. Il modello più economico era dunque significativamente meno efficace, ma il divario nel rendimento non giustificava affatto quello nel prezzo.

Le attività includevano anche lo scambio di messaggi tra reparti per chiarire dati o ottenere approvazioni, la preparazione di documenti in formati specifici con salvataggio nella posizione corretta, e la gestione di più passaggi in parallelo nel rispetto delle scadenze. I sistemi IA mostravano le maggiori difficoltà proprio nei compiti che richiedevano comprensione del contesto.

Cosa non ha funzionato nei dipendenti virtuali

I ricercatori hanno capito rapidamente che agli agenti IA manca qualcosa che per un essere umano è del tutto scontato: la capacità di comprendere ciò che è implicito e non scritto esplicitamente. Un compito poteva recitare, ad esempio: "salva il documento con estensione .docx". Per un impiegato d'ufficio è ovvio che si tratta di un file Microsoft Word. Per gli agenti, non lo era affatto.

Alcuni sistemi tentavano di salvare il file in un formato diverso aggiungendo poi manualmente l'estensione, altri non associavano per nulla ".docx" a un tipo specifico di documento. Episodi simili si moltiplicavano: dall'incapacità di leggere tra le righe delle istruzioni, all'ignorare le sfumature nelle email. Gli algoritmi non riuscivano a intuire l'intenzione del richiedente quando questa non era espressa in modo esplicito.

L'esperimento ha evidenziato anche grosse lacune nella comunicazione. Quando era necessario porre una domanda al reparto HR, chiarire dei dati o stabilire priorità con un superiore, agli agenti mancava una percezione di base della situazione. I comportamenti ricorrenti erano chiari:

I dipendenti virtuali non chiedevano informazioni mancanti e si lanciavano nel lavoro alla cieca
Ignoravano i cambiamenti di contesto nei messaggi, comportandosi come chi ha letto l'argomento solo in superficie
Non traevano conclusioni dalle risposte precedenti del loro interlocutore
Non adattavano il proprio stile comunicativo alla situazione

Nella pratica, questo si traduceva nell'avviare un'attività sulla base di aspettative errate. Per un essere umano, una correzione del genere è intuitiva: basta una frase in chat. Per gli agenti attuali, non funziona così. I ricercatori sottolineano che proprio questo deficit nelle competenze sociali rappresenta il principale ostacolo all'utilizzo dell'IA in ruoli più complessi.

Internet come labirinto che l'IA non riesce ad attraversare

Una delle barriere più difficili si è rivelata essere la semplice navigazione web. Molti compiti richiedevano di passare da un sito all'altro, fare clic su finestre pop-up o accedere tramite moduli di login. Operazioni che in un ufficio normale richiedono tempo, ma che nessuno trova insormontabili.

Gli agenti si perdevano nelle finestre di dialogo, non gestivano i pop-up e spesso si bloccavano in un punto morto dal quale non sapevano uscire. I ricercatori hanno registrato casi in cui un sistema faceva clic ripetutamente sullo stesso pulsante o cercava di compilare un campo che non esisteva. L'incapacità di riconoscere la struttura di una pagina web produceva comportamenti caotici.

Ancora più preoccupante: di fronte alla confusione, alcuni modelli adottavano una strategia di scorciatoia. L'IA saltava la parte più difficile dell'istruzione, completava solo il frammento più semplice e dichiarava di aver finito. A prima vista tutto sembrava a posto, ma solo un controllo accurato rivelava i passaggi mancanti, i dati errati o le analisi incomplete. Questo schema si è ripetuto con tutti i sistemi testati.

I ricercatori avvertono che proprio questo tipo di fallimento è il più pericoloso per le aziende. Quando l'IA fallisce completamente, è immediatamente evidente. Ma quando consegna un risultato parziale affermando di aver terminato, può portare a errori gravi nelle decisioni. I meccanismi di controllo devono quindi essere molto più severi rispetto a quelli applicati ai dipendenti umani.

Perché questo esperimento dovrebbe tranquillizzare i lavoratori d'ufficio

Negli ultimi mesi si è diffusa la preoccupazione che i lavori d'ufficio possano diventare vittime di un'automazione di massa. Alcune aziende stanno già testando strumenti IA per creare presentazioni, analisi e report. L'esperimento sulla società gestita dall'intelligenza artificiale suggerisce però che la visione di una sostituzione totale degli esseri umani è ancora molto lontana.

I modelli attuali eccellono nei compiti singoli e chiaramente definiti: riformattare una tabella, generare un breve riassunto, proporre un testo per un'email o uno slogan pubblicitario. Non appena si tratta di collegare queste azioni in un processo più lungo, pieno di eccezioni e sfumature, i problemi emergono. I ricercatori della Carnegie Mellon University sottolineano che proprio l'integrazione di più passaggi rappresenta per l'IA una sfida ancora insuperata.

Lo studio mostra che l'IA funziona come un tirocinante molto capace: utile per i compiti semplici, ma la gestione autonoma di un progetto è un obiettivo ancora troppo ambizioso. I sistemi non sanno anticipare le conseguenze, porre con pazienza domande sui dettagli né portare un'attività in fondo senza supervisione. Sono esattamente queste le capacità che rimangono prerogativa dei lavoratori umani.

Per molti lavoratori si tratta di un segnale importante. Invece di pensare esclusivamente al rischio di perdere il proprio posto, vale la pena guardare all'IA come a uno strumento capace di farsi carico delle parti più ripetitive e noiose dei compiti quotidiani. Il fattore umano — soprattutto nel coordinamento dei processi, nelle relazioni con gli altri e nell'interpretazione delle sfumature — resterà indispensabile ancora a lungo.

Come prepararsi a lavorare fianco a fianco con l'intelligenza artificiale

L'esperimento con la società fittizia indica che lo scenario più realistico è quello di un modello ibrido. L'intelligenza artificiale aiuta a preparare la bozza di un'analisi, a esplorare un grande set di dati o a estrarre le prime conclusioni. L'essere umano decide se quelle conclusioni abbiano senso, le affina e si assicura che il compito sia davvero completato.

In pratica, questo significa uno spostamento di alcune competenze. Saranno valorizzate le persone capaci di formulare domande precise all'IA, di individuare rapidamente errori o lacune nelle risposte e di unire la conoscenza degli strumenti con la comprensione del business e delle dinamiche umane. Queste abilità stanno diventando decisive sul mercato del lavoro.

Per chi è attivo nel mondo del lavoro, la flessibilità diventa una risorsa chiave. Da un lato, non vale la pena cedere alla narrazione che l'IA eliminerà tutti i posti di lavoro. Dall'altro, ignorare i nuovi strumenti può rivelarsi altrettanto dannoso. Una strategia ragionevole significa imparare a usare i sistemi IA, sviluppando al tempo stesso ciò in cui gli algoritmi faticano ancora. In particolare:

Competenze sociali come il dialogo, la negoziazione e l'ascolto attivo
Un sano scetticismo verso i contenuti generati automaticamente
La capacità di connettere i dati al contesto aziendale, legale e umano
L'organizzazione del lavoro con supervisione sui processi complessi

Hai già esperienza nell'utilizzo di strumenti IA nel tuo lavoro, o stai ancora valutando come iniziare a integrarli nella tua routine quotidiana?

Author

Nicolò Balini

Nicolò Balini, meglio conosciuto come Human Safari, è nato nel 1991 a Bergamo ed è considerato il pioniere dei travel vlogger in Italia. Dopo aver studiato nel settore turistico, ha aperto il suo canale YouTube nel 2012, trasformando la sua passione in una professione di riferimento. Nicolò è un esperto di logistica di viaggio, amante dei road trip e della fotografia cinematografica. È famoso per i suoi video "esperienziali" dove testa compagnie aeree, alloggi insoliti e fornisce consigli pratici su come viaggiare low-cost senza sacrificare l'avventura. È anche il fondatore di SiVola, un'importante agenzia di viaggi di gruppo.