Le macchine hanno la capacità di pensare?
La domanda può sembrare semplice, ma l'innata natura introspettiva degli esseri umani ci ha permesso di comprendere profondamente il concetto di pensiero. Tuttavia, per rispondere a questa domanda senza l'influenza delle nostre esperienze personali e soggettive - come la voce nella nostra mente che narra i nostri pensieri - è necessaria una definizione formale di ciò che il pensiero realmente comporta.
Da sempre l'uomo è affascinato dalla costruzione di oggetti che imitano il comportamento degli animali e dell'uomo, dai giocattoli che simulano il canto e il volo degli uccelli all'automa che gioca a scacchi di Leonardo Torres, El Ajedrecista, del 1912.

Tuttavia, esiste una netta differenza tra le macchine che simulano le caratteristiche fisiche e quelle intellettuali degli esseri umani.
Storia Pietre miliari che hanno portato all'IA e all'Machine Learning
Sebbene gli sviluppi che hanno reso possibile affrontare questa domanda in modo più formale siano troppo numerosi per essere elencati in modo esaustivo in questa sede, vale la pena di notare alcune tappe fondamentali:
In matematica e logica:
- Lo sviluppo della logica moderna da parte di Gottlob Frege alla fine del 19° secolo.
- Bertrand Russell e Alfred Whitehead pubblicano nel 1910 i Principia Mathematica, che tentano di dimostrare che la matematica è riducibile alla logica simbolica.
- L'introduzione da parte di David Hilbert del problema dell'Entscheidungsproblem, che richiede un metodo in grado di prendere qualsiasi proposizione matematica (logica) e, a partire da un insieme di assiomi, determinarne la validità.
- I teoremi di incompletezza di Gödel del 1931, che dimostrano che nessun sistema formale sufficientemente espressivo può essere completo e coerente.
- Claude Shannon introduce il campo della teoria dell'informazione nel 1948.
In psicologia e neuroscienze (apprendimento animale e umano)
- Il condizionamento classico e operante di comportamentisti come Ivan Pavlov e B.F. Skinner
- La nozione di modelli mentali di Kenneth Craik del 1943 e il loro utilizzo nel ragionamento umano
- Teorie della plasticità sinaptica e neurale proposte da Donald Hebb nel 1949.
- L'organizzazione neurale dell'ordine seriale nel comportamento di Karl Lashley 1951
In ingegneria
- Il campo della cibernetica, introdotto da Norbert Wiener nel 1948 per studiare i sistemi di controllo con retroazione ambientale, è stato sviluppato in modo da poter essere utilizzato come strumento di controllo.
- La programmazione dinamica e la sua relazione con la teoria del controllo ottimale, studiata, tra gli altri, da Richard Bellman nel 1953.
McCullough e Pitts e la prima rete neurale
Uno sviluppo importante avvenuto dopo la macchina di Turing, e in parte ispirato da essa, fu l'introduzione della prima rete neurale da parte di Warren McCullough e Walter Pitts nel loro documento fondamentale, A Logical Calculus of the Ideas Immanent in Nervous Activity. In realtà, il lavoro di McCullough e Pitts avrebbe probabilmente avuto un'influenza molto maggiore sui primi ricercatori di intelligenza artificiale (IA) rispetto al lavoro di Turing.
La storia di come McCullough e Pitts siano arrivati a lavorare insieme è di per sé una storia affascinante1. La leggenda metropolitana vuole che il film Good Will Hunting sia basato sulla vita di Pitts.
Quasi altrettanto sorprendente è il fatto che la prima rete neurale sia stata sviluppata nel 1943, contrariamente alla rappresentazione contemporanea del deep learning come una tecnologia innovativa più recente.
Basandosi sulla logica proposizionale dei Principia Mathematica di Russell e Whitehead e attingendo alle conoscenze di neuroanatomia, McCullough e Pitts svilupparono una teoria su come i neuroni possono essere interconnessi attraverso una serie di pesi sinaptici in modo da ricreare il funzionamento delle porte logiche.
Con un insieme di porte di questo tipo, è possibile costruire una rete neurale per calcolare i valori di verità di frasi di proposizioni logiche arbitrarie.
Il loro modello semplificava eccessivamente la struttura e la funzione dei neuroni e non era in grado di apprendere o adattarsi (i pesi sinaptici dovevano essere impostati a mano). Tuttavia, ispirò l'architettura dei computer di John von Neumann e fu di grande ispirazione per il gruppo di ricercatori che in seguito avrebbero introdotto l'espressione intelligenza artificiale.
AI: Il seminario di Dartmouth che ha dato il nome a tutto questo
Battendo alternative come l'intelligenza artificiale, le macchine pensanti e la cibernetica, l'espressione intelligenza artificiale è stata coniata per la prima volta da John McCarthy nel 1955.
Il documento cercava di descrivere i piani per un workshop estivo che avrebbe riunito un piccolo gruppo di ricercatori di diversa estrazione che studiavano concetti legati all'intelligenza artificiale. L'obiettivo descritto da McCarthy, oltre che da Claude Shannon, Marvin Minsky e Nathan Rochester, nella loro proposta per il workshop, era definito come segue:
Lo studio procederà sulla base della congettura che ogni aspetto dell'apprendimento o di qualsiasi altra caratteristica dell'intelligenza possa essere descritto in linea di principio in modo così preciso da poter essere simulato da una macchina. Si cercherà di capire come far sì che le macchine utilizzino il linguaggio, formino astrazioni e concetti, risolvano tipi di problemi ora riservati agli esseri umani e migliorino se stesse.
Il nome dato da McCarthy era in parte dovuto al desiderio di differenziare il campo nascente che stavano creando, dalla miriade di campi da cui provenivano i ricercatori. Va notato che McCarthy voleva anche evitare il titolo di cibernetica per paura di dover affrontare un Norbert Wiener prepotente2.
Tuttavia, la proposta conteneva sette temi e un invito ai singoli ricercatori a proporre i propri argomenti. Tra questi c'erano "Come si può programmare un computer per usare un linguaggio?". "Reti di neuroni", "Auto-miglioramento" e "Astrazioni", che si riferisce all'apprendimento di astrazioni dagli input sensoriali.
Gli argomenti trattati nel corso del workshop avrebbero plasmato in larga misura la direzione futura dell'IA, unendo ricercatori provenienti da campi disparati verso obiettivi comuni e creando divisioni acrimoniose tra i ricercatori che non erano d'accordo sul metodo migliore per raggiungerli.
Sviluppo dell'IA
Dopo il workshop di Dartmouth, la progressione dell'IA ha visto diverse tecniche in crescita e in declino. Ad esempio, l'attuale rivoluzione del deep-learning è in realtà il terzo periodo di relativa popolarità delle reti neurali.
Il primo periodo, dagli anni '40 agli anni '60, inizia con l'invenzione delle reti neurali da parte di McCullough e Pitts e si estende fino allo sviluppo del perceptron.
Il perceptron era una semplice rete neurale sviluppata da Frank Rosenblatt nel 1957, in grado di adattarsi e di apprendere e di realizzare semplici forme di riconoscimento ottico dei caratteri.
Nonostante le loro promettenti capacità, le reti neurali sono state di fatto stroncate quando Marvin Minsky, uno dei primi sostenitori delle reti neurali, e Seymour Papert hanno pubblicato il loro libro Perceptrons nel 1969.
In esso, si illustravano i limiti del perceptron di Rosenblatt, dimostrando che non era in grado di apprendere soluzioni a intere classi di problemi matematici. Il più famoso era la funzione XOR, in cui una rete doveva imparare a produrre il risultato di un "or esclusivo" su due ingressi.
Anche se in seguito si è capito che questa limitazione poteva essere facilmente superata con piccole modifiche, come l'uso di funzioni di soglia non lineari, il libro è stato abbastanza convincente da eliminare i finanziamenti e l'interesse per gli algoritmi di apprendimento ispirati al cervello.
Il vuoto lasciato dalla scomparsa delle reti neurali fu colmato da quella che in seguito sarebbe stata definita la buona vecchia IA (GOFAI). Le tecniche che definivano la GOFAI erano in gran parte di logica simbolica. Ciò contrasta con l'elaborazione subsimbolica di una rete neurale, dove l'elaborazione è distribuita su molti neuroni o nodi e dove le rappresentazioni possono essere distribuite e continue.
GOFAI si avvaleva di regole di produzione, come If-Then, e di tecniche di ricerca che consentivano di formulare, valutare e confrontare le possibili ipotesi sulle azioni e le loro conseguenze. Sono stati sviluppati sistemi esperti che hanno cercato di formalizzare le conoscenze degli esperti di argomenti in rappresentazioni adatte a computer e algoritmi.
Nonostante il successo di GOFAI, la tendenza verso l'IA simbolica si è scontrata con la prima rinascita delle reti neurali alla fine degli anni Settanta e Ottanta. Durante questo periodo, esse erano note come sistemi connessionisti, a causa della loro ampia interconnessione di neuroni.
Questa rinascita è dovuta principalmente all'introduzione di tecniche come la teoria della risonanza adattativa (ART), una rete neurale biologicamente plausibile e la back propagation. Si tratta di un algoritmo di apprendimento che adatta i pesi di una rete neurale artificiale e mostra come una soluzione al problema XOR possa essere facilmente appresa.
L'era è stata inaugurata da un libro di James McClelland e David Rumelhart intitolato Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Pur essendo molto tecnico, il libro fu un successo e ne parlò il New York Times Book Review.
Nonostante questa nuova gloria, anche la seconda era di popolarità delle reti neurali è stata di breve durata a causa dei limiti della potenza di calcolo e della scarsità di dati con cui addestrare i modelli.
Di conseguenza, le reti neurali sono state limitate a problemi giocattolo, lasciandole ancora una volta aperte alle critiche dei sostenitori degli approcci simbolici. Un secondo inverno dell'intelligenza artificiale si è protratto fino ai primi anni 2000.
L'attuale rivoluzione del deep learning ha elevato le reti neurali a terzo atto. Sviluppi come il modello di memoria a breve termine (LSTM) sviluppato nel 1997 da Hochreiter e Schmidhuber, e l'introduzione nel 2006 di Hinton delle reti di credenza profonde (DBN), hanno mostrato come superare alcuni limiti dei modelli precedenti.
Grazie all'aumento della potenza di calcolo e delle unità di elaborazione grafica (GPU) e alla crescente disponibilità di dati, i modelli di deep learning hanno iniziato a registrare miglioramenti significativi nei tassi di errore per le attività di apprendimento automatico più comuni.
Gli improvvisi guadagni ottenuti dalle reti neurali nel riconoscimento vocale, nella computer vision e nell'elaborazione del linguaggio naturale hanno avuto un impatto di vasta portata. Google, Facebook, Microsoft e altre grandi aziende con un forte interesse per l'elaborazione di dati vocali, immagini e testi hanno iniziato a investire ingenti risorse in ricerca e sviluppo, accelerando il ritmo di sviluppo dell'IA.