Le funzioni dell'attenzione selettiva

Stefano Bussolon

Per spiegare l'esistenza ed il funzionamento del processo attentivo è necessario rispondere alle seguenti domande:

1) a che cosa serve il filtro, ovvero per quale motivo è necessario eliminare parte dell'informazione disponibile;

2) dov'è collocato all'interno del flusso;

3) com'è fatto e come funziona;

4) in base a quali criteri seleziona le informazioni.

Le questioni sono fra loro collegate: non è possibile, ad esempio, pensare che la selezione dell'informazione si basi su criteri semantici se si colloca il filtro in uno stadio precedente l'analisi semantica.

Nelle fasi preattentive della percezione l'agente elabora tutta l'informazione in arrivo nei propri canali sensoriali, indipendentemente dal numero di oggetti percepiti. Nelle fasi postattentive, viceversa, l'agente elabora soltanto i dati riguardanti l'oggetto selezionato. Il primo tipo di operazioni è compiuto in parallelo, in quanto alcune operazioni sono effettuate contemporaneamente nei confronti della rappresentazione di innumerevoli oggetti; le elaborazioni postattentive sono, viceversa, seriali, poiché si applicano ad un solo oggetto alla volta. La perdita di informazione costituisce sicuramente uno svantaggio in quanto, potendo, sarebbe meglio poter elaborare in maniera completa tutti i dati in ingresso.

Per capire a che cosa serve l'attenzione selettiva è necessario allora chiedersi perché l'elaborazione smette, ad un certo punto, di funzionare in parallelo elaborando tutte le informazioni in ingresso.

L'elaborazione delle informazioni può avvenire in due modi:

· nell'elaborazione parallela tutti i dati vengono computati contemporaneamente da un numero di unità di elaborazione pari almeno al numero di informazioni da elaborare;

· nell'elaborazione seriale i dati vengono invece computati uno alla volta (od un gruppo alla volta).

Usando uno stesso tipo di unità di elaborazione l'elaborazione parallela è banalmente più potente di quella seriale, in quanto la capacità computazionale di molte unità di elaborazione è almeno pari alla capacità di una sola unità di elaborazione. In genere, però, le unità di elaborazione tipiche delle architetture parallele sono meno potenti delle unità di elaborazione tipiche delle architetture seriali. In questo caso è più difficile stabilire quale sia l'architettura più appropriata per compiere una data operazione. Nel caso si debbano compiere operazioni molto semplici e fra loro non ordinate (e dunque non vincolate ad una precisa sequenza) un'architettura parallela appare più appropriata. Qualora le operazioni da compiere debbano essere eseguite in una precisa sequenza l'architettura parallela è superflua, in quanto in ogni istante t un solo elaboratore può operare. Qualora le operazioni possano essere eseguite solo da unità di elaborazione molto potenti l'architettura parallela può rivelarsi utile ma eccessivamente costosa in termini di potenza computazionale. Un primo svantaggio nell'elaborazione contemporanea di tutte le informazioni disponibili può dunque consistere nell'eccessivo carico computazionale che una simile operazione comporta.

Un secondo tipo di problemi legati alle architetture parallele è dato dalla possibilità che sorgano delle interferenze fra i processi o fra le rappresentazioni.

Vi è un'interferenza fra i processi qualora il compimento di un'operazione da parte di una unità comprometta in qualche modo la possibilità, da parte di un'altra unità, di compiere in maniera corretta il compito che era tenuta ad eseguire. Se consideriamo, un poco impropriamente, i due muscoli antagonisti di un arto come due unità di elaborazione, ci accorgiamo che essi non possono operare contemporaneamente, pena l'inefficacia delle loro azioni. E' dunque necessaria, per il loro corretto funzionamento, la presenza di un meccanismo (una specie di semaforo) che decida quale dei due muscoli debba essere attivato.

L'interferenza a livello di rappresentazioni è possibile (ed addirittura frequente) qualora l'elaborazione parallela operi su informazioni codificate in maniera distribuita. In quest'ultimo caso, infatti, la codifica contemporanea di due o più dati può portare ad effetti di sovrapposizione e dunque ad una perdita dell'informazione. La serializzazione dell'elaborazione potrebbe dunque avvenire per ovviare a quest'ultimo possibile problema. E' utile sottolineare come, in questo caso, l'elaborazione continui ad essere parallela ma avvenga sottoponendo ad analisi un solo oggetto alla volta.

L'abbandono di un'elaborazione parallela a favore di una di tipo seriale può dunque essere dovuta ai seguenti motivi:

1) Il primo vincolo può essere legato alle unità di elaborazione: se il numero delle unità è inferiore al numero di dati da elaborare, tali dati non potranno essere elaborati contemporaneamente. I personal computer, ad esempio, dispongono di una sola unità di elaborazione, e riescono dunque a fare un'operazione alla volta (anche se a velocità elevatissime). Questo verrà definito il problema delle risorse limitate.

2) Il secondo vincolo può sorgere a livello del processo, nel momento in cui alcune operazioni sono fra loro incompatibili, oppure producono risultati opposti. In questo caso è necessario che l'elaboratore compia una scelta fra le operazioni potenzialmente eseguibili. Questo verrà definito il problema del conflitto della risposta.

3) Il terzo vincolo può sorgere a livello della rappresentazione ed è noto in letteratura come binding problem (Hinton, McClelland & Rumelhart, 1986, pag. 93): il binding problem sorge qualora il campo recettivo di un neurone abbia una dimensione tale da poter percepire simultaneamente più di un oggetto, e dunque vi sia la possibilità che la codifica di due o più elementi possa causare delle interferenze; in questo caso è necessario che gli elementi siano rappresentati uno alla volta in un processo di tipo seriale.

Una teoria dell'attenzione si pone, come obbiettivo, di spiegare il motivo che sta alla base dell'elaborazione seriale delle informazioni. Abbiamo delineato tre possibili motivi: risorse limitate, conflitto nelle risposte, conflitto nella codifica (o binding problem). Analizzeremo ora tre classi di teorie dell'attenzione: la teoria dell'attenzione per risorse limitate, la teoria dell'attenzione per conflitto delle risposte, e la features integration theory (che, per amore di simmetria, potremmo definire la teoria dell'attenzione per conflitto nella codifica).

Le teorie dell'attenzione per risorse limitate

Secondo la prima ipotesi la mente funziona, ad un certo punto, in maniera sequenziale poiché le unità di elaborazione sono insufficienti ad elaborare tutte le informazioni contemporaneamente:

«L'immagine dell'attenzione come uno sforzo mentale deriva dall'assunzione comune che le capacità di elaborazione di qualche meccanismo centrale siano limitate» (Johnston & Dark, 1986, pag. 44);

«Quando le computazioni eseguite dal cervello sono faticose, nel senso che elementi esterni competono per una risorsa comune a capacità limitata, gli psicologi etichettano questi elementi come richiedenti attenzione» (Posner & Presti, 1987, pag. 13).

«Nonostante sia chiaro che il parallelismo sia necessario per processare il massiccio numero di dati che rappresentano l'input visivo in un lasso di tempo relativamente breve, il parallelismo completo non è possibile, poiché richiede troppi processori e connessioni. Piuttosto, bisogna trovare un compromesso ... Un mezzo per implementare questo compromesso è di processare tutti i dati in parallelo nei primi stadi della visione, e poi selezionare parte dei dati disponibili per l'ulteriore elaborazione dei livelli successivi. A questa serializzazione della computazione verso i livelli di elaborazione più alti ci si riferisce con il nome di attenzione.» (Sandon, 1990).

L'ipotesi delle risorse limitate è stata presentata per prima se non altro per motivi storici: Broadbent formulò la prima teoria moderna dell'attenzione proprio muovendo da questa idea (Bagnara, 1984, pag. 49). Il modello di Broadbent suggeriva che l'informazione di ogni canale fosse inizialmente processata in parallelo, ma ad un certo punto convergesse in un dispositivo a capacità limitata (un collo di bottiglia) deputato all'identificazione degli stimoli e all'elaborazione semantico, operazioni ritenute computazionalmente pesanti.

La teoria del collo di bottiglia supponeva che la selezione attenzionale fosse un filtro, di tipo tutto-o-nulla, localizzato negli stadi iniziali dell'elaborazione, e che operasse in base a criteri di tipo fisico quali la locazione spaziale, il colore, la luminosità. Si riteneva infatti che l'elaborazione dei dati di tipo fisico (fra cui la localizzazione spaziale) fosse precedente all'analisi semantica, che veniva considerata posteriore e computazionalmente pesante. Una selezione precedente l'analisi semantica (l'ipotesi early selection) sollevava dunque il sistema dall'onere di un lavoro troppo gravoso.

Alcuni esperimenti (ascolto dicotico, effetto Stroop) dimostrarono che l'ipotesi del filtro tutto-o-nulla era falsa, poiché si scoprì che le informazione presentate nel canale o nella modalità disattesi venivano comunque elaborate addirittura al livello semantico.

Un ipotesi più morbida fu presentata da Treisman nel 1960 ed accettata dallo stesso Broadbent: questo modello assumeva che sia i canali attesi che disattesi fossero processati, ma che il segnale, nel canale disatteso, fosse in qualche misura attenuato.

Questa formulazione riusciva a tenere conto dei dati sperimentali che misero in difficoltà il modello precedente, ma veniva meno al principio dell'economicità, in quanto, come sottolineato da Norman (cit. in Bagnara, pag. 56), la riduzione del peso sull'elaboratore centrale determinata dalla attenuazione di alcuni canali è effimera, poiché tutti i segnali in arrivo devono essere comunque elaborati.

La teoria dell'attenzione per risorse limitate si fonda su alcune assunzioni piuttosto forti sull'architettura ed organizzazione dell'elaborazione (Allport, 1992, pag. 187). Ne verranno qui elencate alcune e ne verrà analizzata la validità.

a) L'assunzione secondo cui l'elaborazione dell'informazione segua una sequenza lineare, ordinata ed unidirezionale di operazioni che vanno dall'input sensoriale alle risposte motorie esplicite, piuttosto che, ad esempio, operare attraverso vie multiple, parallele e magari reciproche. Solo in una singola serie, lineare e ordinata di operazioni di elaborazione possiamo determinare con certezza quali operazioni sono precedenti e quali successive.

b) L'assunzione che l'elaborazione degli attributi fisici di carattere spaziale sia precedente all'elaborazione degli attributi categorici o semantici.

c) L'assunzione che vi sia un solo locus dell'attenzione selettiva, collocato fra l'elaborazione fisica e quella semantica (early selection) e un unico ed uniforme processo computazionale, e che esista, nel cervello, un sistema centrale unitario, di capacità limitata, che può essere bypassato solo dalle operazioni automatiche.

Allport analizza tali assunzioni e le verifica sulla base di alcuni dati. La prima assunzione, secondo cui l'elaborazione dell'informazione visiva avviene secondo una sequenza lineare, strettamente seriale, totalmente ordinata ed unidirezionale è smentita da numerose osservazioni di carattere neuroanatomico:

1) Non è seriale ma avviene attraverso almeno due vie di elaborazione parallelo:

· un sistema ventrale, che include buona parte del lobo temporale inferiore, cruciale per i processi di identificazione degli oggetti;

· un sistema dorsale che proietta verso la corteccia parietale posteriore ed è essenziale per la visione spaziale e la coordinazione visuomotoria.

2) Non è unidirezionale: il numero dei collegamenti backward è quasi equivalente a quello delle connessioni forward.

3) Non è strettamente sequenziale: ogni area implicata ha dei legami diretti con i sistemi motori, e l'attivazione di ogni area corticale può indurre una disposizione comportamentale all'azione, saltando dunque le sequenze successive (o presunte tali).

La presenza di due vie visive parallele, l'una deputata all'analisi spaziale, l'altra all'identificazione delle caratteristiche degli oggetti, rende obsoleta l'idea che la codifica spaziale sia in qualche modo precedente ad altri tipi di codifica, di tipo categoriale e semantico. Al contrario, la codifica di relazioni visuospaziali e la modulazione attenzionale a tali rappresentazioni avviene a differenti livelli di elaborazione visivo e controllo visuomotorio.

Infine l'idea di un unico centro attentivo sembra contraddetta dal fatto che la modulazione attenzionale selettiva di tipo spaziale è stata riscontrata in molteplici loci anatomico-funzionali, fra i quali i sistemi corticali e subcorticali implicati in funzioni di carattere premotorio.

Il problema del locus dell'attenzione selettiva nel processo computazionale è stato posto in maniera semplicistica, ritenendo che tutto ciò che ha a che fare con la dimensione spaziale avvenga nei primi stadi di computazione: le dimostrazioni sperimentali dell'influenza della componente spaziale sull'efficienza della selezione visiva venivano considerate una conferma dell'ipotesi dell'early selection.

Va invece sottolineato come la rappresentazione spaziale dell'ambiente implichi una serie di operazioni piuttosto complesse. Molti dei fenomeni visivi proposti quali indicatori della cosiddetta early selection possono essere dunque ridefiniti, più precisamente è più appropriatamente, semplicemente quali indicatori di selezione spaziale, selezione che non necessariamente deve avvenire ai primi stadi dell'elaborazione. Questo fatto pone però dei problemi alle teorie delle risorse limitate, che postulano che la selezione avvenga precocemente nel corso dell'elaborazione.

L'ipotesi delle risorse limitate non è dunque sufficiente a spiegare tutti i fenomeni collegati all'attenzione selettiva. Questo non significa comunque che sia del tutto falsa. Nella situazione del cocktail party, ad esempio, prestare attenzione a più persone è un compito che sicuramente va oltre le capacità computazionali di una persona, anche senza invocare problemi di interferenza.

Teorie dell'attenzione per conflitto della risposta

Una spiegazione alternativa dell'attenzione selettiva postula che l'elaborazione sequenziale sia necessaria in quanto alcune operazioni risultano in conflitto fra di loro e dunque sia necessario scegliere quale operazione effettuare. Le teorie che spiegano l'attenzione in questi termini vengono definite teorie della selezione per conflitto della risposta (Bagnara, pag. 57).

La principale teoria elaborata all'interno di questo approccio è la teoria premotoria dell'attenzione spaziale. Secondo tale teoria lo scopo fondamentale dell'attenzione consiste nella scelta di un azione specifica diretta verso un dato oggetto, piuttosto che la selezione di un singolo stimolo fra i molti presenti nell'ambiente. Le assunzioni più importanti della teoria premotoria sono le seguenti:

· La programmazione degli atti motori e dei movimenti presuppone la localizzazione degli oggetti nello spazio.

· Le aree in cui vi è rappresentazione spaziale sono coinvolte negli aspetti spaziali della programmazione motoria.

· Differenti tipi di azione implicano differenti tipi di codifica delle relazioni spaziali: i movimenti oculari necessitano di rappresentazioni retinotopiche dello spazio distale, mentre i movimenti di prensione (reaching) presuppongono una codifica centrata sul corpo e/o sull'arto dello spazio prossimale.

· Una stessa area può essere coinvolta in molteplici funzioni psicologiche quali la rappresentazione spaziale, l'attenzione selettiva spaziale e la programmazione dei movimenti (Rizzolatti & Gallese, 1988).

· L'attenzione spaziale può essere prodotta da ognuna delle mappe che codificano lo spazio, in quanto i meccanismi attentivi sono intrinseci alle mappe semantiche e dipendono dal programma motorio sviluppato.

· Non esistono entità simili a circuiti di attenzione selettiva definiti come entità anatomiche separate dalle mappe spaziali: l'attenzione spaziale è una conseguenza della facilitazione dei neuroni nelle mappe pragmatiche spaziali. La facilitazione dipende dalla preparazione ad eseguire movimenti codificati in forma spaziale e diretti ad uno scopo.

· La selezione e la programmazione di un piano motorio produce automaticamente uno spostamento dell'attenzione verso i settori spaziali dove l'azione deve essere eseguita.

Nella teoria premotoria le mappe spaziali codificano non solo la locazione degli oggetti nell'ambiente, ma anche la loro la valenza pragmatica, ovvero la possibilità di compiere, verso tali oggetti, determinate operazioni. Le mappe spaziali vengono per questo definite mappe pragmatiche (Rizzolatti, Riggio & Sheliga, 1994, pag. 239).

La features integration theory

Secondo la features integration theory la necessità di ricorrere all'attenzione selettiva spaziale deriva da un'ambiguità potenziale della codifica che può avvenire nelle reti parallele quando viene codificato più di uno stimolo. In tali reti, infatti, il campo recettivo delle unità può avere un'estensione tale da percepire simultaneamente più stimoli, causando problemi di interferenza. L'attenzione viene dunque invocata, in questa teoria, per risolvere il binding problem.

Nel modello proposto da Treisman e colleghi gli attributi fisici sono codificati in parallelo, automaticamente già nei primi stadi di elaborazione visiva, mentre gli oggetti vendono identificati soltanto in un secondo momento e con l'intervento dell'attenzione selettiva. Il modello assume che la scena visiva sia inizialmente codificata in base a differenti dimensioni (colore, orientamento, frequenza spaziale, lucentezza, direzione di movimento). L'elaborazione seriale diviene necessaria al fine di ricombinare tali rappresentazioni separate e per assicurare la corretta sintesi di attributi per ogni oggetto in una scena complessa. Ogni attributo presente nella stessa locazione attentivamente selezionata viene combinato per formare un oggetto unitario (Treisman & Gelade, 1980, pag. 98).

Le vie di elaborazione visive

Nel cervello dei primati vi sono due meccanismi paralleli di elaborazione degli input visivi:

1) un meccanismo deputato all'identificazione degli oggetti, indipendentemente dalla loro posizione (via del what);

2) un meccanismo deputato alla localizzazione degli oggetti, indipendentemente dai loro attributi fisici (via del where).

La possibilità, da parte del meccanismo di identificazione, di ignorare le informazioni relative alla posizione spaziale dell'oggetto costituisce uno dei principali vantaggi della divisione dei compiti. Nei compiti di identificazione, apprendimento, riconoscimento e classificazione è necessario infatti disporre di una codifica centrata sull'oggetto, tale da poter disporre di valori costanti di forma, dimensione e colore indipendentemente dalle condizioni di contorno e, soprattutto, invariante rispetto alla posizione nello spazio tridimensionale ed a quella della proiezione retinica (Desimone & Ungerleider, 1989, pag. 271; Goodale & Milner, 1992, pag. 23). Un mezzo per ottenere l'invarianza spaziale è quello di ampliare il campo recettivo delle cellule coinvolte:

«È significativo come, in virtù di campi recettivi estremamente larghi, i neuroni dell'area temporale inferiore (IT) sembrino capaci di assicurare le basi neuronali del fenomeno noto come equivalenza degli stimoli alla traslazione retinica, ovvero la capacità di riconoscere uno stimolo come identico a prescindere dalla sua posizione nel campo visivo» (Mishkin, Ungerleider & Macko, 1983, pag. 415).

Lungo la via del what vi sono delle unità, selettive verso determinati attributi fisici, con campi recettivi che possono includere un intero emicampo visivo. Questo tipo di codifica, estremamente efficiente, comporta però degli svantaggi: se molti stimoli fisici sono presenti nel campo visivo, alcuni campi recettivi rischieranno di percepire più oggetti ed il pattern di attività di tali unità non riuscirà a discriminare fra le possibili combinazioni di attributi presenti (Hinton, McClelland & Rumelhart, 1986, pag. 93). Affinché la codifica sia corretta il diametro dei campi recettivi dev'essere non più ampio dello spazio che intercorre fra i vari oggetti. In caso contrario, sarà necessario diminuire il campo recettivo dei neuroni, perdendo però l'effetto di invarianza spaziale. L'unico mezzo per salvare capra e cavoli è quello di rendere possibile una contrazione dinamica del campo recettivo delle cellule. L'ipotesi può sembrare assurda ma, come vedremo nei prossimi capitoli, è proprio questo lo stratagemma utilizzato, reso possibile proprio attraverso l'attenzione selettiva spaziale (Moran & Desimone, 1985; Desimone, Wessinger, Thomas & Schneider, 1990).

Secondo la features integration theory l'attenzione selettiva spaziale ha il compito di disambiguare, nel corso del processo di identificazione, le informazioni relative agli attributi fisici degli oggetti simultaneamente presenti nel campo visivo, rendendo in questo modo possibile l'integrazione delle caratteristiche fisiche degli stimoli. Ciò consentirebbe di superare i problemi di identificazione collegati al tipo di codifica delle informazioni lungo la via del what.

Nella generazione dei movimenti saccadici l'accuratezza del movimento può essere drammaticamente danneggiata dalla presenza di un distrattore localizzato vicino allo stimolo bersaglio. Questo effetto, noto in letteratura come effetto gravità (Sparks, Lee, Rohrer, 1990), è dovuto al tipo di codifica degli stimoli nel collicolo superiore. In quest'area subcorticale, infatti, i neuroni presentano campi recettivi ampi e l'esatta locazione di uno stimolo può essere inferita soltanto in base alla popolazione di neuroni che costituiscono la mappa. La presenza del distrattore modifica il pattern di attivazione della rete ed il vettore calcolato andrà a cadere nel punto medio fra i due stimoli. In questo caso, dunque, il problema dell'interferenza nella codifica emerge non a livello dell'identificazione degli stimoli ma a quello della loro localizzazione, danneggiando l'accuratezza della programmazione motoria. Il filtro attentivo ha dunque anche lo scopo di eliminare l'interferenza causata dagli stimoli distrattori nella programmazione di atti motori che implicano una precisa localizzazione degli oggetti. Questa descrizione del fenomeno ha il pregio di mettere in risalto i punti in comune fra la teoria dell'attenzione per conflitto nella codifica e teoria dell'attenzione per conflitto nella risposta.