Il riconoscimento forense del parlante (nella terminologia inglese: forensic speaker recognition, forensic speaker identification, forensic speaker verification) è un’applicazione della biometria della voce (forensic voice biometrics), finalizzata a risolvere il problema di stabilire se ed in quale misura la registrazione di un campione di voce anonima possa essere attribuita ad un determinato individuo di identità nota, attraverso metodi tecnico-scientifici idonei a comprovare fatti o evidenze in un processo.
Più precisamente, il riconoscimento forense del parlante, o identificazione forense del parlante, consiste nella comparazione di una o più registrazioni della voce di un individuo noto con una registrazione della voce di un individuo non noto (anonimo), e per tale ragione sarebbe tecnicamente preferibile utilizzare l’espressione di “comparazione forense della voce” (forensic voice comparison), in luogo di “riconoscimento” o di “identificazione” del parlante.
Il problema presenta molte variabili, la maggior parte delle quali riconducibili all’intrinseca variabilità del parlato di un singolo individuo (variabilità intra-parlante), dalla variabilità del parlato tra individui diversi (variabilità inter-parlante), dalla rumorosità ambientale (in senso ampio) sovrapposta alla voce e con essa registrata, agli apparecchi e ai canali utilizzati per captare, trasmettere e registrare il segnale vocale.
Scopo del presente articolo è quello di fornire un’introduzione al problema, evidenziando la necessità/opportunità che l’esperto utilizzi metodologie di comparazione forense della voce scientifiche e validate scientificamente: ulteriori approfondimenti saranno trattati in articoli di prossima pubblicazione successivamente (in caso di necessità, scrivere a info@biometriaforense.it).
Il quesito. Il ruolo dell’esperto
L’esito della comparazione forense della voce dovrebbe consistere in una informazione possibilmente quantitativa relativa alla forza dell’evidenza biometrica (le registrazioni vocali), e non dovrebbe fornire direttamente un risultato decisionale, categorico (es. la voce anonima appartiene/non appartiene all’individuo di identità nota). In ambito forense, la decisione relativa all’appartenenza dalla voce anonima all’individuo di identità nota, o in generale alla colpevolezza o meno di un individuo sotto accusa, è esclusivo dominio dell’autorità giudiziaria, che può formare il proprio convincimento anche sulle risultante di una comparazione forense della voce espletata dall’esperto (il consulente tecnico di parte, il perito).
Questa importantissima differenza, tra il ruolo dell’esperto (che non decide) e quella del giudice (cui è demandata ogni decisione), nella pratica è spesso ignorata in sede di formulazione del quesito:
«…proceda il C.T. all’analisi della voce registrata sul CD relativo all’interrogatorio di garanzia al fine di verificare se essa sia la stessa di quella registrata nel CD XXX…»
«…comparare la voce di XXX presente nelle intercettazioni telefoniche YYY, con un saggio fonico ottenuto dalla registrazione diretta della voce dell’imputato al fine di appurare se vi sia compatibilità tra le voci…»
Tuttavia l’esperto non dovrebbe mai dimenticare che il suo ruolo è quello di valutare quantitativamente la forza dell’evidenza biometrica della voce a supporto dell’una o dell’altra ipotesi in esame (tipicamente l’ipotesi accusatoria e l’ipotesi difensiva), astenendosi dal formulare giudizi di tipo decisionale sulle ipotesi al vaglio del giudice, ma fornendo al giudice elementi utili affinché egli possa pervenire, tenendo conto anche di tutti gli altri elementi nel processo, alla decisione che graverà sull’imputato.
Le metodologie proposte in letteratura.
Tradizionalmente, le metodologie (approcci) per estrarre informazioni dai segnali vocali per scopi di comparazione forense della voce, sono di 4 tipi, ulteriormente classificabili in “soggettivi” ed “oggettivi”:
- Approcci soggettivi (i.e. basati prevalentemente sull’opinione dell’esperto, con nessuna o minima presenza di misure quantitative sui segnali)
- Uditivo (Nolan, 1997; Rose, 2006; Jessen, 2008): è per lo più praticato da fonetisti ed è fortemente basato sulla loro esperienza per ricavare, documentare e confrontare qualsiasi caratteristica che si ritenga rilevante delle voci oggetto di indagine, tra cui forse qualche misurazione acustica di base
- Spettrografico (voiceprinting): (cfr Kersta, 1962;.. Tosi et al 1972, Rose, 2002 Morrison 2010 2014), si basa soprattutto sul confronto visivo di spettrogrammi di parti importanti delle registrazioni audio da confrontare
- Oggettivi (fondati prevalentemente su misure quantitative sui segnali)
- Acustico-fonetico (semiautomatico): L’approccio acustico-fonetico comporta misure quantitative delle proprietà acustiche delle unità comparabili (ad esempio fonemi) delle voci registrate, in genere realizzate utilizzando il software di elaborazione del segnale, sotto la supervisione dell’esperto, così come modellazione statistica delle caratteristiche (cfr. Nolan, 1997; Rose 2002, 2006: Jessen 2008).
- Automatico: (Jessen, 2008) si basa su misure quantitative dei segnali vocali (molto utilizzati gli MFCCs), ma l’esperto deve svolgere molte meno operazioni, quasi esclusivamente per inserire le registrazioni vocali e la lettura del uscita del software.
Le raccomandazioni ENFSI in tema di valutazione e presentazione della forza dell’evidenza scientifica: il likelihood-ratio framework.
L’ENFSI (http://enfsi.eu/), European Network of Forensi Institutes, ha recepito le raccomandazioni di numerosi scienziati sostenitori del cd. framework bayesiano o del rapporto di verosimiglianza (likelihood-ratio), per la valutazione della forza dell’evidenza scientifica (inclusa la comparazione forense della voce): cfr. http://enfsi.eu/wp-content/uploads/2016/09/m1_guideline.pdf , in particolare pag. 22.
Come esempio relativo alla comparazione forense della voce, si supponga di dover svolgere una comparazione tra una registrazione di una voce anonima e un campione vocale (saggio fonico) rilasciato dall’imputato. Le ipotesi sottese sono che la voce anonima è stata originata dall’imputato (ipotesi accusatoria), contro l’ipotesi che la voce anonima non appartenga all’imputato (ipotesi difensiva), ma possa appartenere ad una qualunque altra persona estratta da una popolazione di riferimento. A causa del non trascurabile livello di variabilità delle caratteristiche di una generica registrazione di un campione vocale, esiste in generale una probabilità non nulla che l’imputato possa produrre un campione vocale simile a quello anonimo, ed una probabilità non nulla che qualunque altra persona possa produrre un campione vocale simile a quello anonimo. Date le due ipotesi accusatoria e difensiva e l’evidenza E, l’esperto dovrebbe calcolare una quantità rappresentata dal rapporto della probabilità dell’evidenza E, nell’ipotesi accusatoria (la traccia lasciata dal reo anonimo e il campione rilasciato dall’imputato hanno la stessa origine), e la probabilità della stessa evidenza E nell’ipotesi difensiva (la traccia lasciata dal reo anonimo ed il campione rilasciato dall’imputato hanno una differente origine). In formule:
In altre parole, la probabilità di “osservare” le caratteristiche del campione di voce anonima, posto che esso appartenga all’imputato, va rapportata alla probabilità di osservare le stesse caratteristiche, posto che il campione appartenga ad altra persona. L’esperto può quindi soltanto valutare le due suddette probabilità di osservare l’evidenza E nelle rispettive ipotesi, e non, al contrario, calcolare la probabilità di ciascuna ipotesi (cioè la probabilità di colpevolezza e la probabilità di non colpevolezza) data l’evidenza E. Quest’ultima valutazione spetta soltanto al giudice.
—–
Una ricerca di qualche anno fa (Romito e Galatà, 2007) rivelava un quadro desolante relativamente alla diffusione di metodologie scientificamente corrette di comparazione forense della voce, così come la carenza di preparazione specifica.
La rilevanza del fenomeno evidenziata in quella ricerca, nonché l’esperienza più recente, suggeriscono che tuttora il problema sia molto presente in Italia. Si impongono pertanto ulteriori riflessioni sul ruolo del professionista chiamato a svolgere una comparazione forense della voce, partendo proprio dal suo punto di vista.
(continua su: La comparazione forense della voce: un’opportunità professionale per il consulente tecnico ed il perito)
Bibliografia (selezione)
Grimaldi M., D’Apolito S., Gili Fivela B., Sigona F., Illusione e Scienza nella Fonetica Forense: Una Sintesi, Mondo Digitale, AICA, settembre 2014, ISSN: 1720-898X.
Jessen, Michael. “Forensic phonetics”. Language and Linguistics Compass, 2 (2008): 671–711. DOI:10.1111/j.1749-818x.2008.00066.x.
Kersta, Lawrence G. “Voiceprint identification”. Nature, 196 (1962): 1253–1257. DOI: 10.1038/1961253a0
Morrison, Geoffrey S. “Forensic voice comparison”. In Expert Evidence, edited by Ian Freckelton and Hugh Selby, Chapter 99. Sydney: Australia Thomson Reuters, 2010.
Morrison, Geoffrey S. “Distinguishing between forensic science and forensic pseudoscience: testing of validity and reliability, and approaches to forensic voice comparison”. Science & Justice, 54 (2014): 245–256
Nolan, Francis. “Speaker recognition and forensic phonetics”. In The handbook of phonetic sciences, edited by Willian J. Hardcastle and John Laver, 744–676. Oxford: Blackwell, 1997.
Paoloni, Andrea, Mauro Falcone and Antonio Federico. “The Parametric Approach in Forensic Speaker Recognition”, Proceedings of the COST 250 Workshop Speaker Recognition by Man and by Machine: Directions for Forensic Applications, 45–51. Ankara, Turkey, 1998.
Robertson, Bertrand and Tony G.A. Vignaux, “Interpreting scientific evidence. Evaluating Forensic Science in the Courtroom”. In Expert Evidence, edited by Ian Freckelton and Hugh Selby, Chapter 28. Sydney, Australia: Thomson Reuters, 2000.
Romito, Luciano e Vincenzo Galatà. “Speaker Recognition: Stato dell’arte in Italia. Valutazione dei corpora, dei metodi e delle professionalità coinvolte”. In Scienze Vocali e del linguaggio – Metodologie di valutazione e risorse linguistiche, edited by Veronica Giordani, Valentina Bruseghini and Piero Cosi, pp. 223–242. Torriana: EDK Editore, 2007.
Rose, Phil. Forensic speaker identification. London: Taylor and Francis, 2002
Rose, Phil. “Technical forensic speaker recognition”. Computer Speech and Language, 20 (2006): 159–191. DOI:10.1016/j.csl.2005.07.003.
Sigona F., Grimaldi M., Tools for Forensic Speaker Recognition, in “Forensic Communication: Theory and Practice: A Study of Discourse Analysis and Transcription”, Edited by Franca Orletti and Laura Mariottini, Cambridge Scholars Publishing, August 2017.
Sigona F., Grimaldi M., «Il riconoscimento del parlante in ambito forense: uno studio indipendente sul software IDEM/SPREAD in uso ai Carabinieri», in Sicurezza e Giustizia, N. IV, dicembre 2015, ISSN: 2039-9669
Tosi, Oscar, t al. “Experiment on voice identification”. Journal of the Acoustical Society of America, 51 (1972): 2030–2043. DOI:10.1121/1.1913064