7 consells de preprocessament de biosignals: com millorar la robustesa del vostre classificador d’aprenentatge profund

Per què és tan important tractar el soroll i la distorsió?

Normalment, qualsevol tasca de classificació (detecció d’anomalies) relacionada amb bio-senyals com electrocardiografia (EKG), electroencefalografia (EEG), electromiografia (EMG), etc. es pot considerar com un problema de detecció de sèries temporals.

Segons les condicions de Karush-Kuhn-Tucker, els senyals d’entrada haurien de complir els criteris d’estacionarietat. Els patrons dels senyals d'entrada simplement han de ser els mateixos o similars als d'un conjunt d'entrenament sense canviar la distribució del senyal al llarg del temps.

Com a regla general, cada enregistrament de bio-senyals s’associa amb molt de soroll. Aquests biaixos afegeixen una variant addicional al model perquè infringeixen els criteris d’estacionarietat.

Aquests sorolls poden variar per naturalesa i es pot trobar informació més detallada aquí i aquí. Aquests articles descriuen els sons de l’ECG, però també es poden aplicar a qualsevol bio-senyal.

Dit això, el rendiment general del vostre classificador DL ​​està determinat per l'eficiència de les tècniques de preprocessament.

Vegem com és pràcticament possible millorar la robustesa del model d’aprenentatge profund mitjançant el preprocessament.

1. El 50% del processament eficient del senyal digital és un processament analògic eficient

Cada processament de senyals digitals comença amb un processament de senyal analògic eficient. L’error més freqüent està relacionat amb el problema d’aliasing.

Segons el teorema de Nyquist, la freqüència de mostreig de l'ADC hauria de ser el doble que la freqüència més alta del senyal d'entrada. Cada senyal no es correspon amb els àlies d'aquest criteri en el rang de freqüència principal i emmascara els àlies útils com a interferència addicional:

Per evitar aquest problema, el filtre de pas baix analògic s'aplica abans de l'ADC. Molt sovint, els enginyers de maquinari consideren suficient un circuit RC senzill. Tanmateix, la resposta de freqüència entre el filtre de pas baix perfecte i el real és molt diferent:

Consisteix en les característiques de freqüència dels filtres analògics ideals (esquerra) i reals (esquerra)

Assegureu-vos que el vostre LPF Inti-Aliasing compleixi els requisits de supressió de freqüències de Nyquist (us recomano aquest llibre per obtenir més informació):

  • 50 dB per ADC de 8 bits
  • 62 dB per ADC de 10 bits
  • 74 dB per ADC de 12 bits
  • 98 dB per ADC de 16 bits

2. Utilitzeu el mateix maquinari per entrenar i predir

Els diferents dispositius defineixen diferents condicions per a la gravació del senyal, per exemple. B. distorsió no lineal de l'electrònica, carcassa diferent, diferent posició dels sensors, etc.

Atès que diferents condicions defineixen senyals diferents, recomanaria utilitzar el mateix maquinari per al model d'entrenament i la predicció. Això pot ser una causa del biaix addicional del conjunt d'entrenament.

Si no hi ha opcions disponibles, podeu provar de pre-inclinar el conjunt d'entrenament. No obstant això, això requereix coneixements addicionals sobre maquinari i soroll.

3. Teorema de Nyquist per accelerar l’entrenament

Com es va descriure anteriorment, el teorema de Nyquist defineix una taxa de mostreig mínima de l'ADC per tal d'emmagatzemar el 100% de la informació del senyal analògic després de la conversió. És a dir, si la freqüència màxima del senyal és inferior a Fs / 2, té la redundància que es pot utilitzar per accelerar l’entrenament de la xarxa profunda.

Vegem un exemple.

El senyal ECG està disponible amb la freqüència de mostreig de 125 Hz proporcionada per la base de dades Physionet (s’ha aplicat un filtre de 30 Hz):

Consell per al processament previ de l’ECG: els senyals d’ECG assignen de 0 a 100 Hz, però es pot aplicar el filtre de pas baix de 30 Hz. Manté intactes les ones P i T, però redueix l’amplitud del pic R en un 20-30%. No és fonamental per a la detecció d’anomalies i el recompte de la freqüència cardíaca.

La densitat de l'espectre de potència d'aquest senyal té aquest aspecte:

Com es mostra més amunt, la major part de l'energia del senyal es concentra entre 0 i 30 Hz. Decimem-lo a 80 Hz i ho comparem amb el senyal original:

Demostració de l’efecte de decimació: senyal amb una freqüència de mostreig de 80 Hz (superior) i 125 Hz (inferior)

Es conserva la forma original, però la longitud total del senyal es redueix en un 35% de 92 a 59 mostres. Això correspon a una acceleració de l’entrenament del 35% sense pèrdua de precisió.

El meu projecte Github mostra l’eficàcia d’aquest enfocament.

Nota important: assegureu-vos que la decimació no perdi cap detall addicional que es pugui utilitzar per a la detecció. L’experimentació és l’única manera de demostrar-ho. A la pràctica, però, sol ser més ràpid entrenar dos models apilats (CNN + LSTM) amb senyals mostrejats que entrenar un model amb la taxa de mostreig original sense sacrificar el rendiment.

4. Comprendre els requisits del sistema

Abans de provar algoritmes de filtre més complexos com Wavelette o Adoptive, heu de saber quines funcions són necessàries per a la detecció.

Aquí en teniu un exemple.

Diguem que la feina del model d’aprenentatge profund és detectar les arítmies mentre es camina. Normalment, les dades de caminada EKG contenen soroll de baixa freqüència:

Mentrestant, el senyal clar EKG té aquest aspecte:

Les ones P i T estan emmascarades, i extreure-les no és una tasca fàcil. Abans d’intentar desenvolupar algoritmes complexos, fem una ullada a què és en realitat l’arítmia:

Per a la detecció d'arítmies, només el recompte de pols és suficient per configurar el detector eficient. Viouslybviament, però, la migració de la línia de base de baixa freqüència afegeix una variant addicional amb una violació de l’estacionarietat.

Diferents parts de l’ECG poden assignar diferents rangs de freqüència:

Un simple filtre de pas de banda de 5-15 Hz resol el problema de l’extracció de pic R. L’aplicació d’aquest filtre suprimeix les ones P i T (i les anomalies relacionades no estan disponibles per a la detecció), però es compleixen els requisits del sistema.

La regla principal: com més complex sigui l'algorisme, menys robust és i més recursos (tant temps com diners) es necessiten per implementar-lo. El filtratge digital més senzill hauria de ser el primer que cal provar.

5. Utilitzeu el principi MiniMax quan desenvolupeu canonades

El principi MiniMax és la gran estratègia de la teoria de jocs.

El principal problema amb els biosignals és el canvi de qualitat del senyal al llarg del temps:

  • Cas 1. Alta qualitat amb poca activitat de la persona test:
  • Cas 2. Mala qualitat de les dades durant un moviment intens. P i T estan emmascarats i no es poden extreure del soroll amb un sistema a 1 canal:

En el primer cas, P, QRS i T són detectables. Això significa que es podrien detectar la majoria de patrons EKG anormals (atac de cor, fibril·lació auricular, etc.).

En el segon cas, només es van poder detectar algunes anomalies relacionades amb QRS (arítmia, etc.).

Com es mostra més amunt, la millor manera d’extreure QRS és utilitzar un filtre de pas de banda de 5-15 Hz. Mentrestant, P i T se suprimeixen.

Per al cas 2, no és crític perquè P i T estan emmascarats pel soroll, però limita la quantitat de patologies possibles detectades i, alhora, proporciona dades d’alta qualitat a l’entrada.

La millor manera d’evitar aquest problema és aplicar un filtre adaptatiu que canviï la resposta de l’impuls a l’entorn canviant:

La idea és senzilla:

  1. Fer detector de qualitat de dades (detectors lineals / CNN);
  2. Definiu diversos filtres.
  3. Establir una regla per canviar la resposta d’impuls en funció de la qualitat del senyal d’entrada.

6. La manera intel·ligent d’utilitzar filtres de pas alt

Normalment, es necessita un filtratge de pas elevat per gestionar les errades de la línia de base:

EEG amb soroll de fons

L’enfocament obvi és utilitzar el filtre de pas alt. La principal limitació per a això és una freqüència de tall molt baixa (0,05 Hz) i un alt nivell de rebuig (> 30 dB). Per complir els requisits, el filtre ha de tenir un ordre elevat, és a dir, un llarg retard que pot no ser adequat per a aplicacions en temps real.

Una forma alternativa:

  • Reduir el senyal d'entrada;
  • Extraieu el sòl del soroll amb un filtre de pas baix amb una freqüència de tall de 0,05 Hz.
  • Interpolar el senyal;
  • Resteu la línia base del senyal original

La mostra de codi (Matlab) està disponible en aquest dipòsit de GitHub.

7. Experimentació iterativa

Com passa amb qualsevol problema de ciència de dades, la classificació dels biosigns és un procés experimental iteratiu, ja que diferents enfocaments de filtratge poden ser adequats per a diferents aplicacions.

He completat una breu llista de tècniques de filtratge, des de les més fiables fins a les pitjors.

NOTA: Aquesta és només la meva opinió personal i no es pot compartir amb la vostra.

  • Filtratge digital (FIR, IIR). Es recomana FIR per la manca de distorsió del retard del grup. El rendiment és moderat, ideal per a condicions inespecífiques, molt fàcil d’implementar i 100% robust.
  • Filtratge d’onetes. Un rendiment fort, però la implementació pot ser complexa en termes de selecció de paràmetres.
  • Filtratge adaptatiu. Aquest mètode té un rendiment més baix que el filtrat d'ona d'ona, però és molt més fàcil d'implementar amb una bona agilitat i rendiment.
  • Anàlisi de components independents (ICA) / Separació de fonts cegues (BSS). La implementació de l'algorisme Fast ICA en els llenguatges de programació més populars es pot trobar aquí. Recomanaria provar-ho darrerament perquè:
  1. Només funciona amb configuracions multicanal.
  2. Vaig trobar la robustesa d’aquest enfocament molt deficient, ja que no es garanteix la convergència.
  3. Requereix relativament més recursos informàtics i pot no ser adequat per a aplicacions en temps real.

___________________________________________________________________

Us ha semblat útil el paper? Si us plau, deixeu els vostres comentaris sobre l'article mitjançant aquest enllaç

___________________________________________________________________

Dmitrii Shubin, enginyer de R + D, dispositius mèdics

Toronto, ON, Canadà

Informació de contacte:

Correu electrònic: [email protected]

LinkedIn, GitHub