FR

Portail Wallonie |DGRNE |ISSeP | Accueil - Contacts

Réseaux de surveillance de la qualité de l'air : Rapport 2004

  Logo de l'ISSeP Logo de la DGRNE

Vous êtes ici : Accueil / Introduction / Traitements des données

 

1.4. Traitements des données

1.4.1. Paramètres statistiques

La pollution atmosphérique dépend d’un grand nombre de paramètres et les concentrations mesurées se caractérisent par une très grande variabilité. Aussi, pour étudier correctement un site, il faut accumuler un grand nombre de données réparties sur une période suffisamment longue pour s’affranchir de circonstances particulières qui ne reflèteraient pas la situation globale. Il est également nécessaire en cas de mesure sur des périodes plus courtes de signaler les conditions météorologiques rencontrées lors de l’échantillonnage et de multiplier autant que possible les échantillons dans des conditions climatiques différentes. Naturellement, pour pouvoir comparer valablement tous ces chiffres, il faut s’assurer une grande fiabilité des données par un système d’assurance qualité et éviter le biais introduit par la méthode de mesure, comme la dérive d’un moniteur.

Pour traduire et synthétiser la masse d’informations récoltées, il est nécessaire d’utiliser les outils statistiques. Si on trace une courbe reprenant la répartition des fréquences des concentrations, on obtient généralement une courbe se rapprochant d’une distribution log-normale, c’est-à-dire que le logarithme des concentrations suit une loi de distribution, appelée en statistique, loi normale. Une distribution normale se présente sous la forme d’une courbe en forme de cloche, symétrique par rapport à la moyenne (courbe de Gauss). Dans une distribution log-normale, la courbe de distribution n’est plus symétrique et comporte une déviation vers les valeurs de concentrations élevées.

Si la distribution était purement log-normale, il suffirait de deux paramètres statistiques pour décrire totalement la distribution des concentrations : la moyenne géométrique  et la déviation standard géométrique (ces deux paramètres se calculent à partir des logarithmes des mesures). Malheureusement, la distribution réelle montre des écarts par rapport à cette loi et il est nécessaire de caractériser la courbe de répartition par un plus grand nombre de paramètres :

  • la moyenne arithmétique :  somme des valeurs mesurées, divisée par le nombre de valeurs;
  • la médiane : valeur telle que la moitié des mesures lui soit inférieure (et par conséquent l’autre moitié pas);
  • Les centiles, appelés parfois percentiles, notés Pxx : valeurs telles que xx % des mesures leur soient inférieures (et par conséquent (100 - xx) les dépassent). Ainsi, dans le cas de valeurs journalières, le centile 98 est la valeur qui n’est dépassée que durant 7 jours. On utilisera dans ce rapport les P90, P95 et P98;  remarquons que la médiane est en fait un P50. Pour calculer les percentiles, on applique la méthode suivante :
    • 1) tri des n données par ordre croissant : X1 < X2 < … < Xk < … Xn-1 < Xn
    • 2) le percentile Z est la valeur du kième élément avec k = Z* n / 100, la valeur de k ainsi obtenue étant arrondie au nombre entier le plus proche.

Généralement, on observe que la médiane est inférieure à la moyenne, ce qui traduit la déviation vers les valeurs élevées de concentrations.

Les normes et les valeurs guides de qualité de l’air sont le plus souvent exprimées en terme de moyennes ou centiles. Cependant, dans les dernières directives européennes, on parle plutôt d’une valeur limite à ne pas dépasser plus d’un certain nombre de fois par an. En réalité, il ne s’agit que d’une autre formulation d’un même paramètre. Ainsi, pour le SO2, on ne peut tolérer plus de 24 dépassements des valeurs horaires ce qui correspond en fait à un percentile 99,7.

1.4.2. Critères pour l’agrégation des données

La réduction du nombre de données par le calcul de moyennes horaires, journalières, annuelles, … doit s’effectuer sous conditions quant au nombre initial de données; c’est ce que l’on appelle les critères pour l’agrégation des données.

Les critères d’agrégation sont des conditions nécessaires mais pas suffisantes. Ainsi, même en cas de respect des critères, il se peut que les données calculées ne soient pas représentatives de la réalité. Ainsi pour les polluants variant très fort au cours d’une journée, comme par exemple l’ozone, l’heure à laquelle les données sont absentes est importante.

En l’absence de critères d’agrégation précis définis dans les directives, les définitions et les critères repris ci-dessous proviennent du document explicitant la décision du Conseil sur l’Echange d’Information entre Etats Membres : « Guidance on the Annexes to Decision 97/101/EC on Exchange of Information as revised By Decision 2001/752/EC »

On définit la saisie de données (Data Capture) comme la proportion  (%) par rapport à une période donnée de valeurs valides qui peuvent lui être assignées. Les valeurs extrêmes sont 0 % (pas de valeurs valides) et 100 % (pas de valeurs manquantes, non mesurées ou non valides). On calcule ce paramètre par le rapport du nombre de valeurs valides durant une période sur le nombre maximal de valeurs qui auraient pu être mesurées.

Pour le calcul de valeurs horaires, la saisie de données minimale est de 75 %. Dans le cas du réseau télémétrique cela signifie qu’il faut que les deux valeurs semi-horaires soient présentes pour calculer la valeur horaire.

Pour le calcul de valeurs journalières, le critère est double et la journée doit comporter au moins 13 valeurs disponibles avec pas plus de 6 heures consécutives manquantes. Le cas extrême est une journée où seulement 13 valeurs horaires sont valides avec une période de 6 valeurs manquantes et une autre période de 5 valeurs manquantes. Naturellement, il peut y avoir plus de deux intervalles tant que le nombre de valeurs manquantes ne dépasse pas 11 heures.

Lors du calcul de la moyenne et de la médiane annuelle, un minimum de 50 % de données valides est nécessaire. Pour le calcul à partir de données semi-horaires, il faut donc 8760 données (8784 pour les années bissextiles) tandis que le calcul à partir de données journalières nécessite 183 jours (idem pour les années bissextiles).

Les percentiles élevés et le maximum  ont une stabilité plus faible par rapport au manque de données et requièrent donc un haut taux de saisie de 75 %. Pour des valeurs semi-horaires, il faut donc 13140 valeurs valides (13176 pour les années bissextiles) contre 274 (ou 275) pour les valeurs journalières.

En plus du critère sur le nombre de données, il existe un second critère en rapport avec la répartition de données selon les saisons. Ainsi, le rapport entre le nombre de données valides pour les deux saisons de l’année considérée ne peut être plus grand que 2, l’hiver allant de janvier à mars et d’octobre à décembre et l’été allant d’avril a septembre.

Dans le cas particulier de l’ozone, la directive 2002/3/CE édicte ses propres règles en matière d’agrégation des données et ne sont pas reprises ici mais dans le chapitre relatif à ce polluant.

1.4.3. Conventions

Dans ce rapport, nous avons choisi de respecter le critère de 75 % pour le calcul de valeurs horaires et de 50 % pour le calcul de valeurs journalières. Par contre, le critère de 6 heures consécutives n’est pas systématiquement vérifié.

Pour les paramètres statistiques annuels, nous avons adoptés les conventions suivantes :

  • si moins de 50 % des données sont valides, les statistiques ne sont pas reprises (caractère *), mais le nombre de données disponibles est inscrit;
  • si plus de 75 % des données sont valides, les statistiques sont écrites en caractères normaux;
  • entre 50 et 75 %, les statistiques sont transcrites, mais en italique et entre parenthèses;
  • si le rapport entre le nombre de données entre les deux saisons est supérieur à deux, les statistiques sont transcrites en italique et entre crochets pour autant qu’il y ait au minimum 50 % de données valides.
  • si le paramètre n’est pas mesuré à cette station, on indiquera le signe /.

Lors des calculs, si on rencontre des mesures inférieures aux limites de détection de la méthode, la valeur prise en compte dans les calculs est égale aux 2/3 de cette limite de détection. Si le résultat d’un calcul est inférieur à cette limite de détection, on notera <LD.

Ces précautions sont utiles mais pas suffisantes. Il reste pertinent d’examiner l’ensemble des données et de comparer différentes stations. Tout au long de ce rapport, nous ne manquerons pas de commenter les résultats et de signaler toute anomalie comme, par exemple, une absence de données pendant un épisode de pollution.

Citons encore quelques conventions utilisées dans ce rapport :

  • Dans le cas des poussières sédimentables, les évolutions à long terme sont tracées sur base des périodes. La moyenne glissante est alors calculée sur un an, soit 13 périodes.
  • Les évolutions des paramètres statistiques se rapportent à la période imposée par les normes (par exemple pour le plomb, on utilisera les évolutions des statistiques journalières).
  • Pour le calcul de journée moyenne ou de semaine moyenne, le critère d’agrégation choisi est de 50 %.

1.4.4. Unités

Les unités dépendent du type de polluant; ainsi pour les gaz ou les particules en suspension, on exprime la concentration en unité de masse par unité de volume, soit le plus souvent des µg/m³ (µg = microgramme, soit un millionième de gramme). Dans le cas de polluants présents en très faibles quantités, on peut aussi utiliser le ng/m³ (ng = nanogramme, soit un milliardième de gramme).

Pour les hydrocarbures totaux dont la composition exacte est inconnue, on préfère utiliser les rapports volumiques en ppm (part par million, soit 1 m³ de gaz pour 1 000 000 m³ d’air).

Pour les retombées, il s’agit de mesurer un dépôt de matière sur une surface donnée en un temps donné. Les résultats s’expriment alors en mg/m².j (parfois en µg/m².j). Pour les retombées humides, les ions polyatomiques sont exprimés par rapport à la masse de leur atome central (par exemple SO4= exprimé en g [S]/m².jour de pluie).

1.4.5. Indice de la qualité de l’air

La définition d’un indice de qualité de l’air résulte de la volonté de rendre l’information accessible au plus grand nombre sans entrer dans des considérations scientifiques parfois complexes. Cet indice est une appréciation qualitative de la qualité de l’air qui a peu de valeur scientifique. En effet, il synthétise en un seul paramètre les résultats pour des polluants dont les effets sur la santé peuvent être très différents et définit la qualité de l’air par rapport au polluant pour lequel la situation est la pire. On compare donc des choses très différentes et il ne faut en aucun cas commencer à établir des statistiques sur ces indices. Les indices ne remplacent en aucun cas les rapports et les interprétations doivent toujours s’effectuer à partir des données.

Il existe plusieurs façons de définir ces indices. Dans ce document, nous utiliserons les indices tels qu’ils sont publiés quotidiennement pour la Belgique sur le site Internet de la Cellule Interrégionale pour l’Environnement (CELINE, http://www.irceline.be) . Deux indices sont calculés quotidiennement pour chaque région : l’indice général de qualité, valable pour l’entièreté du territoire de la Région, et l’indice urbain de qualité qui concerne les centres urbains des grandes villes de la Région. Nous ne saurions que trop conseiller à toute personne désireuse d’obtenir une information simple de consulter ce site.

Ces indices sont basés sur les teneurs en ozone, dioxyde d’azote, dioxyde de soufre et les particules PM10. Ils ne tiennent donc pas compte des composés en métaux lourds ou organiques dont les effets résultent plutôt (mais pas toujours) d’une exposition à long terme. Les indices portent donc sur les principaux polluants irritants. Pour chacun des polluants, on définit une échelle de concentrations pour calculer un sous-indice. Les échelles de concentrations sont basées à la fois sur les valeurs limites imposées par les directives et sur l’historique des données  (Tableau 1). L’indice de qualité est  alors  déterminé comme étant le sous-indice le plus élevé, donc la qualité la plus médiocre. Si l’un des sous-indices manque, l’indice global n’est pas calculé et il faut au minimum 50 % de données valides pour  calculer un sous-indice. Dans ce rapport, nous n’utiliserons que les sous-indices pour justement éviter de mélanger des notions différentes. Dans la première partie du rapport (analyse par polluant), nous nous réfèrerons au Tableau 1 pour établir une répartition des jours selon les catégories définies pour les sous-indices, station par station, la définition d’un indice unique pour toute la Région étant une notion trop réductrice qui ne traduit pas les différences locales.

Polluant

(µg/m³)

SO2

Moy.
24 h

0 ->15

-> 30

-> 45

-> 60

-> 80

-> 100

-> 125

-> 165

-> 250

>250

NO2

Max.
1 h

0 ->25

-> 45

-> 60

-> 80

-> 110

-> 150

-> 200

-> 270

-> 400

>400

O3

Max
8 h

0 -> 30

-> 45

-> 60

-> 80

-> 100

-> 120

-> 150

-> 200

-> 270

>270

PM10

Moy.
24 h

0 -> 10

-> 20

-> 30

-> 40

-> 50

-> 70

-> 100

-> 150

-> 200

>200

Indice

1

2

3

4

5

6

7

8

9

10

Appréciation

Excellent

Très bon

Bon

Assez bon

Moyen

Médiocre

Très médiocre

Mauvais

Très mauvais

Exécrable

Tableau 1 : Définition des indices de pollution

 
Pictogramme de la Région wallonne
 

Mentions légales - Vie privée - Médiateur

Haut de la page