Volume 42 Number 4

Statistical testing in wound care

John Stephenson

Keywords inferential statistical tests, p value, confidence intervals, odds ratio

For referencing Stephenson J. Statistical testing in wound care. WCET® Journal 2022;42(4):38-40

DOI https://doi.org/10.33235/wcet.42.4.38-40
Submitted 6 November 2022 Accepted 1 December 2022

PDF

Author(s)

References

Français

Wound care studies generally yield quantitative data; and that data require some form of analysis. Almost all studies include a descriptive summary of participants, as discussed in my previous article1. However, many studies also require some form of inferential statistical testing; usually if the intention is to generalise findings from the sample to a population.

Different study designs require different testing methods, although the basic aim in most cases is the same. This is to assess the significance of the effect of interest; that is, to establish whether any effect we see in our sample data is a reflection of the state of affairs in the parent population, or likely to be nothing more than random variation in our data. An effect could be an observed difference between study groups (such as amount of biofilm present in a control group and a group where patients are treated with an anti-microbial dressing), the difference between a measure taken at baseline and post-intervention from a single patient group (such as pain levels during and after surgery), an observed relationship between two variables (such as the extent of mobile health technology use and wound care knowledge) or many other quantities.

Establishment of statistical significance requires a test of a hypothesis. We usually test a null hypothesis (of no effect); for example, that the difference in means in the population is zero. Miller et al2 conducted a pilot single-blinded randomised controlled trial (RCT) to examine concordance with and acceptability of electric stimulation therapy (EST) in patients with venous leg ulcers (VLUs) who had not tolerated moderate to high compression. The treatment was tested against the null hypothesis of no effect; i.e. that concordance with the total recommended treatment time under control treatment or under EST was the same. Lenselink and Andriessen3 measured (among other quantities) the percentage of granulation tissue and yellow tissue in a cohort study on the efficacy of a polyhexanide-containing biocellulose dressing in 28 patients, testing several hypotheses relating to differences in patient outcomes between baseline and 24 weeks. In a study of diabetic and non-diabetic patients, Gunes et al4 analysed several biomarkers, primarily galectin-3 (which promotes angiogenesis and new vessel formation) and tested several hypotheses relating to relationships between galectin-3 and various other biomarkers.

Significance is quantified using the familiar (if not widely understood) p-value, which is a conditional probability: the probability that observed results, or something more extreme, would have been obtained, given that the null hypothesis is true. In everyday parlance it is referred to loosely as ‘the chance of a chance’: that is, the probability that our data has fallen the way it has just as a result of natural variation and not because an effect actually exists. Conventionally, a p-value below 0.05 (5%) is taken as indicating an outcome of statistical significance (at the 5% significance level) and a consequential rejection of the null hypothesis of no effect. The study of Miller et al yielded a p-value of 0.671 for its primary outcome; indicating insufficient evidence for a difference between treatment groups. The study of Lenselink and Andriessen yielded a p-value reported to be less than 0.04 for a test comparing the mean percentage of granulation tissue from baseline to 24 weeks post-treatment; indicating evidence for a treatment effect. The study of Gunes et al yielded a p-value of less than 0.001 in a test for correlation between the galectin-3 and C-reactive protein biomarkers, indicating strong evidence for a significant relationship between these biomarkers.

The RCT conducted by Miller et al and the test of changes from baseline conducted by Lenselink and Andriessen are examples of grouped study designs: an unpaired study, in which two unrelated study groups are compared, in the case of Miller et al and a paired study design, in which the measures are taken on two occasions from the same group of patients, in the case of Lenselink and Andriessen (the word ‘paired’ refers to the fact that each patient contributes a pair of readings, not that a pair of groups is involved). Another variant of this study arises when measures are taken from patients matched on demographic or health-related variables. The study of Gunes et al is an example of a correlational design using ungrouped data. These three designs are probably the most common choices of study design in wound care, although various other study types, which also aim to infer results from sample data to a population may be found, including for example tests of agreement, screening/diagnostic studies, survival analysis and meta-analysis.

Numerical outcomes in unpaired studies can be compared using the independent samples t-test, or, if more than two groups are involved, a test such as analysis of variance (ANOVA). Categorical outcomes are usually analysed using the chi-squared test for association. For the paired study design, the standard analysis technique is the paired samples t-test or the repeated measures ANOVA. Correlational studies are usually quantified via Pearson’s correlation coefficient, and may be extended into a linear regression setting. All these procedures are parametric procedures which make certain distributional assumptions about the data; if these assumptions are not fulfilled, corresponding non-parametric techniques, such as the rank-sum test, signed ranks test, evaluation of Spearman’s rank correlation coefficient or bootstrapping procedures can often work quite well.  All procedures may be easily implemented using standard statistical software and all will yield an assessment of statistical significance as measured by the p-value and given by the software.

While the p-value facilitates an inference of statistical significance or otherwise, it does not give us a measure of precision in our results. This is another side to inferential testing. We may find in our sample an effect of a given size, but it would not be realistic to expect that an effect of precisely that magnitude exists in the wider population. While we will never know what the size of the population effect actually is, it is possible to derive a confidence interval (CI), also known as an uncertainty interval, for it. This is often interpreted loosely as the range of values within which we can state to a certain degree of confidence (conventionally 95%) that a population value lies. More formally, if we were to repeat the procedure many times, then the range of values determined each time would contain the true population parameter on 95% of occasions.

CIs do not quantify the strength of evidence against the null hypothesis, as the p-value does, but instead give a measure of the precision of an estimate (for example, the difference between, or ratio of, the mean values in treatment groups). Nowadays CIs (and the estimate of effect around which they are fitted) are increasingly reported alongside p-values in statistical testing and appear to many to be more informative and easier to understand. While they do not form part of a hypothesis test, most statistical software will automatically report a CI as a by-product of the hypothesis test output.

There is an exact correspondence between CIs and the corresponding p-value: a 95% CI that excludes the key value 0 (for a difference between study groups) or 1 (for a ratio between study groups) corresponds to a significant effect at the 5% significance level (i.e. a p-value that is less than 0.05). Conversely, a 95% CI that includes a key value corresponds to a p-value that is statistically non-significant at the 5% significance level (i.e. is 0.05 or greater). Atkinson et al5 investigated the effect of various factors on risk of surgical site infection during spinal surgery and in a typical presentation of tabulated results (below), reported statistics from a model including both p-values and CIs. Note that the spinal levels factor, which is significant according to the p-value (0.019), has an odds ratio with an associated CI of 1.04 to 1.54, which excludes the key value (for a ratio) of 1; while the spinal region factor, which is non-significant according to the p-value (0.103), has an odds ratio with an associated CI of 0.71 to 44.3, which includes the key value. This table is also a good example of how an effect of relatively small magnitude (each additional spinal level is associated with a 26% increase in odds of infection) may be significant; whereas an effect of large magnitude (surgery performed in the thoracic, rather than non-thoracic region is associated with about a fivefold increase in odds of infection) may be non-significant.

 

Table 1: extract from data table reported by Atkinson et al5

stephenson table 1 - en.png

 

Selection of an appropriate statistical test for a given study design is not always straightforward and requires careful consideration of study parameters. No single test is suitable for all types of studies. For grouped studies, such as the unpaired and paired designs discussed above, we may need to consider, for example, the number of groups, the size of the groups, the distribution of data, the independence of units and the presence or absence of confounding factors in selecting a test. For ungrouped studies, such as correlational studies, we may wish to consider whether our data is in the form of raw data or rank orderings; and for ungrouped studies assessing multiple factors, we may wish to consider whether we are potentially overfitting our data (modelling noise rather than signal) by attempting to analyse too many factors for a sample of a given size.

Special measures are needed for complex designs: for example when data is clustered (such as patients within hospital wards, or anatomical sites within patients); when multiple tests are being conducted (such as may arise in studies with multiple outcome measures, where the key treatment variable has multiple levels, or where separate analyses are conducted on sub-groups of individuals and/or at multiple time points); when outcomes are not known exactly (such as when an outcome is the time to an adverse event in patients who are monitored infrequently); when a series of observations are made on the same patients; or when it is required to determine a synthesised estimate of effect from multiple studies. Certain data features, such as the presence of extensive missing or invalid values or outliers may also lead to a requirement for additional statistical processes. In all such situations it is recommended that the advice of a biomedical statistician is sought.


Tests statistiques dans le traitement des plaies

John Stephenson

DOI: https://doi.org/10.33235/wcet.42.4.38-40

Author(s)

References

PDF

Les études sur les soins des plaies produisent généralement des données quantitatives, et ces données nécessitent une certaine forme d'analyse. Presque toutes les études comprennent un résumé descriptif des participants, comme je l'ai expliqué dans mon précédent article1. Cependant, de nombreuses études nécessitent également une certaine forme de tests statistiques inférentiels, particulièrement si l'intention est de généraliser les résultats de l'échantillon à une population.

Les différents modèles d'étude nécessitent des méthodes de test différentes, bien que l'objectif de base soit le même dans la plupart des cas. Il s'agit d'évaluer l'importance de l'effet en question, c'est-à-dire d'établir si l'effet que nous observons dans notre échantillon de données reflète l'état de la situation dans la population mère ou s'il s'agit simplement d'une variation aléatoire dans nos données. Un effet peut être une différence observée entre des groupes d'étude (comme la quantité de biofilm présente dans un groupe témoin et un groupe où les patients sont traités avec un pansement antimicrobien), la différence entre une mesure prise au départ et après l'intervention d'un seul groupe de patients (comme les niveaux de douleur pendant et après l'opération), une relation observée entre deux variables (comme l'étendue de l'utilisation de la technologie de santé mobile et la connaissance du soin des plaies) ou de nombreuses autres quantités.

L'établissement de la signification statistique nécessite de tester une hypothèse. Nous testons généralement une hypothèse nulle (d'absence d'effet); par exemple, que la différence de moyennes dans la population est nulle. Miller et al.2 ont mené un essai pilote contrôlé et randomisé (ECR) en simple aveugle pour examiner la concordance et l'acceptabilité de la thérapie par stimulation électrique (TSE) chez les patients qui n'avaient pas toléré une compression modérée à élevée et souffrant d'ulcères de jambe veineux (UJV). Le traitement a été testé par rapport à l'hypothèse nulle d'absence d'effet, c'est-à-dire que la concordance avec la durée totale de traitement recommandée sous traitement témoin ou sous TSE était la même. Lenselink et Andriessen3 ont mesuré (entre autres) le pourcentage de tissu de granulation et de tissu jaune dans une étude de cohorte sur l'efficacité d'un pansement de biocellulose contenant du polyhexanide chez 28 patients, en testant plusieurs hypothèses relatives aux différences de résultats pour les patients entre le début de l'étude et 24 semaines. Dans une étude portant sur des patients diabétiques et non diabétiques, Gunes et a.l4 ont analysé plusieurs biomarqueurs, principalement la galectine-3 (qui favorise l'angiogenèse et la formation de nouveaux vaisseaux) et ont testé plusieurs hypothèses relatives aux relations entre la galectine-3 et divers autres biomarqueurs.

La signification est quantifiée à l'aide de la valeur p familière (bien que peu comprise), qui est une probabilité conditionnelle: la probabilité que les résultats observés, ou quelque chose de plus extrême, auraient été obtenus, étant donné que l'hypothèse nulle est vraie. Dans le langage courant, on parle de "hasard du hasard", c'est-à-dire de la probabilité que nos données soient tombées comme elles sont tombées à cause d'une variation naturelle et non parce qu'un effet existe réellement. Par convention, une valeur p inférieure à 0,05 (5%) est considérée comme indiquant un résultat de signification statistique (au niveau de signification de 5%) et un rejet consécutif de l'hypothèse nulle d'absence d'effet. L'étude de Miller et al. a donné une valeur p de 0,671 pour son résultat primaire, indiquant une insuffisance de preuve d'une différence entre les groupes de traitement. L'étude de Lenselink et Andriessen a donné une valeur p inférieure à 0,04 pour un test comparant le pourcentage moyen de tissu de granulation entre le début de l'étude et 24 semaines après le traitement, prouvant un effet du traitement. L'étude de Gunes et al. a donné une valeur p inférieure à 0,001 dans un test de corrélation entre les biomarqueurs de la galectine-3 et de la protéine C-réactive, montrant des preuves solides d'une relation significative entre ces biomarqueurs.

L'ECR mené par Miller et al. et le test des changements par rapport au départ mené par Lenselink et Andriessen sont des exemples de modèles d'étude groupés: une étude non appariée, dans laquelle deux groupes d'étude non reliés sont comparés, dans le cas de Miller et al. ainsi qu’ un modèle d' étude apparié, dans lequel les mesures sont prises à deux occasions sur le même groupe de patients, dans le cas de Lenselink et Andriessen (le mot "apparié" fait référence au fait que chaque patient fournit une paire de lectures, et non qu'une paire de groupes est impliquée). Une autre variante de cette étude se présente lorsque les mesures sont prises auprès de patients appariés sur des variables démographiques ou liées à la santé. L'étude de Gunes et al. est un exemple de conception corrélationnelle utilisant des données non groupées. Ces trois modèles sont probablement les choix les plus courants en matière de conception d'études dans le domaine du traitement des plaies, bien que l'on puisse trouver divers autres types d'études, qui visent également à déduire les résultats d'un échantillon de données pour les appliquer à une population, y compris par exemple des tests de concordance, des études de dépistage/diagnostic, des analyses de survie et des méta-analyses.

Les résultats numériques des études non appariées peuvent être comparés à l'aide du test t des échantillons indépendants ou, si plus de deux groupes sont concernés, d'un test tel que l'analyse de la variance (ANOVA). Les résultats catégoriels sont généralement analysés à l'aide du test d'association du Khi deux. Pour le modèle d'étude apparié, la technique d'analyse standard est le test t des échantillons appariés ou l'ANOVA à mesures répétées. Les études corrélationnelles sont généralement quantifiées par le coefficient de corrélation de Pearson, et peuvent être étendues à un cadre de régression linéaire. Toutes ces procédures sont des procédures paramétriques qui peuvent redistribuer les hypothèses concernant les données. Si ces hypothèses ne sont pas satisfaites, les techniques non paramétriques correspondantes, telles que le test de la somme des rangs, le test des rangs marqués, l'évaluation du coefficient de corrélation des rangs de Spearman ou les procédures de bootstrapping, peuvent souvent donner d'assez bons résultats.  Toutes les procédures peuvent être facilement mises en œuvre à l'aide d'un logiciel statistique standard et toutes donneront lieu à une évaluation de la signification statistique, mesurée par la valeur p fournie par le logiciel.

Si la valeur p facilite l'inférence de la signification statistique ou non, elle ne nous donne pas une mesure de la précision de nos résultats. C'est un autre aspect des tests inférentiels. Nous pouvons trouver dans notre échantillon un effet d'une taille donnée, mais il ne serait pas réaliste de s'attendre à ce qu'un effet de cette ampleur existe dans la population générale. Bien que nous ne sachions jamais quelle est la taille réelle de l'effet de population, il est possible d'en déduire un intervalle de confiance (IC), également appelé intervalle d'incertitude. Ce terme est souvent interprété de manière large comme la plage de valeurs dans laquelle nous pouvons affirmer avec un certain degré de confiance (conventionnellement 95%) qu'une valeur de la population se situe. Plus formellement, si nous devions répéter la procédure de nombreuses fois, la plage de valeurs déterminée à chaque fois contiendrait le véritable paramètre de la population dans 95% des cas.

Les IC ne quantifient pas la robustesse des données contre l'hypothèse nulle, comme le fait la valeur p, mais donnent plutôt une mesure de la précision d'une estimation (par exemple, la différence, ou le rapport entre des valeurs moyennes dans les groupes de traitement). Aujourd'hui, les IC (et l'estimation de l'effet autour de laquelle ils sont ajustés) sont de plus en plus souvent indiqués au côté des valeurs p dans les tests statistiques et semblent pour beaucoup plus informatifs et plus faciles à comprendre. Bien qu'ils ne fassent pas partie d'un test d'hypothèse, la plupart des logiciels statistiques signalent automatiquement un IC comme un produit dérivé dans les résultats du test d'hypothèse.

Il existe une correspondance exacte entre les IC et la valeur p correspondante: un IC à 95% qui exclut la valeur clé 0 (pour une différence entre les groupes d'étude) ou 1 (pour un rapport entre les groupes d'étude) correspond à un effet significatif au niveau de signification de 5% (c'est-à-dire une valeur p inférieure à 0,05). Inversement, un IC à 95% qui comprend une valeur clé correspond à une valeur p qui est statistiquement non significative au niveau de signification de 5% (c'est-à-dire qu'elle est égale ou supérieure à 0,05). Atkinson et al.5 ont étudié l'effet de divers facteurs sur le risque d'infection du site chirurgical lors d'une opération de la colonne vertébrale et, dans une présentation courante de résultats tabulés (ci-dessous), ont exposé les statistiques d'un modèle comprenant à la fois les valeurs p et les IC. Il est à noter que le facteur «niveaux rachidiens», qui est significatif selon la valeur p (0,019), présente un ratio de cotes avec un IC associé de 1,04 à 1,54, ce qui exclut la valeur clé (pour un ratio) de 1; tandis que le facteur «région rachidienne», qui n'est pas significatif selon la valeur p (0,103), présente un ratio de cotes avec un IC associé de 0,71 à 44,3, ce qui inclut la valeur clé. Ce tableau est également un bon exemple de la façon dont un effet d'une ampleur relativement faible (chaque niveau rachidien supplémentaire est associé à une augmentation de 26% des chances d'infection) peut être significatif, alors qu'un effet d'une grande ampleur (une chirurgie pratiquée dans la région thoracique plutôt que non thoracique est associée à une augmentation d'environ cinq fois les chances d'infection) peut être non significatif.

 

Tableau 1: extrait du tableau de données exposées par Atkinson et al.5

stephenson table 1 - fr.png

 

La sélection d'un test statistique approprié pour un plan d'étude donné n'est pas toujours simple et nécessite un examen attentif des paramètres de l'étude. Aucun test unique ne convient à tous les types d'études. Pour les études groupées, comme les modèles non appariés et appariés discutés ci-dessus, nous pouvons avoir besoin de considérer, par exemple, le nombre de groupes, la taille des groupes, la distribution des données, l'indépendance des unités et la présence ou l'absence de facteurs de confusion dans le choix d'un test. Pour les études non groupées, telles que les études corrélationnelles, nous pouvons nous demander si nos données se présentent sous la forme de données brutes ou de classements; et pour les études non groupées évaluant de multiples facteurs, nous pouvons nous demander si nous ne sommes pas en train de surajuster nos données (en modélisant le bruit plutôt que le signal) en essayant d'analyser trop de facteurs pour un échantillon d'une taille donnée.

Des mesures spéciales sont nécessaires pour les modèles complexes: par exemple lorsque les données sont regroupées (comme les patients dans les services d’un hôpital, ou les sites anatomiques chez les patients); lorsque des tests multiples sont effectués (comme cela peut se produire dans les études avec des mesures de résultats multiples, lorsque la variable de traitement clé a plusieurs niveaux, ou lorsque des analyses séparées sont effectuées sur des sous-groupes d'individus et/ou à des points de temps multiples); lorsque les résultats ne sont pas connus avec précision (par exemple, lorsqu'un résultat est le délai d'apparition d'un événement indésirable chez des patients qui ne sont pas suivis fréquemment); lorsqu'une série d'observations est effectuée sur les mêmes patients; ou lorsqu'il est nécessaire de déterminer une synthèse de l’estimation de l'effet à partir de plusieurs études. Certaines caractéristiques des données, telles que la présence d'un grand nombre de valeurs manquantes ou invalides ou de valeurs aberrantes, peuvent également nécessiter des processus statistiques supplémentaires. Dans toutes ces situations, il est recommandé de demander l'avis d'un statisticien biomédical.


Author(s)

John Stephenson
PHD FRSS(GradStat) CMath(MIMA)
Senior Lecturer in Biomedical Statistics
University of Huddersfield, United Kingdom
Email J.Stephenson@hud.ac.uk

References

  1. Stephenson, J. (2022). Descriptive presentation of wound care data. World Council of Enterostomal Therapists Journal. 42, 3, p. 30-33
  2. Miller C, McGuiness W, Wilson S, Cooper K, Swanson T, Rooney D, Piller N, Woodward M (2017). Concordance and acceptability of electric stimulation therapy: a randomised controlled trial. Journal of Wound Care Vol. 26, No. 8. https://doi-org.libaccess.hud.ac.uk/10.12968/jowc.2017.26.8.508
  3. Lenselink E, Andriessen A (2011). A cohort study on the efficacy of a polyhexanide-containing biocellulose dressing in the treatment of biofilms in wounds. Journal of Wound Care 20 (534)
  4. Gunes EA, Eren MA, Koyuncu I, Taskin A, Sabuncu T (2018). Investigation of galectin-3 levels in diabetic foot ulcers.  Journal of Wound Care (27); 12
  5. Atkinson R, Stephenson J, Jones A, Ousey K. An assessment of key risk factors for surgical site infection in patients undergoing surgery for spinal metastases J Wound Care 2016; 25(S9); S30-S34