Designing an effective questionnaire in wound care

John Stephenson

doi:https://doi.org/10.33235/wcet.42.2.24-29

Volume 42 Number 2

Designing an effective questionnaire in wound care

John Stephenson

Keywords analysis, measures, questionnaire design, response rate, validation

For referencing Stephenson J. Designing an effective questionnaire in wound care . WCET^® Journal 2022;42(2):24-29

DOI https://doi.org/10.33235/wcet.42.2.24-29
Submitted 29 April 2022 Accepted 6 May 2022

Cite

Introduction

Quantitative data collection via questionnaire is common practice in wound care. Questionnaires are a relatively inexpensive and quick way of amassing data, and do not necessarily require the researcher to be present while the data is being collected. Very often they are the only viable way to collect the data required. Common uses of questionnaires in wound care, which can include questionnaires administered to clinical staff, patients or both, include:

To assess the effectiveness of a clinical training programme in increasing staff knowledge of a certain condition.
To assess the extent of the use of particular dressing in a certain clinical setting.
To evaluate a new piece of equipment.
To monitor wound healing under a new treatment regime.
To assess a patient-related outcome, such as pain, quality of life or satisfaction with treatment received.

While many fully validated questionnaires are available ‘off-the peg’, researchers in wound care may find that the specific measures captured by these questionnaires do not match the aims of their proposed study, and hence it may be necessary for a bespoke instrument to be designed. Questionnaire-based research involves careful thought regarding selection of the study sample, maximising the response rate, identifying the measures to be assessed, formulating and scoring the constituent items, framing the items for analysis, considering the outcome measures and item scoring, and piloting the questionnaire.

Who is the questionnaire to be given to?

The concept of generalisability – the ability to infer beyond sample data (those who have completed the questionnaire) to a typically much wider parent population – is key to most quantitative research studies. This requires a representative sample of respondents. It is almost impossible to create a sample which exactly reflects the population it is supposed to represent on all aspects. Clinical knowledge is needed to establish important traits – such as job level, patient co-morbidity, or wound type – which will vary from one study to another. Determination of whether a sample does indeed reflect the parent population on the characteristics deemed to be most important to the study may require knowledge of at least the approximate distribution of categories of units in the population of interest: for example, the composition of a typical tissue viability nursing team in a typical organisation may be known, and researchers may seek to reflect that composition in the personnel invited to complete our questionnaire. Failure to ensure that the sample does not differ in some important way from the population it purports to represent may lead to selection bias, which may weaken or invalidate findings.

Some specific features apply to data collected in many wound care studies. First, data must often be collected concurrently on both clinical staff and patients. An example might be a study of the caseload of a community nursing team in which both nurses and their patients will be surveyed; typically, different sets of questionnaire items will be applicable to the nurses and the patients. This often leads to clustered data, where one staff member will be treating several patients. Second, the unit of analysis in wound care studies is not always an individual person, as is often the case in other branches of clinical sciences. It may be a wound, such as a pressure injury, and one patient may supply multiple wounds to the same study. Again, this leads to the issue of clustering of data; here with pressure injuries clustered within individual patients.

Maximising the response rate

Data collection via questionnaire is particularly susceptible to response bias, bias introduced by differences in characteristics between those who choose to complete the questionnaire and those who do not. Although computational methods exist for imputing missing data values, these methods may not be viable in all situations and it is generally preferable to maximise both the proportion of potential responders who actually respond, and the proportion of those who respond who give a complete set of responses. Low response rates also lead to reductions in the power of the analysis – the ability to detect any effect that may exist.

There are some obvious methods of increasing response and completion rates:

Use of electronic formats instead of, or as well as, paper-based questionnaires (polite emailed reminders may be sent to non-respondents at appropriate intervals).
Avoidance of questionnaires with excessive items. All included items should be included for a specific purpose: each superfluous item increases the chance that a respondent will not complete the questionnaire properly. For example, respondents should not be asked to directly provide information on quantities such as BMI which can be calculated by the researchers from other information provided by respondents.
Avoidance of ambiguously worded items. Items should be quick for the respondents to answer by offering a selection of options or visual analogue scales rather than asking for free text. Provision of conditional items can introduce confusion and should be limited.
Assurance of participant anonymity, if this is appropriate for the information collected.

Some studies will require questionnaire-based data to be collected on multiple occasions, for example, to monitor quality of life or pain in patients with chronic wounds. A common issue here is that the proportion of completed questionnaires generally decreases at each data collection point. This can introduce further bias in the form of attrition bias, when those lost to follow-up are somehow systematically different from those who return their questionnaires. While little can be done about patients moving away or dying during the follow-up period, attrition loss can nonetheless be minimised by not over-burdening respondents in terms of the frequency of questionnaire mailings, nor the length or complexity of the questionnaires they are required to complete.

Validation / measures to be assessed

Devising appropriate items to efficiently encapsulate outcome measures of interest is often the most difficult part of effective questionnaire design. It is generally preferable to use a questionnaire that is validated for implementation on similar participants. However, full validation is an extensive process: Price and Harding¹ reported the development and validation of a questionnaire to measure the impact of chronic wounds (leg ulcers and diabetic foot ulcers) on patient health-related quality of life (HRQoL) and identify areas of patient concern. This involved a three-stage process: a focus group and a series of semi-structured interviews to generate items for the questionnaire; a pilot process of the questionnaire with analysis of data via factor analysis; and assessment of reliability, validity and reproducibility of the resulting scale in a 3-month follow-up period.

While full validation of a self-designed questionnaire is a significant undertaking that may not be within the resources of a clinician who needs to design, implement and analyse data in a limited period of time, some common validation steps may be plausible. Often this will involve input to item wording from a panel of expert clinicians, with clarity of wording possibly assessed via focus groups or other means. The aim is to derive a series of items which each contribute to a different facet of the outcome of interest and, when assessed in conjunction with each other, provide a meaningful measure of the overall outcome. Expert advice may be needed to confirm that an item really is contributing to the measurement of the construct intended, and not some other construct. Barakat-Johnson et al² developed and evaluated the psychometric properties of an instrument used to assess clinician knowledge of incontinence-associated dermatitis with item development using the input of an expert panel of clinicians as the first stage of a three-stage process; this was then followed by an evaluation of content validity of the instrument via a survey of clinicians and stakeholders, and a pilot multi-site cross-sectional survey design to determine composite reliability.

Content and construct validity should also be addressed during the development process. Items that are too self-similar should be avoided. Rather than each capturing a unique facet of the construct of interest, such items are capturing the same facet, and hence this facet is being double counted, and it is very likely that respondents will respond in the same way to both items. Conversely, however, items which are very different from each other may not be measuring the same construct at all. Another common issue is the ‘overlapping’ of facets of a construct captured by different items. Evaluation of content and construct validity using recognised summary measures and statistical methods were utilised by Barakat-Johnson et al.² in subsequent stages of the development of their tool.

Item formulation and scoring

Derivation of quantitative data via questionnaire requires ‘closed’ responses (numbers or categories); ‘open-ended’ responses are not generally suitable for quantitative reporting. Closed-form questionnaire items may be formulated in a number of ways. Some of the more common item formulations are:

Items eliciting a numerical quantity directly, such as ‘What is your age in years?’
Items which yield a numerical quantity indirectly, by requesting respondents to provide a response on a visual analogue scale which is subsequently processed by the researcher. A typical example might be to present a line of given length (say 10cm) with both ends clearly labelled as representing extreme values; for example: ‘No pain at all’ and ‘The worst pain imaginable’; and accompanied by an instruction such as ‘Please put a mark on this line corresponding to the level of pain your wound is causing you today’.
Items allowing respondents to choose one option from a list of possible options offered.
Items allowing respondents to choose as many options as are applicable from a list of possible options offered.

The first two of these types elicit numerical responses; the second two elicit categorical responses. Both types of responses may be potentially of use for subsequent analysis, and the questionnaire should be formatted so that it is possible for respondents to report either a numerical response, or choose from a list of options, as appropriate, to a particular item.

Items eliciting direct or indirect numerical responses are potentially the most straightforward to include in subsequent analysis procedures. However, subsequent data pre-processing can be made easier by framing a question such that respondents do not feel the need to add in unnecessary words: a question such as ‘How long have you worked in this organisation?’ may elicit a range of responses such as ‘Less than 1 year’; ‘18 months’; ‘About 5 years’ and so forth, which will be interpreted by most computer software as text, rather than numerical responses, and need extensive editing before they can be used for analysis. A simple re-wording such as ‘Please state the number of years (round to the nearest year) that you have worked for this organisation’ might save a lot of pre-processing time. Also, a simple instruction to leave blank any non-applicable items, or items for which the respondent cannot give a correct response, may save more time in deleting various instances of ‘Not applicable’; ‘Don’t know’; ‘Not sure’ and so forth.

It is common practice to introduce artificial categorisation in items yielding numerical data. For example, an item requesting respondents to report their age might offer a choice of age range options: ‘18–30’, ‘31–40’, ‘41–50’ etc. Such approaches are not generally recommended: first, information is lost about the distinction between respondents of different ages within the same age range (there may be considerable differences in the responses of an 18-year-old and those of a 30-year-old); and second, multiple categories in a grouping variable means multiple comparisons are needed in the analysis (outcomes in those aged 18–30 versus those aged 31–40, outcomes in those aged 18–30 versus those aged 41–50 and so on), potentially leading to technical issues and problems of interpretation.

However, for items which capture a construct truly measured at the categorical level, there is no alternative to offering a list of options for respondents to select. The list of options offered should be exhaustive. A respondent who is requested to supply their role in an organisation, for example, only to find that their role is not represented in the options offered, may lose confidence that their participation in the study will result in accurate recording of their views or situation and may be less inclined to complete the rest of the questionnaire accurately.

A similar issue arises when options overlap. If the options for the item ‘How many patients are in your weekly caseload?’ are, say, ‘10 or fewer’; ‘10–20’; ‘20–30’ etc., then someone with a caseload of 10 or 20 patients exactly will not know which option they should select. Another example might be a respondent who is asked to select their job role from a list of options when they actually have two or more roles. This situation can be simply avoided with better item wording, for example: ‘Please select the role from the following list that most closely corresponds to your main job role’.

In formulating items of this kind, it can be tempting to allow respondents a free text response. This may prevent accidental omission of a respondent’s preferred option, or confusion arising from multiple options which are similar, but not identical, to the response that the respondent would prefer to make. However, this allowance may necessitate extensive subsequent pre-processing of free text data into defined groups, which may not always be easy if respondents are not sufficiently explicit in their free-text responses. This situation can often be avoided by offering an ‘Other’ option in the list of options.

The options offered to a categorical item may be nominal (no underlying ordering; in which case the ordering of options is unimportant) or ordinal (in which case options should be presented in a logical order). The ‘classic’ ordinal questionnaire item is the Likert item, the simplest and, by some margin, the most popular formulation for questionnaire items, found in many, if not most, questionnaires. A Likert item is a question which typically asks respondents to choose an option from an ordered list of five options representing the strength of agreement with a particular statement, such as, for example, ‘Product X is an effective treatment for over-granulation’. Typical options to such an item might be ‘Strongly disagree’, ‘Disagree’, ‘Neither agree nor disagree’, ‘Agree’ and ‘Strongly agree’. Other Likert items may ask respondents to assess the frequency or magnitude of an event, such as, for example, ‘Has the area around the wound become swollen?’ Here, typical options might be ‘Not at all’, ‘A little bit’, ‘A moderate amount’, ‘Quite a lot’, ‘A great deal’.

Likert items do not have to offer five options, but in general do offer an odd-number of options, of which five is probably the most common number, to allow for a ‘neutral’ middle option. While items with larger number of options may appear to offer more granularity of response, the distinctions between the points on the scale can be increasingly hard for respondents to discern (‘Some of the time’, ‘Much of the time’, ‘Most of the time’, ‘Almost all the time’ etc.). A visual equivalent of the Likert item is a question worded something like: ‘On a scale of 0 to 10, how much has your wound prevented you from carrying out daily household tasks?’. This is an 11-point item: a common error is to allow the scale in questions of this kind to run from 1 to 10 (rather than 0 to 10). The neutral response in such cases would be represented by a response of 5.5, not 5; although many who respond with the value 5 to items of this kind would no doubt be intending to report a response in the exact centre of the available scale. Items with a wide set of ordinal responses behave in some ways like items yielding numerical responses indirectly via a visual analogue scale.

Items that request respondents to select ‘as many options are applicable’ are acceptable, but such items can be significantly harder to analyse than corresponding items which request only a single option to be chosen. For example, an item such as ‘Which of the following wound dressings do you use on a regular basis – please select all that apply’ followed by a list of 26 options (Product A, Product B, Product C … Product Z), is actually equivalent, in analysis terms, to a series of 26 questions: ‘Do you use Wound Dressing Product A on a regular basis – yes or no?’; ‘Do you use Wound Dressing Product B on a regular basis – yes or no?’… ‘Do you use Wound Dressing Product Z on a regular basis – yes or no?’. This series of items will probably lead to a wide range of combinations of responses and give rise to dozens of pairwise comparisons, all of which will be difficult to interpret.

Framing the items for analysis

A typical questionnaire may begin with some basic demographic questions, eliciting respondents’ demographic and lifestyle attributes, such as age, sex, family status etc.; and/or items relating to their health condition (presence of various mental or physical health conditions, duration of pre-existing wound) or employment status (length of service, staff grade etc.). Some of these items may be included to help illustrate the diversity or characteristics of the sample but will take no further part in the analysis itself.

Within reason, items measuring such ‘background variables’, which are typically factual questions eliciting numerical or categorical responses, rather than from Likert-style or similar items, can be recorded in whatever way is desired. Questionnaires which are designed to present data descriptively, but will not involve any kind of inferential analysis (i.e. inferring from sample data to a parent population), may be limited to items of this kind. Such studies are typically designed to assess the prevalence or proportion of a quantity, such as a study to ascertain the proportion of nurses using a particular wound care product, or the proportion of clinical staff who respond to a visual prompt such as skin reddening. Brown and Sneddon³ implemented a questionnaire, comprised of mostly ‘stand-alone’ items with ordinal responses, to understand how lymphoedema services are funded and delivered across the UK and their level of resource. The questionnaire data yielded estimates of proportions (for example, the proportion of clinicians surveyed who treated open wounds) but the researchers did not attempt to generalise beyond the sample data.

However, inferential analysis is generally within the scope of most quantitative studies, and hence most questionnaires eliciting quantitative data will include items which are needed for subsequent inferential analysis. For example, with respect to a certain outcome or outcomes, it may be desired to compare experienced and novice staff, or ICU patients who are turned regularly and those who are not, or a new piece of equipment and standard equipment. These analyses are examples of comparative studies, in which two or more groups are compared against each other: many standard research study designs, such as cohort studies, case-control studies and randomised controlled designs, fall into this bracket. Ousey et al⁴ used questionnaire-based data to compare a novel design of mattress against a standard mattress on a range of patient experience metrics (comfort, temperature and sleep quality) of patients. The researchers used standard inferential statistical methods to compare the significance and magnitude of effects, with groups defined by mattress type.

Items used to define grouping variables in these studies are categorical. Categorical variables which can take one of only two categories (or ‘levels’, as they are sometimes known) are known as binary variables, as in the study of Ousey et al.⁴. Some grouping variables may comprise more than two categories. For example, a study comparing outcomes in patients who may be classified as being underweight, normal weight, overweight, having obesity or having morbid obesity, might use a grouping variable ‘Obesity status’ to classify each questionnaire respondent into one of the above five categories.

Such multi-categorical grouping variables should be specified with caution; while a binary grouping variable leads to a single analysis (for example, outcome in males versus outcome in females), the number of analyses required quickly increases with the introduction of multiple-level grouping variables. Another reason to limit multiple-level grouping variables is that although items recording grouping variables should, in general, allow respondent selection of any possible item, researchers should be prepared for the eventuality of thinly-spread data across multiple categories, leading to some groups which are really too small to meaningfully analyse. In such circumstances, it may be necessary to merge certain categories together before analysis.

Outcome measures

In most questionnaires, the majority of items relate to the elicitation of outcome measures. Many outcomes are categorical, often binary, for example, the probability of a wound proceeding to 50% healing by 30 days after treatment; or multi-categorical, for example, predominant tissue type in wound bed. Such outcomes can generally be easily captured in a questionnaire with a single binary or ordinal item. Dhoonmoon⁵ surveyed the experience of 56 healthcare professionals (HCPs) of the use of a debridement pad via a feedback questionnaire. Most items, including those related to pad performance (removing slough debris, debridement action etc.) were assessed using categorical items, with options from ‘excellent’ to ‘poor’. Such measures lend themselves naturally to ordinal categorical assessment. For ease of analysis or other purpose, many ordinal outcomes are dichotomised – for example, one of the measured outcomes in the Ousey et al⁴study (sleep quality) was processed for analysis from its original five options (‘excellent’, ‘very good’, ‘good’, ‘adequate’, ‘poor’) into a dichotomous measure comparing the responses of ‘excellent’ or ‘very good’ with any other response. Numerical outcomes, such as the percentage of patients healed, or the time for pain levels to reach a certain pre-specified value, may also be found but are less common in questionnaire-based analysis in wound care.

Item scoring

Questionnaires are typically used to evaluate quantities for which no simple objective measure exists. In the context of a wound care study, these may be, for example, a clinician’s evaluation of a new pressure re-distributing mattress, or a patient’s opinion as to how much their wound prevents them from carrying out everyday tasks. Such quantities typically cannot be encapsulated within a single item; a series of items, all of which tap into the construct of interest, may be needed. Examples include the knowledge of dermatitis of a trainee nurse who has recently completed a workshop session on this subject, or the quality of life experienced by a patient living with a chronic wound. Typically, these constituent items may be Likert-style or similar. In such cases, interest is almost invariably centred on the processed score of a set of items, and not on any of the individual items themselves. Hence while, in theory, each item on a questionnaire item could represent a single measure, the number of distinct measures captured on a typical questionnaire is usually a lot less than the number of items in the questionnaire, with several items contributing to the evaluation of each construct.

Limitation of the number of outcomes is generally desirable: extensive presentation of results of individual outcomes in the form of, for example, pie charts may give little insight into the relative importance of the various findings. There are also certain analysis issues which may make large numbers of primary outcomes undesirable. Just like studies which collect data through other means, the ideal questionnaire probably captures information on a single, pre-specified primary outcome, and a small number of secondary outcomes.

A score is needed for all items which contribute to the evaluation of a particular measure. Typically, the scoring for 5-point Likert items is very simple – from 1 point for ‘Strongly disagree’ to 5 points for ‘Strongly agree’, with intermediate options scored accordingly. Likert items with other numbers of options are scored in a similar way. Many researchers prefer to use a coding such as: –2 points for ‘Strongly disagree’, –1 point for Disagree and so on up to +2 points for ‘Strongly agree’, possibly with the idea that negatively worded responses require negative scores. This coding is exactly equivalent to the 1–5 coding mentioned above – the score for each option is reduced by 3 points for all options. As long as this scoring is applied consistently, inferences will be the same under either scoring systems.

It is normally assumed that item scores are additive, that it is meaningful to derive an overall score by adding up the scores obtained on individual items which contribute to the same measure. This assumption is often easier to justify if there is consistency in the formulation of items. It not obvious how an overall score should be derived with a series of items with a number of options that varies from, say, 2 to 3 to 5 to 7. Scores from the items with the largest number of options will swamp those from items with fewer responses if, for each item, responses are simply coded as 1 up to the value of the number of the options.

It is also harder to justify that summing scores from multiple items leads to a meaningful measure, even if the number of options in each item is the same, if the options are different. If one set of items offers the options ‘Strongly disagree’, ‘Disagree…’ ‘Strongly agree’ and another set offers the options ‘Not at all’, ‘A little bit…’ ‘A great deal’, it may be difficult to argue that the scores from the two sets of items can be meaningfully combined.

To ensure a meaningful total, the above coding may need to be reversed if some items are in the opposite sense to others, for example, if 5-point Likert items such as ‘My wound has forced me to limit my activities with others’ and ‘The wound has affected my sleep’ are coded using the 1–5 scale above, with 1 point awarded for a response of ‘Strongly disagree’ and 5 points awarded for a response of ‘Strongly agree’, then the implication is that higher scores indicate worse outcomes. Hence if an additional item in the same scale such as, for example, ‘I am able to carry out everyday tasks without difficulty’ is to be included, this item could be coded such that ‘Strongly agree’ is awarded 5 points, ‘Strongly disagree’ 1 point, and other points of the scale scored accordingly, for consistency with the remaining scale items.

Piloting the questionnaire

Pilot implementation can be a useful tool in the refinement of questionnaire items and can reveal issues which may impact on subsequent response rate and response reliability such as poor clarity of item wording or excessive time taken for questionnaire completion. If a questionnaire includes a set of Likert-style or similar items which are designed to tap into the same construct, the internal consistency of the pilot responses to these items can be assessed easily and quickly using the most statistical software. This process can identify items which are not responded to in a similar manner to other items purporting to be measuring the same construct, and hence may require amendments to their wording (if the wording is unclear or has been misunderstood by respondents), deletion from the questionnaire, or possibly moving to the measurement of another construct. The pilot stage is generally the only opportunity to make such amendments if they are needed.

Summary

Good questionnaire design is driven by the research question, and the analysis that proceeds from it. Consideration of the end point is in fact generally the starting point. Issues to be considered include determination of the outcomes to be measured; how are they to be measured; whether outcomes are objective measures that can be adequately captured using items eliciting simple numerical responses or categories, or require multiple items to capture a series of specific facets of the measure.

The level(s) at which the analysis is to be conducted must also be determined – in wound care studies, analyses at the patient, clinician or wound level are all commonplace. It must also be determined whether or not outcomes are to be linked to any other variables, and whether the desired groups for comparison are featured in the items functioning as grouping variables to classify units of analysis (whether patients, clinicians or wounds) appropriately.

Data collection via questionnaire should be approached just as data collection via medical devices or other means – it is necessary to ensure that the data collection instrument is fit for purpose. This means that as many steps as possible along the validation road are taken (assuming that a pre-validated instrument is not being used) to ensure that we are measuring the outcomes we think we are measuring, via carefully worded items grouped and scored appropriately. Care should be taken that only as many items as are necessary are used to capture demographics, other background information and outcome measures. It is necessary to ensure that respondents are, as far as possible, a representative sample of the population to which generalisations are to be made. Response rates are maximised by making the items as clear as possible, and by asking as little as possible of respondents in terms of the length of time and the amount of effort they will need to complete the questionnaire, just as might be done using other means of data collection.

While it is easy to under-estimate the effort required to facilitate effective questionnaire-based data collection, when conducted properly, questionnaire-based data collection can be a highly effective means of data collection and form a sound base for research studies.

Conflict of interest

The authors declare no conflicts of interest.

Funding

The authors received no funding for this study.

Diseño de un cuestionario eficaz para el cuidado de heridas

John Stephenson

DOI: https://doi.org/10.33235/wcet.42.2.24-29

Author(s)

References

PDF

Introducción

La recogida de datos cuantitativos a través de un cuestionario es una práctica habitual en el cuidado de heridas. Los cuestionarios son una forma relativamente barata y rápida de recopilar datos, y no requieren necesariamente que el investigador esté presente mientras se recogen los datos. Muy a menudo son la única forma viable de recoger los datos necesarios. Los usos habituales de los cuestionarios en el cuidado de heridas, que pueden incluir cuestionarios administrados al personal clínico, a los pacientes o a ambos, incluyen:

Evaluar la eficacia de un programa de formación clínica para aumentar los conocimientos del personal sobre una determinada enfermedad.
Evaluar el grado de utilización de un apósito concreto en un determinado entorno clínico.
Para evaluar un nuevo equipo.
Para controlar la cicatrización de las heridas bajo un nuevo régimen de tratamiento.
Evaluar un resultado relacionado con el paciente, como el dolor, la calidad de vida o la satisfacción con el tratamiento recibido.

Aunque existen muchos cuestionarios totalmente validados “fuera de la norma”, los investigadores en el ámbito del cuidado de heridas pueden descubrir que las medidas específicas que recogen estos cuestionarios no se ajustan a los objetivos de su estudio propuesto, por lo que puede ser necesario diseñar un instrumento a medida. La investigación basada en un cuestionario implica una cuidadosa reflexión sobre la selección de la muestra del estudio, la maximización de la tasa de respuesta, la identificación de las medidas que se van a evaluar, la formulación y puntuación de los items que lo componen, el encuadre de los items para el análisis, la consideración de las medidas de resultado y la puntuación de los items, y el pilotaje del cuestionario.

¿A quién hay que entregar el cuestionario?

El concepto de generalización -la capacidad de inferir más allá de los datos de la muestra (los que han rellenado el cuestionario) a una población matriz normalmente mucho más amplia- es clave para la mayoría de los estudios de investigación cuantitativa. Esto requiere una muestra representativa de encuestados. Es casi imposible crear una muestra que refleje exactamente a la población que se supone que representa en todos los aspectos. Se necesitan conocimientos clínicos para establecer rasgos importantes -como el nivel de trabajo, la comorbilidad del paciente o el tipo de herida- que variarán de un estudio a otro. Para determinar si una muestra refleja realmente a la población matriz en las características que se consideran más importantes para el estudio, puede ser necesario conocer al menos la distribución aproximada de las categorías de unidades en la población de interés: por ejemplo, se puede conocer la composición de un equipo típico de enfermería de viabilidad tisular en una organización típica, y los investigadores pueden tratar de reflejar esa composición en el personal invitado a rellenar nuestro cuestionario. Si no se garantiza que la muestra no difiere en algún aspecto importante de la población a la que pretende representar, se puede producir un sesgo de selección que puede debilitar o invalidar los resultados.

Algunas características específicas se aplican a los datos recogidos en muchos estudios sobre el cuidado de heridas. En primer lugar, a menudo hay que recoger datos simultáneamente sobre el personal clínico y los pacientes. Un ejemplo podría ser un estudio de la carga de trabajo de un equipo de enfermería comunitaria en el que se encuestará tanto a los enfermeros como a sus pacientes; normalmente, se aplicarán diferentes conjuntos de cuestionarios a los enfermeros y a los pacientes. Esto suele dar lugar a datos agrupados, en los que un miembro del personal tratará a varios pacientes. En segundo lugar, la unidad de análisis en los estudios sobre el cuidado de heridas no es siempre una persona individual, como suele ocurrir en otras ramas de las ciencias clínicas. Puede tratarse de una herida, como una lesión por presión, y un paciente puede aportar varias heridas al mismo estudio. Una vez más, esto nos lleva a la cuestión de la agrupación de los datos; en este caso, con las lesiones por presión agrupadas dentro de los pacientes individuales.

Maximizar el índice de respuesta

La recogida de datos a través de un cuestionario es especialmente susceptible al sesgo de respuesta, un sesgo introducido por las diferencias de características entre los que deciden completar el cuestionario y los que no. Aunque existen métodos informáticos para imputar los valores de los datos que faltan, estos métodos pueden no ser viables en todas las situaciones y, por lo general, es preferible maximizar tanto la proporción de encuestados potenciales que realmente responden, como la proporción de los que responden que dan un conjunto completo de respuestas. Las bajas tasas de respuesta también reducen la potencia del análisis, es decir, la capacidad de detectar cualquier efecto que pueda existir.

Hay algunos métodos obvios para aumentar las tasas de respuesta y de finalización:

Utilización de formatos electrónicos en lugar de, o además de, cuestionarios en papel (se pueden enviar recordatorios amables por correo electrónico a los que no respondan a intervalos adecuados).
Evitar los cuestionarios con excesivos items. Todos los items incluidos deben tener un propósito específico: cada item superfluo aumenta la posibilidad de que un encuestado no complete el cuestionario correctamente. Por ejemplo, no se debe pedir a los encuestados que proporcionen directamente información sobre cantidades como el IMC, que pueden ser calculadas por los investigadores a partir de otra información proporcionada por los encuestados.
Evitar los artículos de redacción ambigua. Los items deben ser rápidos de responder para los encuestados, ofreciendo una selección de opciones o escalas analógicas visuales en lugar de pedir texto libre. El suministro de items condicionales puede introducir confusión y debe limitarse.
Garantizar el anonimato de los participantes, si es apropiado para la información recogida.

Algunos estudios requerirán que se recojan datos basados en cuestionarios en múltiples ocasiones, por ejemplo, para controlar la calidad de vida o el dolor en pacientes con heridas crónicas. Un problema común en este caso es que la proporción de cuestionarios completados suele disminuir en cada punto de recogida de datos. Esto puede introducir un sesgo adicional en forma de sesgo de deserción, cuando los que se pierden en el seguimiento son de alguna manera sistemáticamente diferentes de los que devuelven los cuestionarios. Aunque no se puede hacer nada con respecto a los pacientes que se marchan o mueren durante el periodo de seguimiento, se puede minimizar la pérdida por desgaste si no se sobrecarga a los encuestados en cuanto a la frecuencia de los envíos del cuestionario, ni a la longitud o complejidad de los cuestionarios que deben rellenar.

Validación / medidas a evaluar

La elaboración de items apropiados para encapsular eficazmente las medidas de resultado de interés suele ser la parte más difícil del diseño de un cuestionario eficaz. Por lo general, es preferible utilizar un cuestionario validado para su aplicación en participantes similares. Sin embargo, la validación completa es un proceso extenso: Price y Harding¹ informaron del desarrollo y la validación de un cuestionario para medir el impacto de las heridas crónicas (úlceras en las piernas y úlceras en el pie diabético) en la calidad de vida relacionada con la salud (HRQoL) del paciente e identificar las áreas de preocupación del paciente. El proceso consistió en tres etapas: un grupo de discusión y una serie de entrevistas semiestructuradas para generar los items del cuestionario; un proceso piloto del cuestionario con análisis de los datos mediante un análisis factorial; y la evaluación de la fiabilidad, validez y reproducibilidad de la escala resultante en un periodo de seguimiento de 3 meses.

Aunque la validación completa de un cuestionario diseñado por uno mismo es una empresa importante que puede no estar dentro de los recursos de un clínico que necesita diseñar, aplicar y analizar los datos en un período de tiempo limitado, algunos pasos comunes de validación pueden ser plausibles. A menudo, esto implicará la contribución a la redacción de los items por parte de un panel de clínicos expertos, con la claridad de la redacción posiblemente evaluada a través de grupos de discusión u otros medios. El objetivo es obtener una serie de items que contribuyan cada uno a una faceta diferente del resultado de interés y que, evaluados conjuntamente, proporcionen una medida significativa del resultado global. Puede ser necesario el asesoramiento de un experto para confirmar que un item contribuye realmente a la medición del constructo previsto, y no de otro constructo. Barakat-Johnson et al² desarrollaron y evaluaron las propiedades psicométricas de un instrumento utilizado para evaluar los conocimientos de los clínicos sobre la dermatitis asociada a la incontinencia, con el desarrollo de los items utilizando la aportación de un panel de expertos de clínicos como primera etapa de un proceso de tres fases; a esto le siguió una evaluación de la validez del contenido del instrumento a través de una encuesta a los clínicos y a las partes interesadas, y un diseño piloto de encuesta transversal en varios sitios para determinar la fiabilidad del compuesto.

La validez de contenido y de constructo también debe abordarse durante el proceso de desarrollo. Deben evitarse los items demasiado autosimilares. En lugar de que cada uno de los items capte una faceta única del constructo de interés, dichos items están captando la misma faceta y, por lo tanto, esta faceta se está contando doblemente, y es muy probable que los encuestados respondan de la misma manera a ambos items. Sin embargo, a la inversa, los items que son muy diferentes entre sí pueden no estar midiendo el mismo constructo en absoluto. Otro problema común es el "solapamiento" de las facetas de un constructo captadas por diferentes items. Barakat-Johnson et al.² utilizaron la evaluación de la validez de contenido y de constructo mediante medidas de resumen y métodos estadísticos reconocidos en las fases posteriores de desarrollo de su herramienta.

Formulación y puntuación de los items

La obtención de datos cuantitativos a través de un cuestionario requiere respuestas "cerradas" (números o categorías); las respuestas "abiertas" no suelen ser adecuadas para los informes cuantitativos. Los items del cuestionario de forma cerrada pueden formularse de varias maneras. Algunas de las formulaciones de artículos más comunes son:

Items que solicitan directamente una cantidad numérica, como “¿Cuál es su edad en años?”
Items que arrojan una cantidad numérica de forma indirecta, solicitando a los encuestados que den una respuesta en una escala analógica visual que posteriormente es procesada por el investigador. Un ejemplo típico podría ser presentar una línea de una longitud determinada (digamos 10 cm) con ambos extremos claramente etiquetados como valores extremos; por ejemplo: "Ningún dolor" y "El peor dolor imaginable"; y acompañados de una instrucción como "Por favor, ponga una marca en esta línea correspondiente al nivel de dolor que le causa su herida hoy".
Items que permiten a los encuestados elegir una opción de una lista de posibles opciones ofrecidas.
Items que permiten a los encuestados elegir tantas opciones como sean aplicables de una lista de posibles opciones ofrecidas.

Los dos primeros tipos de respuestas son numéricos y los dos segundos son categóricos. Ambos tipos de respuestas pueden ser potencialmente útiles para el análisis posterior, y el cuestionario debe estar formateado de tal manera que sea posible que los encuestados informen de una respuesta numérica, o que elijan de una lista de opciones, según sea el caso, a un item en particular.

Los items que provocan respuestas numéricas directas o indirectas son potencialmente los más sencillos de incluir en los procedimientos de análisis posteriores. Sin embargo, el preprocesamiento posterior de los datos puede ser más fácil si se formula una pregunta de tal manera que los encuestados no sientan la necesidad de añadir palabras innecesarias: una pregunta como “¿Cuánto tiempo ha trabajado en esta organización?”puede suscitar una serie de respuestas como "Menos de 1 año"; "18 meses"; "Unos 5 años", etc., que la mayoría de los programas informáticos interpretan como respuestas textuales, en lugar de numéricas, y que requieren una amplia edición antes de poder utilizarlas para el análisis. Un simple cambio de redacción como "Indique el número de años (redondeado al año más cercano) que ha trabajado para esta organización" podría ahorrar mucho tiempo de preprocesamiento. Además, una simple instrucción de dejar en blanco los items no aplicables, o los items para los que el encuestado no puede dar una respuesta correcta, puede ahorrar más tiempo al eliminar varios casos de "No aplicable"; "No sabe"; "No está seguro", etc.

Es una práctica habitual introducir una categorización artificial en los items que arrojan datos numéricos. Por ejemplo, un item en el que se pide a los encuestados que informen sobre su edad podría ofrecer una opción de rango de edad: “18-30”, “31-40”, “41-50” , etc. Por lo general, no se recomiendan estos enfoques: en primer lugar, se pierde información sobre la distinción entre los encuestados de diferentes edades dentro del mismo rango de edad (puede haber diferencias considerables en las respuestas de una persona de 18 años y las de una de 30 años); y en segundo lugar, las múltiples categorías en una variable de agrupación significan que se necesitan múltiples comparaciones en el análisis (resultados en los de 18-30 años frente a los de 31-40 años, resultados en los de 18-30 años frente a los de 41-50 años, etc.), lo que puede dar lugar a problemas técnicos y de interpretación.

Sin embargo, en el caso de los items que captan un constructo realmente medido a nivel categórico, no hay alternativa a ofrecer una lista de opciones para que los encuestados las seleccionen. La lista de opciones ofrecidas debe ser exhaustiva. Un encuestado al que se le pida que indique su función en una organización, por ejemplo, sólo para descubrir que su función no está representada en las opciones ofrecidas, puede perder la confianza en que su participación en el estudio dará lugar a un registro exacto de su opinión o situación y puede estar menos dispuesto a completar el resto del cuestionario con exactitud.

Un problema similar se plantea cuando las opciones se solapan. Si las opciones de la pregunta “¿Cuántos pacientes tiene por semana?”' son, por ejemplo, "10 o menos"; "10-20"; "20-30", etc., entonces alguien con una carga de trabajo de 10 o 20 pacientes exactamente no sabrá qué opción debe seleccionar. Otro ejemplo podría ser un encuestado al que se le pide que seleccione su función laboral de una lista de opciones cuando en realidad tiene dos o más funciones. Esta situación puede evitarse simplemente con una mejor redacción del artículo, por ejemplo: porfavor, seleccione la función de la siguiente lista que más se aproxime a su función principal".

Al formular items de este tipo, puede ser tentador permitir a los encuestados una respuesta de texto libre. Esto puede evitar la omisión accidental de la opción preferida por el encuestado, o la confusión derivada de múltiples opciones que son similares, pero no idénticas, a la respuesta que el encuestado preferiría dar. Sin embargo, esta posibilidad puede requerir un amplio preprocesamiento posterior de los datos de texto libre en grupos definidos, lo que no siempre es fácil si los encuestados no son lo suficientemente explícitos en sus respuestas de texto libre. Esta situación puede evitarse a menudo ofreciendo una opción "Otros" en la lista de opciones.

Las opciones ofrecidas a un item categórico pueden ser nominales (sin ordenación subyacente; en cuyo caso la ordenación de las opciones no es importante) u ordinales (en cuyo caso las opciones deben presentarse en un orden lógico). El item ordinal "clásico" del cuestionario es el item Likert, la formulación más simple y, por cierto, la más popular de los items del cuestionario, que se encuentra en muchos, si no en la mayoría, de los cuestionarios. Un item de Likert es una pregunta que suele pedir a los encuestados que elijan una opción de una lista ordenada de cinco opciones que representan el grado de acuerdo con una determinada afirmación, como, por ejemplo, "El producto X es un tratamiento eficaz para la sobregranulación". Las opciones típicas de un item de este tipo podrían ser "Muy en desacuerdo", "En desacuerdo", "Ni de acuerdo ni en desacuerdo", "De acuerdo" y "Muy de acuerdo". Otros items de Likert pueden pedir a los encuestados que evalúen la frecuencia o la magnitud de un acontecimiento, como, por ejemplo, "¿Se ha hinchado la zona alrededor de la herida?” En este caso, las opciones típicas pueden ser "Nada", "Un poco", "Una cantidad moderada", "Bastante", "Mucho".

Los items Likert no tienen que ofrecer cinco opciones, pero en general ofrecen un número impar de opciones, de las cuales cinco es probablemente el número más común, para permitir una opción intermedia "neutral". Aunque los items con mayor número de opciones pueden parecer que ofrecen una mayor granularidad de respuesta, las distinciones entre los puntos de la escala pueden ser cada vez más difíciles de discernir para los encuestados ("Algunas veces", "Muchas veces", "La mayoría de las veces", "Casi todas las veces" , etc.). Un equivalente visual del item Likert es una pregunta redactada de forma similar: "En una escala de 0 a 10, ¿en qué medida su herida le ha impedido realizar las tareas domésticas cotidianas?". Este es un item de 11 puntos: un error común es permitir que la escala en preguntas de este tipo vaya de 1 a 10 (en lugar de 0 a 10). La respuesta neutra en estos casos estaría representada por una respuesta de 5,5, no de 5; aunque muchos de los que responden con el valor 5 a items de este tipo estarían sin duda intentando informar de una respuesta en el centro exacto de la escala disponible. Los items con un amplio conjunto de respuestas ordinales se comportan en cierto modo como los items que dan respuestas numéricas indirectamente a través de una escala analógica visual.

Los items que piden a los encuestados que seleccionen "tantas opciones como sean aplicables" son aceptables, pero estos items pueden ser significativamente más difíciles de analizar que los items correspondientes que piden que se elija una sola opción. Por ejemplo, un item como "¿Cuál de los siguientes apósitos utiliza usted regularmente - por favor, seleccione todos los que correspondan" seguido de una lista de 26 opciones (Producto A, Producto B, Producto C... Producto Z), equivale en realidad, en términos de análisis, a una serie de 26 preguntas: “Utiliza regularmente el producto A para apósitos, ¿sí o no?”... “Utiliza regularmente el producto B para apósitos, ¿sí o no? ”... “Utiliza regularmente el producto Z para apósitos, ¿sí o no?”. Esta serie de items probablemente dará lugar a una amplia gama de combinaciones de respuestas y dará lugar a docenas de comparaciones por pares, todas las cuales serán difíciles de interpretar.

Encuadramiento de los items de análisis

Un cuestionario típico puede comenzar con algunas preguntas demográficas básicas, para obtener los atributos demográficos y de estilo de vida de los encuestados, como la edad, el sexo, la situación familiar, etc.; y/o items relativos a su estado de salud (presencia de diversas condiciones de salud mental o física, duración de la herida preexistente) o situación laboral (duración del servicio, grado del personal, etc.). Algunos de estos items pueden incluirse para ayudar a ilustrar la diversidad o las características de la muestra, pero no participarán en el análisis propiamente dicho.

Dentro de lo razonable, los items que miden estas "variables de fondo", que suelen ser preguntas fácticas que suscitan respuestas numéricas o categóricas, en lugar de items tipo Likert o similares, pueden registrarse de la forma que se desee. Los cuestionarios diseñados para presentar datos de forma descriptiva, pero que no implican ningún tipo de análisis inferencial (es decir, inferir a partir de los datos de la muestra a una población matriz), pueden limitarse a items de este tipo. Estos estudios suelen estar diseñados para evaluar la prevalencia o la proporción de una cantidad, como un estudio para determinar la proporción de enfermeros que utilizan un determinado producto para el cuidado de heridas, o la proporción de personal clínico que responde a una indicación visual como el enrojecimiento de la piel. Brown y Sneddon³ aplicaron un cuestionario, compuesto en su mayor parte por items "independientes" con respuestas ordinales, para comprender cómo se financian y prestan los servicios de linfedema en todo el Reino Unido y su nivel de recursos. Los datos del cuestionario permitieron estimar las proporciones (por ejemplo, la proporción de médicos encuestados que trataron heridas abiertas), pero los investigadores no intentaron generalizar más allá de los datos de la muestra.

Sin embargo, el análisis inferencial suele estar dentro del ámbito de la mayoría de los estudios cuantitativos y, por lo tanto, la mayoría de los cuestionarios que obtienen datos cuantitativos incluirán items que son necesarios para el posterior análisis inferencial. Por ejemplo, con respecto a un determinado resultado o resultados, se puede desear comparar al personal experimentado y al novato, o a los pacientes de la UCI que se giran regularmente y a los que no, o a un nuevo equipo y a un equipo estándar. Estos análisis son ejemplos de estudios comparativos, en los que se comparan dos o más grupos entre sí: muchos diseños de estudios de investigación estándar, como los estudios de cohortes, los estudios de casos y controles y los diseños controlados aleatorios, entran en esta categoría. Ousey et al⁴ utilizaron datos basados en cuestionarios para comparar un nuevo diseño de colchón con un colchón estándar en una serie de métricas de la experiencia de los pacientes (comodidad, temperatura y calidad del sueño). Los investigadores utilizaron métodos estadísticos inferenciales estándar para comparar la importancia y la magnitud de los efectos, con grupos definidos por el tipo de colchón.

Los items utilizados para definir las variables de agrupación en estos estudios son categóricos. Las variables categóricas que sólo pueden adoptar una de las dos categorías (o "niveles", como a veces se conocen) se conocen como variables binarias, como en el estudio de Ousey et al.⁴. Algunas variables de agrupación pueden comprender más de dos categorías. Por ejemplo, un estudio que compare los resultados en pacientes que pueden clasificarse como de bajo peso, de peso normal, con sobrepeso, con obesidad o con obesidad mórbida, podría utilizar una variable de agrupación "Estado de obesidad" para clasificar a cada encuestado en una de las cinco categorías anteriores.

Estas variables de agrupación multicategórica deben especificarse con precaución; mientras que una variable de agrupación binaria conduce a un único análisis (por ejemplo, resultado en varones frente a resultado en mujeres), el número de análisis necesarios aumenta rápidamente con la introducción de variables de agrupación de varios niveles. Otra razón para limitar las variables de agrupación de niveles múltiples es que, aunque los items que registran las variables de agrupación deberían, en general, permitir la selección por parte del encuestado de cualquier item posible, los investigadores deberían estar preparados para la eventualidad de que los datos estén poco repartidos entre las múltiples categorías, lo que daría lugar a algunos grupos que son realmente demasiado pequeños para analizarlos de forma significativa. En tales circunstancias, puede ser necesario fusionar ciertas categorías antes del análisis.

Medidas de resultado

En la mayoría de los cuestionarios, la mayoría de los items se refieren a la obtención de medidas de resultado. Muchos resultados son categóricos, a menudo binarios, por ejemplo, la probabilidad de que una herida alcance un 50% de curación a los 30 días del tratamiento; o multicategóricos, por ejemplo, el tipo de tejido predominante en el lecho de la herida. Por lo general, estos resultados pueden recogerse fácilmente en un cuestionario con un único item binario u ordinal. Dhoonmoon⁵ encuestó la experiencia de 56 profesionales sanitarios (HCP) sobre el uso de una almohadilla de desbridamiento mediante un cuestionario de opinión. La mayoría de los items, incluidos los relacionados con el rendimiento de las almohadillas (eliminación de los restos de esfacelos, acción de desbridamiento, etc.) se evaluaron mediante items categóricos, con opciones que iban de "excelente" a "deficiente". Estas medidas se prestan naturalmente a la evaluación categórica ordinal. Por ejemplo, uno de los resultados medidos en el estudio de Ousey et al4 (la calidad del sueño) se procesó para el análisis a partir de sus cinco opciones originales ("excelente", "muy bueno", "bueno", "adecuado", “deficiente”) en una medida dicotómica que comparaba las respuestas de "excelente" o "muy bueno " con cualquier otra respuesta. También pueden encontrarse resultados numéricos, como el porcentaje de pacientes curados, o el tiempo para que los niveles de dolor alcancen un determinado valor preespecificado, pero son menos comunes en los análisis basados en cuestionarios en el cuidado de heridas.

Puntuación del artículo

Los cuestionarios suelen utilizarse para evaluar cantidades para las que no existe una medida objetiva sencilla. En el contexto de un estudio sobre el cuidado de heridas, pueden ser, por ejemplo, la evaluación de un clínico sobre un nuevo colchón redistribuidor de la presión, o la opinión de un paciente sobre cuánto le impide su herida realizar las tareas cotidianas. Normalmente, estas cantidades no pueden encapsularse en un solo item; puede ser necesaria una serie de items, todos los cuales se refieren al constructo de interés. Por ejemplo, el conocimiento de la dermatitis de un enfermero en formación que ha realizado recientemente una sesión de taller sobre este tema, o la calidad de vida que experimenta un paciente que vive con una herida crónica. Normalmente, estos items constitutivos pueden ser del tipo Likert o similares. En estos casos, el interés se centra casi siempre en la puntuación procesada de un conjunto de items, y no en ninguno de los items individuales. Por lo tanto, aunque en teoría cada item de un cuestionario podría representar una única medida, el número de medidas distintas recogidas en un cuestionario típico suelen ser mucho menor que el número de items del cuestionario, y varios items contribuyen a la evaluación de cada constructo.

Por lo general, es conveniente limitar el número de resultados: una presentación extensa de los resultados individuales en forma de, por ejemplo, gráficos circulares puede dar poca idea de la importancia relativa de los distintos resultados. También hay ciertos problemas de análisis que pueden hacer que un gran número de resultados primarios no sean deseables. Al igual que los estudios que recogen datos por otros medios, el cuestionario ideal probablemente recoge información sobre un único resultado primario preespecificado y un pequeño número de resultados secundarios.

Se necesita una puntuación para todos los items que contribuyen a la evaluación de una medida concreta. Normalmente, la puntuación de los items Likert de 5 puntos es muy sencilla: de 1 punto para "Muy endesacuerdo" a 5 puntos para "Muy de acuerdo",con las opciones intermedias puntuadas en consecuencia. Los items tipo Likert con otro número de opciones se puntúan de forma similar. Muchos investigadores prefieren utilizar una codificación como: -2 puntos para "Muy en desacuerdo”, -1 punto para "En desacuerdo" y así sucesivamente hasta +2 puntos para "Muy de acuerdo",posiblemente con la idea de que las respuestas redactadas de forma negativa requieren puntuaciones negativas. Esta codificación es exactamente equivalente a la codificación 1-5 mencionada anteriormente: la puntuación de cada opción se reduce en 3 puntos para todas las opciones. Siempre que esta puntuación se aplique de forma coherente, las inferencias serán las mismas con cualquiera de los dos sistemas de puntuación.

Normalmente se asume que las puntuaciones de los items son aditivas, que tiene sentido obtener una puntuación global sumando las puntuaciones obtenidas en los items individuales que contribuyen a la misma medida. Esta suposición suele ser más fácil de justificar si hay coherencia en la formulación de los items. No es obvio cómo debe obtenerse una puntuación global con una serie de items con un número de opciones que varía, por ejemplo, de 2 a 3 y de 5 a 7. Las puntuaciones de los items con mayor número de opciones superarán a las de los items con menos respuestas si, para cada item, las respuestas se codifican simplemente como 1 hasta el valor del número de las opciones.

También es más difícil justificar que la suma de las puntuaciones de varios items conduzca a una medida significativa, aunque el número de opciones de cada item sea el mismo, si las opciones son diferentes. Si un conjunto de items ofrece las opciones "Muy en desacuerdo", "En desacuerdo..." "Muy de acuerdo" y otro conjunto ofrece las opciones " En absoluto", "Un poco..." "Mucho", puede ser difícil argumentar que las puntuaciones de los dos conjuntos de items pueden combinarse de forma significativa.

Para garantizar un total significativo, puede ser necesario invertir la codificación anterior si algunos items van en sentido contrario a otros, por ejemplo, si los items Likert de 5 puntos como "Mi herida me ha obligado a limitar mis actividades con los demás" y "La herida ha afectado a mi sueño" se codifican utilizando la escala de 1 a 5 anterior, con 1 punto otorgado para una respuesta de "Muy en desacuerdo" y 5 puntos otorgados para una respuesta de "Muy de acuerdo", entonces la implicación es que las puntuaciones más altas indican peores resultados. Por lo tanto, si se incluyera un item adicional en la misma escala como, por ejemplo, "Soy capaz de realizar las tareas cotidianas sin dificultad”, este item podría codificarse de forma que "Muy de acuerdo" recibiera 5 puntos, "Muy en desacuerdo" 1 punto, y los demás puntos de la escala se puntuaran en consecuencia, por coherencia con el resto de los items de la escala.

Pilotaje del cuestionario

La aplicación piloto puede ser una herramienta útil para el perfeccionamiento de los items del cuestionario y puede revelar problemas que pueden repercutir en la tasa de respuesta posterior y en la fiabilidad de las respuestas, como la falta de claridad en la redacción de los items o el tiempo excesivo que se necesita para completar el cuestionario. Si un cuestionario incluye un conjunto de items de tipo Likert o similares que están diseñados para abordar el mismo constructo, la consistencia interna de las respuestas del piloto a estos items puede evaluarse fácil y rápidamente utilizando el software más estadístico. Este proceso puede identificar los items que no se responden de manera similar a otros items que pretenden medir el mismo constructo y, por lo tanto, pueden requerir modificaciones en su redacción (si la redacción no es clara o ha sido malinterpretada por los encuestados), la eliminación del cuestionario o posiblemente el traslado a la medición de otro constructo. La fase piloto suele ser la única oportunidad para realizar estas modificaciones si son necesarias.

Resumen

Un buen diseño del cuestionario se rige por la pregunta de investigación y el análisis que se deriva de ella. La consideración del punto final es, de hecho, generalmente el punto de partida. Entre las cuestiones que hay que tener en cuenta están la determinación de los resultados que se van a medir; cómo se van a medir; si los resultados son medidas objetivas que se pueden captar adecuadamente utilizando items que provocan respuestas numéricas simples o categorías, o si requieren múltiples items para captar una serie de facetas específicas de la medida.

También hay que determinar el nivel o niveles en los que se va a realizar el análisis: en los estudios sobre el cuidado de heridas, son habituales los análisis a nivel de paciente, de clínico o de herida. También hay que determinar si los resultados se van a relacionar con cualquier otra variable, y si los grupos deseados para la comparación figuran en los items que funcionan como variables de agrupación para clasificar adecuadamente las unidades de análisis (ya sean pacientes, clínicos o heridas).

La recogida de datos a través de un cuestionario debe abordarse de la misma manera que la recogida de datos a través de dispositivos médicos u otros medios: es necesario asegurarse de que el instrumento de recogida de datos es adecuado para su finalidad. Esto significa que se dan tantos pasos como sea posible a lo largo del camino de la validación (suponiendo que no se utilice un instrumento pre-validado) para asegurar que estamos midiendo los resultados que creemos que estamos midiendo, a través de items cuidadosamente redactados, agrupados y puntuados adecuadamente. Hay que tener cuidado de que sólo se utilicen los items necesarios para captar datos demográficos, otra información de fondo y medidas de resultado. Es necesario asegurarse de que los encuestados sean, en la medida de lo posible, una muestra representativa de la población a la que se pretende generalizar. Los índices de respuesta se maximizan haciendo que los items sean lo más claros posible, y pidiendo lo menos posible a los encuestados en cuanto a la duración y el esfuerzo que necesitarán para completar el cuestionario, al igual que podría hacerse con otros medios de recogida de datos.

Aunque es fácil subestimar el esfuerzo necesario para facilitar una recogida de datos eficaz mediante un cuestionario, cuando se lleva a cabo correctamente, la recogida de datos mediante un cuestionario puede ser un medio muy eficaz de recogida de datos y constituir una base sólida para los estudios de investigación.

Conflicto de intereses

Los autores declaran no tener conflictos de intereses.

Financiación

Los autores no recibieron financiación por este estudio.

Author(s)

John Stephenson
PHD FRSS(GradStat) CMath(MIMA)
Senior Lecturer in Biomedical Statistics
University of Huddersfield, United Kingdom
Email J.Stephenson@hud.ac.uk

References

Price P, Harding K. Cardiff Wound Impact Schedule: the development of a condition-specific questionnaire to assess health-related quality of life in patients with chronic wounds of the lower limb. Int Wound J. 2004 Apr;1(1):10-17.
Barakat-Johnson M, Beeckman D, Campbell J, Dunk AM, Lai M, Stephenson J, Coyer F. Development and Psychometric Testing of a Knowledge Instrument on Incontinence-Associated Dermatitis for Clinicians: The Know-IAD. J Wound Ostomy Continence Nurs. 2022 Jan-Feb 01;49(1):70-77.
Brown L, Sneddon MC. Lymphoedema service provision across the UK: a national survey. J Lymphoedema. 2020;15(1):16-21.
Ousey K, Stephenson J, Fleming L. Evaluating the Trezzo range of static foam surfaces: results of a comparative study. Wounds UK 2016;12(4):66-73.
Dhoonmoon L. Experiences of healthcare professionals using Prontosan® debridement pad. Wounds UK 2021;17(1):118-123.

Volume 42 Number 2

Designing an effective questionnaire in wound care

Introduction

Who is the questionnaire to be given to?

Maximising the response rate

Validation / measures to be assessed

Item formulation and scoring

Framing the items for analysis

Outcome measures

Item scoring

Piloting the questionnaire

Summary

Conflict of interest

Funding

Diseño de un cuestionario eficaz para el cuidado de heridas

Introducción

¿A quién hay que entregar el cuestionario?

Maximizar el índice de respuesta

Validación / medidas a evaluar

Formulación y puntuación de los items

Encuadramiento de los items de análisis

Medidas de resultado

Puntuación del artículo

Pilotaje del cuestionario

Resumen

Conflicto de intereses

Financiación

Author(s)

References

Previous Article

Next Article