^ Наверх

Добьёмся успеха вместе!


0

О данных в работе замолвите слово — часть 3

Пустые ячейки

Отдельного рассмотрения требует ситуация с пустыми ячейками. На первый взгляд вроде бы понятно, что «пусто» означает «нет». Но нет чего? И нет почему? Давайте посмотрим, из-за чего могут образовываться пустые ячейки:

  • понятие неприменимо (размер аневризмы в группе здоровых людей);
  • данные не внесли (ошибочно не внесли при вводе, значение не перенесли, например, в амбулаторную карту);
  • исследование не выполнялось (не было реактивов, не смогли взять пробу, пациент не явился);
  • исследование выполнялось, но результат оказался недостоверным (нарушена технология подготовки образца, невозможно выделить интересующее вещество, невозможно определить из-за особенностей процесса);
  • значение принято считать (в данном учреждении) незначимым (кровопотеря была незначительной);
  • предполагается некое «стандартное» значение, которое не вносили для убыстрения ввода данных.

Как видно из приведенного списка, вопрос оказался далеко не однозначным. Еще более неоднозначным будет обработка пустых ячеек в различных статистических пакетах и, как результат, интерпретация полученных результатов.

Во многих статистических программах при выполнении расчетов наблюдения с пустыми ячейками (если последние входят в анализируемые параметры) просто игнорируются. Таким образом выборка уменьшается, порой существенно. При этом может происходить смещение результатов, если существует явная или неявная закономерность между отсутствием данных и некоторой группой пациентов.

Некоторые программы (например, Statictica по крайней мере в версиях 5 и 6) по умолчанию заменяют пропущенные значения неким «средним». Без дополнительного изучения распределений наблюдений с заполненными и отсутствующими данными можно получить заведомо неправильные результаты.

Иногда значения в пустых ячейках можно обоснованно восстановить, увеличивая таким образом и объем выборки, и надежность оценок. Но такой подход требует очень четкого понимания, что представляют собой данные и почему часть из них отсутствуют. Естественно, что условия доопределения значений в пустых ячейках должны быть четко описаны в разделе «Материалы и методы» с соответствующим обоснованием.

Пример.

Исходное: доля кислорода дыхательной смеси недоношенных детей, находящихся на ИВЛ.

Понятно, что с момента снятия новорожденных с ИВЛ доля кислорода дыхательной смеси смысла не имеет. Пустые ячейки? С одной стороны — «да». Но учитывая то, что в воздухе доля кислорода составляет 21% мы с полным основанием можем внести эту величину в ранее пустые ячейки.

Еще один пример.

Исходное: В одном из учреждений принято не отмечать в операционном журнале кровопотерю менее 0,5 л (вопрос правильности такого подхода здесь не обсуждается). Следовательно, данных о кровопотери у таких пациентов отсутствуют.

Однако, учитывая принятую практику, для таких случаев в качестве кровопотери можно указать предельное значение 0,5 л. Погрешность от недостаточно точного определения кровопотери будет меньше, нежели от очень широкого доверительного интервала из-за малого количества наблюдений.

И еще один.

Исходное: Изучалось влияние антитромботической терапии. Одним пациентам назначали гепарины в разной дозе, другим препараты не назначались.

В этом случае можно определить, что антитромботическая терапия проводилась всем пациентам, но в разной дозе. Тем пациентам, которым фактически препараты не назначались, в поле «доза» пустыне значения заменим на «0».

Кодировать или не кодировать?

Достаточно традиционным является кодирование возможных значений параметров. Часто коды присутствуют в различных опросниках, сводных картах, откуда они перекочевывают в базы данных.

Пример.

Пол: 1—мужчины, 2—женщины.

Факторы, провоцирующие инсульт: 1— сон, ванна, обед, кровопотеря, 2— подъем АД, 3—физическая активность, 9—неизвестно.

В результате база данных представляет собой практически сплошной массив цифр:

грудная клетка

кашель

похудение

одышка

температура

осиплость

слабость

заболевания

2

5

1

 

1

1

1

3

2

3

1

1

1

1

2

1

1

4

2

2

1

1

2

4

2

3

1

2

1

1

2

5

2

4

1

2

2

1

2

3

1

3

1

1

2

1

2

3

1

2

2

1

1

1

1

3

1

5

2

2

1

1

2

5

1

1

1

1

1

1

1

3

1

3

1

2

2

1

2

2

 

Работать с такими данными достаточно сложно — постоянно нужно иметь под рукой «склерозник», чтобы не запутаться, что означает цифра 7 в колонке «ххх»? Построенные на базе таких данных отчеты (те же сводные таблицы в Excel) малоинформативны, требуют дополнительных усилий, чтобы такую таблицу:

температура

кол-во

%

1

242

56.5%

2

97

22.7%

3

29

6.8%

4

60

14.0%

Всего

428

100.0%

 

заменить на более вразумительную:

температура

кол-во

%

нормальная

242

56.5%

субфибрильная

97

22.7%

пониженная

29

6.8%

высокая

60

14.0%

Всего

428

100.0%

 

А если значения из этих колонок используются в разных таблицах?..

А если нужно построить различные графики?..

 

Неоднократно приходилось слышать, что использование цифрового кодирования значений убыстряет ввод данных. В действительности возможности современных электронных таблиц позволяют не только автоматически дополнять возможные значения при вводе одной-двух букв значения, но и контролировать, чтобы в ячейке были введены значения только из указанного списка возможных значений.

Немаловажным является качество данных. Ввод бесконечных цифр заведомо приводит к ошибкам, обнаружить которые, когда рядом такие же «нули» и «единички», сложно, если вообще возможно.

 

Поэтому вывод один: вводите осмысленные значения параметров. Это не усложнит ввод данных. Но вот избежать трудновыявляемых ошибок, избавиться от ненужной работы по бесконечным переименованиям позволит.


Комментарии отсутствуют
Добавление комментариев доступно только зарегистрированным пользователям
Google+