

О данных в работе замолвите слово — часть 3
Пустые ячейки
Отдельного рассмотрения требует ситуация с пустыми ячейками. На первый взгляд вроде бы понятно, что «пусто» означает «нет». Но нет чего? И нет почему? Давайте посмотрим, из-за чего могут образовываться пустые ячейки:
- понятие неприменимо (размер аневризмы в группе здоровых людей);
- данные не внесли (ошибочно не внесли при вводе, значение не перенесли, например, в амбулаторную карту);
- исследование не выполнялось (не было реактивов, не смогли взять пробу, пациент не явился);
- исследование выполнялось, но результат оказался недостоверным (нарушена технология подготовки образца, невозможно выделить интересующее вещество, невозможно определить из-за особенностей процесса);
- значение принято считать (в данном учреждении) незначимым (кровопотеря была незначительной);
- предполагается некое «стандартное» значение, которое не вносили для убыстрения ввода данных.
Как видно из приведенного списка, вопрос оказался далеко не однозначным. Еще более неоднозначным будет обработка пустых ячеек в различных статистических пакетах и, как результат, интерпретация полученных результатов.
Во многих статистических программах при выполнении расчетов наблюдения с пустыми ячейками (если последние входят в анализируемые параметры) просто игнорируются. Таким образом выборка уменьшается, порой существенно. При этом может происходить смещение результатов, если существует явная или неявная закономерность между отсутствием данных и некоторой группой пациентов.
Некоторые программы (например, Statictica по крайней мере в версиях 5 и 6) по умолчанию заменяют пропущенные значения неким «средним». Без дополнительного изучения распределений наблюдений с заполненными и отсутствующими данными можно получить заведомо неправильные результаты.
Иногда значения в пустых ячейках можно обоснованно восстановить, увеличивая таким образом и объем выборки, и надежность оценок. Но такой подход требует очень четкого понимания, что представляют собой данные и почему часть из них отсутствуют. Естественно, что условия доопределения значений в пустых ячейках должны быть четко описаны в разделе «Материалы и методы» с соответствующим обоснованием.
Пример.
Исходное: доля кислорода дыхательной смеси недоношенных детей, находящихся на ИВЛ.
Понятно, что с момента снятия новорожденных с ИВЛ доля кислорода дыхательной смеси смысла не имеет. Пустые ячейки? С одной стороны — «да». Но учитывая то, что в воздухе доля кислорода составляет 21% мы с полным основанием можем внести эту величину в ранее пустые ячейки.
Еще один пример.
Исходное: В одном из учреждений принято не отмечать в операционном журнале кровопотерю менее 0,5 л (вопрос правильности такого подхода здесь не обсуждается). Следовательно, данных о кровопотери у таких пациентов отсутствуют.
Однако, учитывая принятую практику, для таких случаев в качестве кровопотери можно указать предельное значение 0,5 л. Погрешность от недостаточно точного определения кровопотери будет меньше, нежели от очень широкого доверительного интервала из-за малого количества наблюдений.
И еще один.
Исходное: Изучалось влияние антитромботической терапии. Одним пациентам назначали гепарины в разной дозе, другим препараты не назначались.
В этом случае можно определить, что антитромботическая терапия проводилась всем пациентам, но в разной дозе. Тем пациентам, которым фактически препараты не назначались, в поле «доза» пустыне значения заменим на «0».
Кодировать или не кодировать?
Достаточно традиционным является кодирование возможных значений параметров. Часто коды присутствуют в различных опросниках, сводных картах, откуда они перекочевывают в базы данных.
Пример.
Пол: 1—мужчины, 2—женщины.
Факторы, провоцирующие инсульт: 1— сон, ванна, обед, кровопотеря, 2— подъем АД, 3—физическая активность, 9—неизвестно.
В результате база данных представляет собой практически сплошной массив цифр:
грудная клетка |
кашель |
похудение |
одышка |
температура |
осиплость |
слабость |
заболевания |
2 |
5 |
1 |
1 |
1 |
1 |
3 |
|
2 |
3 |
1 |
1 |
1 |
1 |
2 |
1 |
1 |
4 |
2 |
2 |
1 |
1 |
2 |
4 |
2 |
3 |
1 |
2 |
1 |
1 |
2 |
5 |
2 |
4 |
1 |
2 |
2 |
1 |
2 |
3 |
1 |
3 |
1 |
1 |
2 |
1 |
2 |
3 |
1 |
2 |
2 |
1 |
1 |
1 |
1 |
3 |
1 |
5 |
2 |
2 |
1 |
1 |
2 |
5 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
3 |
1 |
3 |
1 |
2 |
2 |
1 |
2 |
2 |
Работать с такими данными достаточно сложно — постоянно нужно иметь под рукой «склерозник», чтобы не запутаться, что означает цифра 7 в колонке «ххх»? Построенные на базе таких данных отчеты (те же сводные таблицы в Excel) малоинформативны, требуют дополнительных усилий, чтобы такую таблицу:
температура |
кол-во |
% |
1 |
242 |
56.5% |
2 |
97 |
22.7% |
3 |
29 |
6.8% |
4 |
60 |
14.0% |
Всего |
428 |
100.0% |
заменить на более вразумительную:
температура |
кол-во |
% |
нормальная |
242 |
56.5% |
субфибрильная |
97 |
22.7% |
пониженная |
29 |
6.8% |
высокая |
60 |
14.0% |
Всего |
428 |
100.0% |
А если значения из этих колонок используются в разных таблицах?..
А если нужно построить различные графики?..
Неоднократно приходилось слышать, что использование цифрового кодирования значений убыстряет ввод данных. В действительности возможности современных электронных таблиц позволяют не только автоматически дополнять возможные значения при вводе одной-двух букв значения, но и контролировать, чтобы в ячейке были введены значения только из указанного списка возможных значений.
Немаловажным является качество данных. Ввод бесконечных цифр заведомо приводит к ошибкам, обнаружить которые, когда рядом такие же «нули» и «единички», сложно, если вообще возможно.
Поэтому вывод один: вводите осмысленные значения параметров. Это не усложнит ввод данных. Но вот избежать трудновыявляемых ошибок, избавиться от ненужной работы по бесконечным переименованиям позволит.