^ Наверх

Добьёмся успеха вместе!


0

 

Вводим значения

Неожиданно образовались «каникулы». И время почти «детское». Так что продолжим под напевы Марицы (https://www.youtube.com/watch?v=7_lK-LKwoj8).

Какую информацию собирать?

Информация по пациенте — это сотни формализованных и неформализованных показателей. Часть из них при этом являются динамическими, т.е., одни и те же показатели измеряются несколько раз в процессе сопровождения пациента. Естественно возникает вопрос: «Что из всего этого нужно вводить в таблицы?»

Четких критериев для этого не существует. Наиболее полный (и не конкретный) ответ — необходимы данные, позволяющие полностью решить поставленные задачи, т.е., выполнить запланированный анализ данных для последующего формирования заключения на его основе. К сожалению, в реальной жизни приходится сталкиваться с крайностями.

Вариант первый: данные для анализа представляются в виде неких сгруппированных таблиц. Как правило, такие данные малопригодны для использования. На их основе можно получить очень ограниченный набор статистик. Для диссертации такой вариант полностью не годится.

Вариант второй. Почему-то часто инициатором такого подхода являются руководители работы. Его можно сформулировать следующим образом: «Вводите все, что есть. Потом посмотрим, что из этого можно сделать.» Подобный вариант не только свидетельствует о полном отсутствии какого-либо планирования исследования, понимания, что должно выполняться и зачем, но и приводит к чудовищному бессмысленному убиванию времени, отпущенного на выполнение работы. Что может быть более отупляющим, чем механический ввод, например, в Excel, сотен параметров из амбулаторок, историй болезни, при том, что значительная часть данных может просто отсутствовать?

Крайним выражением такого подхода, с которым пришлось столкнуться — порядка 20 стр. распечаток на каждого пациента. Естественно, бОльшая часть т.н. «данных» отсутствовала (не измеряли, не выполняли, не имело  смысла делать). На выписку этих данных было потрачено больше года, а в работу пошло десятка полтора переменных. Остальное — убитое время, которое можно (и нужно!) было использовать для более полезного или необходимого.

Условно данные, которые необходимо собрать, можно разделить на 3 категории:

  • требуемые для «полноты картины» (для удовлетворения вопросов комиссии по проверке первичной документации J): номер амбулаторной карты, местожительства, номера рентгеновских снимков, морфологических образцов, и т.п.;
  • необходимы для анализа в соответствии с целью и задачами исследования, его дизайна, а также различные вторичные данные, полученные в результате группировки, переклассификации первичных данных;
  • справочные данные, позволяющие уточнить данные, проверить их корректность, например, уникальный идентификатор пациента; полный диагноз, использованные препараты, другие неформализованные данные.

Крайне желательно определиться с данными, которые необходимо извлечь из первичной медицинской документации, ДО формирования массива данных, в крайнем случае после пробного ввода нескольких пациентов. В идеале полный и детальный список требуемых данных, их формат должны быть определены на этапе планирования исследования. К сожалению, с таким вариантом не приходилось сталкиваться ни разу (хотелось бы надеяться, пока).

Почему это так критично? Пример.

Исходное: данные УЗИ опухоли.

Фактические варианты:  c, b по максимальным размерам, максимальный размер, «один конгломерат», «не визуализируется», «пусто».

Если данные вначале просто формально переносятся в базу данных, впоследствии практически нереально вспомнить, почему не указаны все 3 размера. В этом случае приходится либо повторно поднимать документацию, либо огрублять данные, либо додумывать (в смысле предположения об условиях расчета, не подтасовки!)

В то же время, если изначально поставлена цель — ввести все 3 параметра, во-первых, ввод данных становится более осмысленным, во-вторых, достаточно часто недостающую информацию можно легко восстановить, основываясь на развернутом описании того же УЗИ.

Вы хотите перелопачивать карточки по несколько раз? И сколько ошибок будет при этом сделано?

Качество данных

Важным моментом с точки зрения качества данных является порядок их ввода. Конечно, логическое группирование параметров (данные пациента, диагноза, лечения) позволяют более легко ориентироваться среди множества чисел и строк. Однако, при вводе это может потребовать постоянного листания экрана вправо-влево, чтобы добраться до требуемых колонок. Лучше изначально формировать порядок колонок в соответствии с тем порядком, который принят, например, истории болезни. В этом случае ввод данных будет намного более простым и быстрым. И, что более существенно, количество ошибок, опечаток при этом будет существенно меньше.

И вот данные введены. После месяцев кропотливого рутинного труда хочется как можно быстрее получить ответы на все-все вопросы. Желание понятно. Но как раз время остановиться и посмотреть, что в действительности получилось.

Типовые проблемы:

  • в значениях, например, стадии, используется смесь русских и английских символов, заглавных и прописных букв (например, «б» и «b», «с» и «с», только первая — кириллицей, а вторая — латиницей, «а» и «А»);
  • «лишние» пробелы либо в между словами, либо в конце (например «панкреатит» и «панкреатит », «сильно выраженная» и «сильно   выраженная»);
  • разное написание одного и того же (например, «правое легкое» и «Пр.легкое», «рак шейки матки» и «ca cervix»);
  • опечатки (например, «вевое легкое»);
  • сдвиг текста (характерен для больших «простынь»).

Логически понятно, что речь идет об одном и том же. Но для компьютера — это все разные категории, соответственно и результаты будут не по пониманию, а по всем уникальным значениям. Следовательно, необходимо привести все значения к одному виду.

Вообще данные нужно проверять на 3-х уровнях:

  • уровень отдельных значений (значения в ячейках): корректность ввода (см. выше), наличие недопустимых значений (например, возраст старше 120 лет, уровень гемоглобина больше 250), значения, не соответствующие параметру);
  • уровень строки (согласованность значений разных параметров для одного пациента, наблюдения): наприер, если предполагается изучить различия в группах с операцией и без нее, то естественно ожидать название операции для пациентов из первой группы; наличие данных об операции в группе без операции будет свидетельствовать о нарушении согласованности данных;
  • уровень данных.

Последний пункт требует отдельного пояснения. Перед началом анализа попробуйте ответить на следующие вопросы:

1.   Все ли запланированные пациенты внесены?

2.   Все ли пациенты соответствуют критериям отбора?

3.   Все ли данные, используемые для классификаций, расчетов вторичных показателей, используемые в анализе внесены?

4.   Везде ли использованы единые подходы к стадированию, классификации, везде ли использованы одни и те же пороговые значения?

Если хотя бы на один вопрос ответом будет «нет» или «не в полной мере», значит стоит остановиться и, по крайней мере, еще раз критически пересмотреть данные. Очень обидно будет обнаружить, что из-за ошибки, изменения данных придется пересмотреть и, возможно, пересчитать таблицы, перерисовать графики, изменить текст и, возможно, пересмотреть выводы.

К сожалению, этапу проверки данных не только не уделяют должного внимания, но, похоже, этим вопросом очень часто вообще не «заморачиваются». А зря. Такое отношение может сыграть злую шутку. Обычно анализ данных занимает он нескольких месяцев до более года. Изменение исходных данных (решили исключить одних пациентов, добавить других; изменить распространенность, обновить статус) приводит к необходимости выполнения всей работы с начала. 

 


Аватар

Комментарий №1. Автор:Igoroshka

[07.05.2014 07:31]

На днях принесли очередные данные -- порядка 400 пациентов и 250 параметров! Почти 60% -- пустые ячейки. Реально в работе будут использоваться вряд ли более 20 параметров.

На все это безобразие было потрачено несколько лет, выполнялось несколько научных тем, привлекались для работы 2 университета. 


Добавление комментариев доступно только зарегистрированным пользователям
Google+