О данных в работе замолвите слово

Современное исследование в медицине немыслимо без адекватной статистической обработки полученного материала. Это положение, как правило, уже не оспаривается. Методам статобработки обучают на курсах, успешно защитившиеся делятся своими знаниями, программами, кусками текста с диссертаций с неофитами.

Гораздо меньше внимания (а жаль) уделяется грамотному планированию исследования. И еще меньше (если вообще рассматриваются) – методам создания электронных версий данных из различных источников первичной документации, их предварительной обработки, проверки правильности и согласованности, подготовки для использования в системах статистической обработки. Вот как раз об этом и пойдет ниже речь.

Где набирать данные?

Начнем, пожалуй, с программ, используемых для формирования т.н. баз данных. Почему «так называемых»? Строго говоря, база данных представляет собой высоко формализованный, согласованный набор данных. Увы, в подавляющем большинстве случаев данные, с которыми приходилось работать, были очень далеки от этого определения.

И так, чаще всего данные вносятся в электронные таблицы Excel (как вариант – Calc в OpenOffice, LibreOffice, Calligra Sheets в KOffice). Иногда встречаются экзотические варианты в виде списков или таблиц текстовых процессоров (Word). Иногда данные могут быть в виде базы данных Access или в виде файлов, экспортированных из других систем в формате csv (Comma Separated Values, значения, разделенные запятой).

С учетом массовости, Excel – наиболее приемлемый вариант программы для создания массива данных исследования. Также в Excel можно достаточно легко получить большинство различных таблицы (и графиков), автоматически выполнить расчет вторичных показателей (возраст, индекс массы тела, время до события, др.), выполнить различные преобразования (замена, группировка).

Если данные были получены из внешних источников в большинстве случаев их можно достаточно легко импортировать в Excel.

Как вводить данные?

В медицинских исследованиях наиболее часто встречаются данные о лечении пациентов. О таких данных и будем далее говорить.

И так, традиционным является ввод некоторых паспортных данных пациента: ФИО, пол, возраст или дата рождения, место проживания, идентификационные данные. Часто регистрируют «учетные» данные: № истории болезни или амбулаторной карты, даты поступления и выписки (или количество проведенных койко-дней), отделение, дату последнего известного контакта и статус на эту дату. Ну и, собственно, различные медицинские данные: диагноза, сопутствующие заболевания, более или менее формализованные данные анамнеза, выполняемых воздействий и их характеристик, анализов в различные моменты времени, состояние после воздействий, данные сопровождения пациента (данные динамического наблюдения).

Общие замечания

Прежде, чем перейти к рассмотрению, как (и зачем?) вводить те или иные данные, давайте поговорим об эффективности.

«Фиксация строк»

Вряд ли большинство обладает 24" и более мониторами в высоким разрешением, чтобы отобразить на нем десятки колонок и строк. Но даже в этом случае вам не обойтись без очень удобного свойства Excel как «фиксация строк». Эта возможность процессора электронных таблиц позволяет сделать определенные строки и колонки постоянно находящимися на экране, даже, если вы будете выполнять горизонтальную или вертикальную прокрутку экрана.

В 2010 и 2013 Excel для фиксации строк нужно перейти на в инструментальную панель «Вид» и выбрать «Закрепить области». При этом строки, находящиеся выше и левее активной ячейки будут заявлены в качестве заголовков колонок и строк и, соответственно, будут постоянно находиться на экране. Мелочь? Возможно. Но в действительности это и экономит много времени, и уменьшает вероятность сделать ошибку при вводе данных.

Да, строки и колонки можно закрепить и по-отдельности. Но мне еще ни разу не понадобилось подобное J.

«Разукрашки»

Выше говорилось о том, что, с точки зрения вводимой информации, данные, з известной долей условности, можно разделить на блоки: паспортные данные, учетные данные, данные о заболевании, выполненные воздействия, анализы, осложнения и побочные эффекты, данные сопровождения пациента. Естественно, что во запутаться во всем этом многообразии данных очень просто. Конечно, если вы воспользуетесь фиксацией строк это здорово облегчит вам ориентацию. Но почему бы не пойти дальше? Попробуйте залить фон заголовков (и только заголовков!), относящихся к одному блоку, одним цветом. Такое цветовое кодирование существенно упрощает ориентацию в таблице, делает ее наглядной и более приятной во всех отношениях. Только не надо этих тяжелых темных тонов. Помните, возможно вам придется печатать эту таблицу и, вполне вероятно, на обычном черно-белом принтере. Вы же хотите иметь возможность прочитать напечатанное, не так ли?

Если это вам упростит ввод данных, отдельные блоки можно разделить, задав правую (или левую, в зависимости от того, где находится ваш курсор) границу рамки ячеек.

Еще несколько замечаний по поводу цветов, шрифтов, размеров, начертаний. На мой взгляд, упражнения в художественной верстке электронных таблиц – не лучший способ времяпрепровождения, даже если обычный стандартный Arial или Calibri оскорбляют ваше чувство прекрасного.

Заголовки

Достаточно часто приходится видеть таблицы, в которых заголовки колонок называются, например, «дата поступления пациента», «дата выполнения 1-й операции», «соматические заболевания в 1-м периоде» и т.д. Конечно, для восприятия человека, особенно со стороны, такие заголовки гораздо осмысленней, понятней. Да и выглядят солидней. Но попробуйте поместить эти «Время развития инсульта» в виде заголовка колонки. Либо такая колонка займет четверть экрана ноутбука, либо будет размещена на нескольких строчках, съедая и без того скудное пространство для размещения строк.

Решение проблемы в сокращении названия. Это может быть аббревиатура, неважно, общепринятая или только что придуманная. Главное, чтобы вы понимали, что за ней стоит. Или, как вариант, удаление незначащих слов. Если в колонке содержится время или дата, зачем дублировать это в заголовке? Ведь «операция» вполне может заменить заголовок «дата операции», а вместо «Время развития инсульта», возможно, достаточным будет просто «инсульт» и т.д.

Подобное «урезание» не только улучшает визуальную «читаемость» таблицы, но и существенно упрощает жизнь при необходимости загрузки данных в различные системы статистической обработки.

Да, следует также иметь ввиду, что многие системы статистической обработки могут либо не воспринимать различные значки – %, _, /, пробел – либо заменяют их. Так что вместо «Время развития инсульта» вполне может оказаться «Время.развития.инсульта» или «Времяразвитияинсульта».

Еще об одном моменте хотелось бы упомянуть отдельно – многоуровневые заголовки колонок. Особенно часто это приходится видеть, когда речь идет о блоках данных. Например, блок анализов {CA, K, NA, ER, HB} выполняется несколько раз: при поступлении, перед операцией, после операции и при выписке. Их так и оформляют: блок {CA, K, NA, ER, HB} повторяется 4 раза, а строчкой выше (с объединением соответствующих ячеек) вводится группирующий заголовок, например, «анализы при поступлении»:

анализы при поступлении

анализы перед операцией

анализы после операции

анализы при
выписке

При обработке данных это не лучший вид заголовков, даже если он воспринимается как более «человечный». В таком случае правильным было бы последовательно нумеровать показатели, а строчку с группирующими заголовками вообще удалить:

CA0

NA0

ER0

HB0

CA1

NA1

ER1

HB1

CA2

NA2

ER2

HB2

CA3

NA3

ER3

HB3

При этом принять в качестве соглашение, что, например, 0 означает «при поступлении», 1 – «перед операцией» и т.д. При таком подходе значительно меньше проблем возникает как в самом Excel (фильтры, сводные таблицы), так и в программах, куда данные выгружаются для последующего статистического анализа (Statistica, SPSS, Stata, R).

Кроме того, такой подход заставляет формализовывать данные, приводить их к единому «стандартному» виду, что, безусловно, положительно сказывается как на качестве самих данных, так и на их осмысленности.

(продолжение следует)

Комментарий №1. Автор:Neon

[20.02.2014 13:15]

Уважаемый автор, прочитав Вашу статью, если честно, смысл понять не удалось вообще, поскольку играть в "разукрашки" прекращают ещё в начальных классах школы, а называть заголовки все в любом случае будут так, чтобы было понятно им в первую очередь, а надеяться на память и думать потом, что же подразумевает это закодированное название - просто бред, бессмыслица и пустая трата времени! В любом случае Excel обладает массой полезных свойств и функций, начиная с возможности фильтрации данных, построения графиков и т.д. до внесения формул. На мой взгляд освещение этих вопросов было бы куда уместнее и полезнее для тех, кто читает Ваши статьи.

Комментарий №2. Автор:Igoroshka

[20.02.2014 21:42]

1. А зря. "Разукрашки" заголовков в экселе существенно упрощают навигацию, особенно если в таблице несколько десятков строк. Это из опыта обработки больше сотни проектов и обработки баз данных от нескольких десятков до сотен тысяч строк. Я разукрашиваю всегда. Не думаю, что те, с кем приходится работать льстят, говоря, что дейтвительно стало проще.

Еще одним способом упрощения навигации в экселе является группирование колонок и строк.

2. Эксель не является адекватным инструментом для статистической обработки, даже со специализированными надстройками. Думаю наличие сертификата по данному продукту дает мне право это утверждать :). При этом эксель действительно великолепная система для анализа и обработки данных. Но, как у любого инструмента, у него есть свои границы применимости.

3. Разумное кодирование данных отнюдь не бред и не путаница. Но речь шла не о кодировании данных, а о кратких названиях заголовков. Длинные многословные заголовки приводят либо к необходимости увеличивать ширину колонки, либо к уменьшению шрифта, либо к переносам и увеличению высоты строки. При экспорте данных в специализированные стат. системы возникает множество проблем.

Комментарий №3. Автор:Igoroshka

[21.02.2014 05:28]

P.S. На имитациях таблиц вверху -- не "кодирование" заголовков, а вполне добропорядочніе кальций, калий, натрий, гемоглобин.

Комментарий №4. Автор:Neon

[21.02.2014 09:56]

Безусловно, с Вами нельзя не согласиться в том пункте, что Excel не является той программой, которая обладает набором функций, необходимых для полноценной стат. обработки. Но он обладает рядом неоспоримых достоинств, о которых Вы, имея сертификат, на мой взгляд, можете рассказать доступно и доходчиво. Но почему-то здесь мы видим информацию о некоторых вспомогательных моментах, не имеющих ничего общего с теми функциями, которые можно выполнить, используя Excel.

Комментарий №5. Автор:Neon

[21.02.2014 09:57]

P.S. Интересно, много ли найдётся в мире людей, которые напишут прописью, а не символами, названия химических элементов?

Комментарий №6. Автор:Igoroshka

[21.02.2014 14:49]

"много ли найдётся... "

Встречал и так, и так.

"можете рассказать доступно "

Вряд ли здесь уместно описывать возможости экселя, обучать, как с ним работать. Исключением, пожалуй, является работа со сводной таблицей. Остальное слишком специфично. Как и ипользование различных надстроек и модулей для работы с внешними системами и серверами.

"здесь мы видим информацию о некоторых вспомогательных моментах"

:) На приведение данных в удобоваримое состояние (из-за неучета и указанных выше моментов, и других, до которых, надеюсь, дойдут руки описать) у меня уходит от несколько часов до нескольких дней работы. В одном случае на подготовку данных (правда, выгруженных из внешней системы) ушло больше полугода.

Комментарий №7. Автор:Neon

[21.02.2014 20:12]

Если честно, читая Ваши полные и развёрнутые комментарии по поводу публичных выступлений, ожидалось что-то не менее исчерпывающее и от Вашей статьи... Жаль, что Вы считаете слишком специфичными необходимые каждому пользователю знания и не хотите поделиться с нами опытом и в этой области.

Комментарий №8. Автор:Igoroshka

[21.02.2014 21:00]

Здесь как раз и пытаюсь суммировать те специфичные и необходимые знания, которые должны позволить уменьшить количество ненужной или рутинной работы. Но пока времени продолжить тему, увы, нет.

Если есть конкретные вопросы, задавайте. Буду стараться на них отвечать.

К слову об наименованиях. Поступили очередные данные. Фрагмент заголовков:

Фамилия

Имя

Отчество

Возраст

<40

40-60

60-65

>65

Возраст2

Статус

Выбыл

В малом тазу

Продолжение роста

Продолжение роста 2 (объединенный)

Культя большого сальника

В селезенке

В поджелудочной железе

Интервал для живых

Интервал для умерших

Диф

И так более 200 колонок. И это только на одном листе, а листов больше 10. Плюс чехарда со шрифтами. Плюс повторяющиеся названия колонок. Плюс значительно более высокая вероятность сделать ошибки, что неоднократно и наблюдал.

Добавление комментариев доступно только зарегистрированным пользователям

Где набирать данные?

Как вводить данные?

Общие замечания

«Фиксация строк»

«Разукрашки»

Заголовки

Мастер-классы

Автор статьи:

Поделиться:

Теги

Мы вКонтакте:

Мы в Facebook:

Имя или email:
Пароль:
	Запомнить меня