На днях в руки попала очередная работа, претендующая на название «диссертация». Позволю себе разобрать в ней часть, относящуюся к обработке данных.
И так, раздел с громким названием «Методы статистической обработки».
«Работа выполнена в операционной системе Microsoft Windows 7. Базами явились Microsoft Excel 2010, Access 2010. Необходимые данные были занесены в таблицу Excel 2010, затем при проведении анализа создавали запрос и производили статистическую обработку данных в приложении SPSS Statistics 9.0. При анализе количественных и качественных признаков рассчитывали среднее значение и медиану. Достоверность различий оценивали по критерию Стьюдента или стандартному распределению с поправкой Йейтса на непрерывность. Полученные результаты считали достоверными при р<0,05.»
Да, это весь текст раздела, в котором, согласно названия, должно было быть описание предположений, допусков в обработке данных, использованные методы статистического анализа, их обоснованность и т.д.
Но давайте разберем, что написано. Итак.
«Работа выполнена в операционной системе Microsoft Windows 7». Смысл сей сакральной фразы в данном контексте совершенно непонятен. Выполнение статистического анализа именно в Microsoft Windows 7 должно сфоStaрмировать доверие к выполненному анализу, придать ему особую значимость? Своеобразное «Сим-сим откройся»? А если бы была операционная система Microsoft Windows 8? Или линукс какой? Да, автор поскромничал. Уверен, указание «Microsoft Windows 7 Максимальная билд 123.456.789» привело бы к повышенной точности и гораздо более высокой надежности полученных результатов.
Далее, «Базами явились Microsoft Excel 2010, Access 2010». Во-первых, ни Excel (хоть 2007, хоть 2010 или 2013), ни Access не являются «базами». В лучшем случае это системы, позволяющие вести базу данных. В общем это можно было бы считать мелкой придиркой, если речь шла о тысячах пациентов, данные о которых необходимо было бы вносить в сложные экранные формы. Но в данном случае анализируются около 250 пациентов. Даже, если данные по какой-то причине изначально хранились в Access, а потом были перенесены в Excel, упоминание этого факта только говорит об отсутствии у автора понимания принципов накопления и обработки данных.
«при проведении анализа создавали запрос и производили статистическую обработку данных в приложении SPSS Statistics 9.0». Смысл этой наукообразной и бессмысленной фразы понять не дано даже после 5-го прочтения. Одно лишь замечание: «А SPSS Statistics 9.0» лицензионная? К слову, минимальная стоимость лицензии «IBM SPSS Statistics Standard Authorized User Initial Fixed Term License» составляет 2390 долларов США.
К слову, в одном из авторефератов, опубликованных на сайте ВАКа, как то встретил описание, что автор для анализа использовал (внимание!): Microsoft Office, Statictica 6.0, SPSS, SAS. При этом в самой работе приводились лишь средние и стандартные отклонения, которые можно рассчитать на обычном калькуляторе! Ориентировочная стоимость лицензий на тот момент составляла: 600 + 1300 + 1400 + 7000 = 10300 долларов США на тот момент! Очень сомневаюсь, что автор имел соответствующие лицензии на все эти продукты. Но самолично подписался, а ученый секретарь совета утвердил факт незаконного использования коммерческих продуктов на весьма внушительную сумму!
«При анализе количественных и качественных признаков рассчитывали среднее значение и медиану». Среднее значение (к стати, какое из средних? арифметическое? геометрическое? гармоническое?), медиана — суть срединные значения. Зачем для количественных признаков одновременно рассчитывать и среднее (полагаю арифметическое), и медиану? Переведя на медицинский язык можно сказать, что во время приема пациентам осматривали горло и прямую кишку. А чего же, и там, и там «дырка» (уж простите за невольную грубость).
А вот о расчете хоть среднего, хоть медианы для качественных признаков хотелось бы поспрошать автора поподробней. «Какова медиана будет у 3-х слонов, 4-х пар галош и 17-и случаев сливного эпителиита?»
«Достоверность различий оценивали по критерию Стьюдента Стьюдента или стандартному распределению с поправкой Йейтса на непрерывность.» Честно признаюсь, эта фраза повергла меня в то чуднОе состояние, когда не знаешь, плакать или смеяться. Воистину, поразительна сия наивная вера во всемогущество «магических статистических заклинаний»!
Нет, честное слово, это новое слово в статистике, особенно в ее разделе под названием «медицинская статистика». Слово, которое называется «Для получения желаемой степени мы должны произнести на статистическом языке заклинания с упоминанием святых Стьюдента, Йейтса. В зависимости от вероисповедания допускается также упоминание причисленных к лику святых Уилкоксона, Манна и Уитни». И неважно, что смысла это не имеет никакого. Главное, что все находится в «правильной» упаковке. Новоиспеченный кандидат наук от медицины готов к труду!
P.S. Несколько месяцев назад просмотрел порядка 25 авторефератов кандидатских и докторских диссертаций на сайте ВАКа из разделов «медицина», «биология». В лучшем случае оставил бы штуки 3 для более внимательного просмотра. Остальное —на основе приведенных данных с использованием указанных методов анализа выводы полученными быть не могут, т.е., работа de facto бессмысленная. Подобный просмотр лет 5 назад более 100 авторефератов диссертаций оставлял несколько более благоприятное впечатление.
Потрясающе интересное изложение, неужели в РБ еще встречаются такие ляпы? Хотя, скорее всего это связано с отсутствием хороших курсов по статистике, особенно у медиков. Например, в НАН Б довольно серьезная подготовка. Надеюсь, продолжение будет?
Вопрос, что делать, если нет лицензионных версий даже Microsoft Office, Excel, и, конечно, Statistica? Почему на защите спрашивают только про лицензию последней?
Спасибо большое на добром слове.
Упомянутая выше диссертация из весьма известного и уважаемого медицинского центра, что не делает чести ее Совету.
Что касается "наших" диссертаций. Только что из скачанного из сайта ВАКа.
"Среди всех поступивших ... лица женского пола 66% (95% ДИ 61,28-71,27) ... мужчин 34% (95% ДИ 29,62-39,84)."
Стесняюсь спросить, автор диссертации не может точно посчитать удельный вес мужчин и женщин? То ли 61%, то ли 66%, то ли 71%? И дальше по тексту те же оценки вероятности для биноминального распределения. Правда, на каком основании, в работе умалчивается.
"Статистическую обработку ... выполняли с использованием статистических пакетов SPSS (версия 17.0, SPSS Incorporation, USA), MedCalc 7.4.4 (Belgium). "
Чем SPSS не угодил, что ему в помощь потребовался MedCalc?
"Для оценки связи ... показателей ... использовали методы регрессионного анализа."
Естественно, ни слова о том, какие из множества методов были использованы и почему.
"Для количественных значений в зависимости от вида распределения применяли параметрические и непараметрические методы."
Эта традиционная мантра кочует из работы в работу.
"Статистический анализ проводили на персональном компьютере с использованием пакета «Statistica» версии 10."
Полагаю, личная работа на "персональном компьютере" привносит дополнительную достоверность работе, почему этот факт и нашел свое "достойное" представление.
"Анализ значимости различий по частоте встречаемости признаков оценивался с помощью критерия χ2, в таблицах сопряженности 2×2".
А для 3 групп? по 4 признакам в каждой? Опять, как обычно, множественные сравнения?
"отмечены прямые корреляции R=0,32, p<0,02"
Коэффициент детерминации 0,10. О какой "корреляции" может вообще идти речь?!
"При оценке эффективности рассчитали риски, шансы, прогностичность
положительного результата, прогностичность отрицательного результата, чув-
ствительность и специфичность. Выполнили мультицентровое, кагортное, проспективно-ретроспективное, лонгитудинальное исследование."
Да, это весь, с позволения сказать, раздел "Материалы и методы". Коротко и ... бессмысленно. Дальше куча бесполезных и малоосмысленных цифирей.
Все это, на мой взгляд, не столько связано с отсутствием хороших курсов, сколько с принципиально неправильным подходом. Статистический анализ -- это не знание нескольких методов да умение тискать несколько кнопок в стат. пакете. Он требует, как и в случае с медициной, базовых знаний и навыков.
Вопрос медикам: "Как вы относитесь к самолечению?" Нет, конечно, речь не идет об умении закапать нос, залепить порез лейкопластырем или вовремя принять назначенные препараты, а именно о лечении?
То-то и оно...
Что касается лицензий. Стоимость 5 лицензий офиса 365 на один год -- 2500 рос. руб. Не думаю, что это дорого. Альтернатива -- Open Office, например.
Стат. пакеты -- R (http://www.r-project.org/). Бесплатный, модульный и один из наиболее продвинутых на сегодняшний день.
Почему спрашивают Statistica? Ну, думаю, их занятость не позволяет быть в курсе состояния признаваемой как необходимой, но, по факту, падчерице, медицинской статистике.
И еще из "свеженького".
"Статистическую обработку полученных данных выполняли при помощи программного обеспечения Windows, Excel и Statsoft Statistica 6.1, Primer of Biostatistics."
Это все :).


Комментарий №1. Автор:Марина
[09.06.2014 18:21]