^ Наверх

Добьёмся успеха вместе!


10

На днях в руки попала очередная работа, претендующая на название «диссертация». Позволю себе разобрать в ней часть, относящуюся к обработке данных.

И так, раздел с громким названием «Методы статистической обработки».

«Работа выполнена в операционной системе Microsoft Windows 7. Базами явились Microsoft Excel 2010, Access 2010. Необходимые данные были занесены в таблицу Excel 2010, затем при проведении анализа создавали запрос и производили статистическую обработку данных в приложении SPSS Statistics 9.0. При анализе количественных и качественных признаков рассчитывали среднее значение и медиану. Достоверность различий оценивали по критерию Стьюдента или стандартному распределению с поправкой Йейтса на непрерывность. Полученные результаты считали достоверными при р<0,05.»

Да, это весь текст раздела, в котором, согласно названия, должно было быть описание предположений, допусков в обработке данных, использованные методы статистического анализа, их обоснованность и т.д.

Но давайте разберем, что написано. Итак.

«Работа выполнена в операционной системе Microsoft Windows 7». Смысл сей сакральной фразы в данном контексте совершенно непонятен. Выполнение статистического анализа именно в Microsoft Windows 7 должно сфоStaрмировать доверие к выполненному анализу, придать ему особую значимость? Своеобразное «Сим-сим откройся»? А если бы была операционная система Microsoft Windows 8? Или линукс какой? Да, автор поскромничал. Уверен, указание «Microsoft Windows 7 Максимальная билд 123.456.789» привело бы к повышенной точности и гораздо более высокой надежности полученных результатов.

Далее, «Базами явились Microsoft Excel 2010, Access 2010». Во-первых, ни Excel (хоть 2007, хоть 2010 или 2013), ни Access не являются «базами». В лучшем случае это системы, позволяющие вести базу данных. В общем это можно было бы считать мелкой придиркой, если речь шла о тысячах пациентов, данные о которых необходимо было бы вносить в сложные экранные формы. Но в данном случае анализируются около 250 пациентов. Даже, если данные по какой-то причине изначально хранились в Access, а потом были перенесены в Excel, упоминание этого факта только говорит об отсутствии у автора понимания принципов накопления и обработки данных.

«при проведении анализа создавали запрос и производили статистическую обработку данных в приложении SPSS Statistics 9.0». Смысл этой наукообразной и бессмысленной фразы понять не дано даже после 5-го прочтения. Одно лишь замечание: «А SPSS Statistics 9.0» лицензионная? К слову, минимальная стоимость лицензии «IBM SPSS Statistics Standard Authorized User Initial Fixed Term License» составляет 2390 долларов США.

К слову, в одном из авторефератов, опубликованных на сайте ВАКа, как то встретил описание, что автор для анализа использовал (внимание!): Microsoft Office, Statictica 6.0, SPSS, SAS. При этом в самой работе приводились лишь средние и стандартные отклонения, которые можно рассчитать на обычном калькуляторе! Ориентировочная стоимость лицензий на тот момент составляла: 600 + 1300 + 1400 + 7000 = 10300 долларов США на тот момент! Очень сомневаюсь, что автор имел соответствующие лицензии на все эти продукты. Но самолично подписался, а ученый секретарь совета утвердил факт незаконного использования коммерческих продуктов на весьма внушительную сумму!

«При анализе количественных и качественных признаков рассчитывали среднее значение и медиану». Среднее значение (к стати, какое из средних? арифметическое? геометрическое? гармоническое?), медиана — суть срединные значения. Зачем для количественных признаков одновременно рассчитывать и среднее (полагаю арифметическое), и медиану? Переведя на медицинский язык можно сказать, что во время приема пациентам осматривали горло и прямую кишку. А чего же, и там, и там «дырка» (уж простите за невольную грубость).

А вот о расчете хоть среднего, хоть медианы для качественных признаков хотелось бы поспрошать автора поподробней. «Какова медиана будет у 3-х слонов, 4-х пар галош и 17-и случаев сливного эпителиита?»

«Достоверность различий оценивали по критерию Стьюдента Стьюдента или стандартному распределению с поправкой Йейтса на непрерывность.» Честно признаюсь, эта фраза повергла меня в то чуднОе состояние, когда не знаешь, плакать или смеяться. Воистину, поразительна сия наивная вера во всемогущество «магических статистических заклинаний»!

Нет, честное слово, это новое слово в статистике, особенно в ее разделе под названием «медицинская статистика». Слово, которое называется «Для получения желаемой степени мы должны произнести на статистическом языке заклинания с упоминанием святых Стьюдента, Йейтса. В зависимости от вероисповедания допускается также упоминание причисленных к лику святых Уилкоксона, Манна и Уитни». И неважно, что смысла это не имеет никакого. Главное, что все находится в «правильной» упаковке. Новоиспеченный кандидат наук от медицины готов к труду!

 

P.S. Несколько месяцев назад просмотрел порядка 25 авторефератов кандидатских и докторских диссертаций на сайте ВАКа из разделов «медицина», «биология». В лучшем случае оставил бы штуки 3 для более внимательного просмотра. Остальное —на основе приведенных данных с использованием указанных методов анализа выводы полученными быть не могут, т.е., работа de facto бессмысленная. Подобный просмотр лет 5 назад более 100 авторефератов диссертаций оставлял несколько более благоприятное впечатление.


Комментарий №1. Автор:Марина

[09.06.2014 18:21]

Потрясающе интересное изложение, неужели в РБ еще встречаются такие ляпы? Хотя, скорее всего это связано с отсутствием хороших курсов по статистике, особенно у медиков. Например, в НАН Б довольно серьезная подготовка. Надеюсь, продолжение будет?

Вопрос, что делать, если нет лицензионных версий даже Microsoft Office, Excel, и, конечно, Statistica? Почему на защите спрашивают только про лицензию последней?


Аватар

Комментарий №2. Автор:Igoroshka

[09.06.2014 22:27]

Спасибо большое на добром слове.

Упомянутая выше диссертация из весьма известного и уважаемого медицинского центра, что не делает чести ее Совету.

Что касается "наших" диссертаций. Только что из скачанного из сайта ВАКа.

"Среди всех поступивших ... лица женского пола 66% (95% ДИ 61,28-71,27) ... мужчин 34% (95% ДИ 29,62-39,84)."

Стесняюсь спросить, автор диссертации не может точно посчитать удельный вес мужчин и женщин? То ли 61%, то ли 66%, то ли 71%? И дальше по тексту те же оценки вероятности для биноминального распределения. Правда, на каком основании, в работе умалчивается.

"Статистическую обработку ... выполняли с использованием статистических пакетов SPSS (версия 17.0, SPSS Incorporation, USA), MedCalc 7.4.4 (Belgium). "

Чем SPSS не угодил, что ему в помощь потребовался MedCalc?

"Для оценки связи ... показателей ... использовали методы регрессионного анализа."

Естественно, ни слова о том, какие из множества методов были использованы и почему.

"Для количественных значений в зависимости от вида распределения применяли параметрические и непараметрические методы."

Эта традиционная мантра кочует из работы в работу.

"Статистический анализ проводили на персональном компьютере с использованием пакета «Statistica» версии 10."

Полагаю, личная работа на "персональном компьютере" привносит дополнительную достоверность работе, почему этот факт и нашел свое "достойное" представление.

"Анализ значимости различий по частоте встречаемости признаков оценивался с помощью критерия χ2, в таблицах сопряженности 2×2". 

А для 3 групп? по 4 признакам в каждой? Опять, как обычно, множественные сравнения?

"отмечены прямые корреляции R=0,32, p<0,02"

Коэффициент детерминации 0,10. О какой "корреляции" может вообще идти речь?!

"При оценке эффективности рассчитали риски, шансы, прогностичность
положительного результата, прогностичность отрицательного результата, чув-
ствительность и специфичность. Выполнили мультицентровое, кагортное, проспективно-ретроспективное, лонгитудинальное исследование."

Да, это весь, с позволения сказать, раздел "Материалы и методы". Коротко и ... бессмысленно. Дальше куча бесполезных и малоосмысленных цифирей.

 


Аватар

Комментарий №3. Автор:Igoroshka

[09.06.2014 22:49]

Все это, на мой взгляд, не столько связано с отсутствием хороших курсов, сколько с принципиально неправильным подходом. Статистический анализ -- это не знание нескольких методов да умение тискать несколько кнопок в стат. пакете. Он требует, как и в случае с медициной, базовых знаний и навыков.

Вопрос медикам: "Как вы относитесь к самолечению?" Нет, конечно, речь не идет об умении закапать нос, залепить порез лейкопластырем или вовремя принять назначенные препараты, а именно о лечении?

То-то и оно...

Что касается лицензий. Стоимость 5 лицензий офиса 365 на один год -- 2500 рос. руб. Не думаю, что это дорого. Альтернатива -- Open Office, например.

Стат. пакеты -- R (http://www.r-project.org/). Бесплатный, модульный и один из наиболее продвинутых на сегодняшний день.

Почему спрашивают Statistica? Ну, думаю, их занятость не позволяет быть в курсе состояния признаваемой как необходимой, но, по факту, падчерице, медицинской статистике.


Аватар

Комментарий №4. Автор:Igoroshka

[11.06.2014 08:23]

И еще из "свеженького".

"Статистическую обработку полученных данных выполняли при помощи программного обеспечения Windows, Excel и Statsoft Statistica 6.1, Primer of Biostatistics."

Это все :).


Добавление комментариев доступно только зарегистрированным пользователям
Google+