010-60606955
010-60603031
info@


提高数据的质量,才是高 效发论文的根本

 二维码 37
发表时间:2019-03-15 10:13

在这样 一个科研快速增长的年代,SCI 论文似 乎已经成了我们科研人员的「安身立命」之本了。如同下 面的环形图显示的一样,对于科研人员来说,数据是论文的源头,是非常 宝贵的财富和资源。

  当我们 费劲拿到自己的数据之后,满怀欣 喜的打开数据时,是否有 考虑过以下几个问题?(以临床 常见的数据为例)无忧润色,是筑塔人(北京)教育咨 询有限公司的英文润色品牌,成立于20138月,是一家 立足于学术领域、专注于 论文润色和论文翻译的学术机构。

 1我的数据有多少变量,有多少个研究对象?

 2数据结构整齐吗?

 3数据中 每个变量都是什么类型的?分类变量?连续变量?还是计数的?

 4变量中有缺失值吗?缺失值 是以什么符号代替的?缺失值比例是多少?

 5对于缺失值,我是直 接踢除还是进行插补?

 6有异常值和重复值吗?

 7常用的 连续型变量是正态分布的吗?不是该咋办?进行数据转换?还是直接非参检验?

 8会不会 有字符掺杂在连续型变量中?会不会 有中文和英文混在一起?

 9我需不 需要将这个数据和其他数据进行匹配整合?

 10我的目 标数据在这个数据集中吗?在的话,我该如何把它们单独「拎」出来?

u=3668737941,3842187667&fm=200&gp=0.jpg

  上述的「数据十连问」,总结起 来就是一个问题,「我的数据干净吗」?这些问题提醒了我们:不要一 拿到数据就上手分析,要先判 断下这些数据是否适合分析。否则,十有八 九得到的结果是不准确或者完全错误的,既浪费 了时间又降低了论文的质量。

  举个最简单的例子,假如数 据是偏态分布的,用最常用的 t 检验就是错误的,会直接被 reviewer 质问。再比如,在进行回归分析时,如果没 有合理的处理分类变量及其参照水平,也直接 影响最后结果的准确性。

  然而现实科研工作中,部分人 就抱着侥幸心理,想「划水」过。但常在河边走,总是会湿鞋,划水划得多了,总有翻船的一天。尤其对于想发高分 SCI 论文的童鞋来说,划水是 万万划不过去的。

  据我所知,一些高 IF 的期刊,都配有专门的统计 reviewer,一些「障眼法」基本逃 不过他们的法眼。所以,说一千道一万,数据的 质量决定了结果的好坏,一定要 先正确整理原始数据,即进行「数据清洗」,然后再进行数据分析。

  数据清 洗对数据分析师是一个非常常见也十分重要的工作。而对于 从事医学科研的我们,尤其是 战斗在科研一线的研究僧同志来说,并非数据专业出身,对「数据清洗」一词估计会比较陌生。实际上,我们几 乎每次研究都会涉及到缺失值、异常值等的处理问题,而这些 都是数据清洗的内容。无忧润色,是筑塔人(北京)教育咨 询有限公司的英文润色品牌,成立于20138月,是一家 立足于学术领域、专注于 论文润色和论文翻译的学术机构。

  简单来说,所谓的「数据清洗」,就是将 我们拿到的原始数据,整理成 可以拿来进行统计分析和可视化的数据。这里面 涉及的东西非常多,是一个 比较繁琐庞杂的工作。

  如何快速、高效且 正确地进行数据清洗,降低我 们的时间成本呢?个人的经验是:掌握一门计算机语言,熟悉一 套完整的数据清洗流程。


 
 
 联系方式
电话:010-6060-6955
友情链接:    K8彩票最新网址   北京福彩网   k8彩票活动优惠   微信买彩票合法吗   河南彩票