论文撰写中常见的统计学问题及其处理

发布于:2021-06-14 06:21:01

论文撰写中常见的统计学问题及其处理
  绝大多数的论文撰写,均需通过一定数量临床病例(或资料)的观 察,研究事物间的相互关系,以探讨客观存在的新规律。如确定新诊 断、新治疗等措施是否优于原沿用的方法,就需进行两种方法比较, 这就涉及统计处理;统计设计又是整个课题研究设计中一个重要的组 成部分。显然,经正确统计处理的结果可信度高,论文的质量也高。   据不完全统计,在难以发表的、已凝聚着作者心血并花费较长时 间与较大财力撰写的研究论文中,约半数以上是由于统计错误致其结 果与原文主要结论相违背。如一文采用某新药引产,96例足月孕妇的 产后出血与新生儿低Apgar评分率均为2.1%(各2例),明显低于应用 原药引产的19例,其产后出血与新生儿低Apgar评分发生率均 为15.8%(各3例,χ2=7.164, P?.001)。故认为采用新药引产是一 更安全的措施。原药引产组例数偏少暂且不谈,该资料比较应采用精 确法分析,结果是与原结果恰恰相反(P>0.05),这样上述的主要结论 就欠可靠而难以发表,否则论文可起误导作用。类似问题文稿中还常 有出现。现就文稿中常见的统计问题及其相应的处理方法简述如下。   一、常用的统计术语   统计学中常用的概念有总体与样本、随机化与概率、计量与计 数、等级资料及正态与偏态分布资料、标准差与标准误等。如某研究 采用经会阴途径测定宫颈长度,以探讨不同宫颈长度与临产时间的关 系。结果显示35例宫颈长度为25~34 mm者与32例宫颈长为15 ~24 mm者临产时间的均值±标准差(±s)各为57.6±58.1 与47.3±49.1小时。该计量资料,经t检验显示t=0.780, P>0.05, 并未提示不同宫颈长度的临产时间差异有显著意义;从标准差大于均 值,显示各变量值离散程度大,呈偏态分布,故不能采用±s这一算术 均数法计算均数。经偏态转换成*似正态分布资料后结果是:35例 与32例的临产时间各为34.5±4.1与26.7±4.1小时,(t=7.778, P?.001),两组差异有极显著意义。可认为随着宫颈长度的缩短、临 产时间也缩短。此外,当两组资料单位不同时,其S单位也不同;即 使两组单位相同的变量值,若其均数差异较大,也都应以变异系数替 代s来比较两组值的离散度的大小。

  二、正常值范围及异常阈值的确定   如何选择研究对象,至少需多少例,正确统计处理和参考一定数 量的病例数据,是确定正常值范围及异常阈值的四个重要因素。   1.研究对象:应为“完全健康者”,可包括患有不影响待测指标疾 病的患者。如“正常妊娠”的条件:孕前月经周期规则、单胎、妊娠过 程顺利、无产科并发症及其它有关合并症,分娩孕周为37~41 周+6,新生儿出生体重为 2 500~4 000 g和Apgar评分≥7分。   2.观察数量:观察数量应尽可能多于100例;需分组者,各组人 数也是如此(标本来源困难时酌情减少)。有些指标值如雌三醇(E3)、 甲胎蛋白(AFP)、胎盘泌乳素(HPL)等随孕周进展而变化,应按孕周 分组;邻*孕周均数相*者,可合并几周计算。若为偏态分布,应以 百分位数计算,则例数应≥120例。取各孕周对象时,应考虑到所取 各孕周中的例数分布大致均衡。显然,文稿中往往以少量例数求得正 常值是欠可靠的。   3.统计处理:应根据所得数据分布特征采用不同的统计处理方 法。属正态或*似正态分布的数据,可采用±s法计算;这也适用于以 一定方法能将非正态分布转换成正态或*似正态分布的资料。对无法 转换的偏态资料,应采用百分位数计算法。具体计算(包括上下限初步 制定)见文献。   4.对照数量:相应观察的病例数(包括分组)应不少于30例,这对 制定某指标有临床意义的异常阈值尤其重要,这一点往往易被忽视。 如在参考较多病例数据后,唾液游离E3的下限异常阈值应为第2.5百 分位数,而非通常采用的5百分位数。否则,将会导致该指标产前监 护的假阳性率增加。   三、t检验与校正t检验(t′检验)   这是文稿中极易混淆的一类计量资料统计问题。

  (一)t检验的注意事项   1.t检验的意义:t检验与所有统计分析相同,其结果提示现有差 别不仅仅是抽样误差所致,且提示犯第一类错误的可能性大小, 即t0.05与t0.01犯第一类错误的可能性各为5%与1%。   2.统计意义与临床意义的关系:统计学有显著意义,而在临床上 可能是无意义的,提示该研究应继续深入,以明确该差异是否真有显 著意义;相反,统计无显著意义,而临床上却是有意义的,不能贸然 轻易地下结论。应复查实验设计、方法、试剂及仪器性能、质控措施 和实验数据等是否有问题,或尚需再进一步增加样本量进行复测等。   3.t检验适用范围:t检验仅适用于正态或*似正态分布(包括偏态 转换)和其方差是齐性资料的检验;t检验适用于可比性资料,即除了 欲比较的因素外,其它所有可影响的因素应相似。   4.t检验的结果判断:判断结果不应绝对化,P<或>0.05,分别 表示可拒绝或接受原定的假设,但两者都有5%的可能性犯第一类错 误;而P值越小,只能是更有理由拒绝原定的假设。   5.单侧与双侧检验:应预先制定本研究的结果是需行双侧还是单 侧检验。对有把握确知某治疗措施或某指标是不会劣于现有的,才作 单侧检验;若不知何者为优,应行双侧检验。因为在同一t值的界限 上,单侧检验的概率(P)仅为后者的一半,也就是说单侧检验较双侧检 验更易得出差别有统计意义的结论,不可随意制定。一般讲,绝大多 数研究以采用双侧检验为妥。   (二)t′检验与t检验的区别   当两样本均数的方差非齐性时,应以t′替代t检验。例如:甲组32 例血清某指标值为53.9±49.6(μmol/L);乙组6例的结果 为26.6±7.2(μmol/L),若不考虑两样本方差大小,t检验 示t=1.331,P>0.05,提示两组血清该指标的*均含量差异无显著 意义。但先作方差齐性检验,F=47.4,P?.01,示这两样本方差差异 有极显著意义。据此应采用t′检验,t′=2.952>t ′0.012.875,P〈0.01。显然,与上述结论恰恰相反。

  四、卡方(χ2)、校正χ2与直接概率法(或精确法)检验   这三种检验方法为一类用途较广、但也易混淆的、适用于计数资 料检验的方法。应注意,鉴于总数与理论值的不同,应采用相适合的 检验方法。   例1 192例出生体重≥4 000 g的新生儿发生难产与窒息数分别 为151例与22例;3 475例出生体重≥3 500~4 000 g的新生儿发生 难产与窒息数分别为185与265例;2 451例出生体重≥2 500~3 500 g的新生儿发生难产与窒息数分别为122与169例。3组的构成 比:难产与新生儿窒息率分别为:78.6%、5.3%、5.0% 与11.4%、7.6%、6.9%。据此贸然认为出生体重≥2 500~3 500 g为最佳新生儿分娩体重的结论是不可靠的。经x2分析,后两组的难 产与窒息率间和前两组窒息率间差异均无显著意义(P均>0.05)。故可 认为,单据本研究结果是难以得出上述临床上认可的结论的。这涉及 到上述“统计无显著意义,而临床却是有意义”的问题,应进一步复查 或增加样本测试。杜绝单纯根据百 分率的大小贸然下结论。   例2 某药治疗感染衣原体(CT)的中、晚期孕妇各11例和36例,她 们的新生儿感染CT数各为3例和23例。x2检验得 χ2=4.570,P〈0.05。据此误认为,某药治疗中孕期感染CT孕妇的 新生儿感染CT数少于晚孕期才开始治疗的新生儿感染数。根据统计原 则,其中一个数的理论值为4.9(〈5)时,应采用校正x2计算,得 x2=3.209,P>0.05。显然,正确结论恰与上述相异。   例3 以精确法替代χ2检验。某新技术测试8例卵巢内胚窦瘤患 者,5例呈阳性反应;测试25例卵巢颗粒细胞瘤患者中6例阳性。χ2 检验得χ2=4.042, P〈0.05。误认为该新技术测前组的阳性率高于后 组。但鉴于总例数33例(〈5),且其中一个数的理论值为2.7(〈5), 故应改用精确法检验,结果首次计算P值,已达0.102,>双侧检验的 有显著性意义的界限0.025,故P>0.05。结论也恰相反。   五、相关与回归分析

  相关分析只是以相关系数(r)来表示两个变量间直线关系的密切程 度和相关方面的统计指标。无论是正相关(r为正值)或负相关(r为负 值),只是经相关系数的统计意义检验(如t检验)后,当P?.05时,即示 差异有显著意义时,才能依据|r|值的大小来说明两变量间相关的密 切程度。因此,表示相关性,除写出r值外,应注明P值;切不可将相 关的显著性误解为相关程度;也应注意:相关分析是不能单纯用于阐 明两事物或现象间存在着本质的联系,即使两变量间存在高度相关关 系(即有一定的统计联系),也不能证明它们间存在着因果关系。如欲 证明两事物间的内在联系,必需凭借专业知识从理论上加以阐明。   “相关”是表示两个变量间相互关系的密切程度,而回归分析是提 示两个变量间的从属关系。在回归分析中,应注意由X变量值推算Y, 与以Y变量值推算X的回归线是不一样的;直线回归方程的适用范围, 一般仅适合于自变量X原测数据的范围,故绘制回归线时,X值切不能 超越实测值的范围而任意延长。   可见,这两种分析,说明的问题是不同的,但相互又有联系。在 作回归分析时,一般先作相关分析,只有在相关分析有统计意义(即回 归有统计意义)的前提下,求回归方程和回归线才有实际意义。决不能 把毫无实际意义的两个事物或两种现象进行相关与回归分析。   六、数据的正确书写   1.文稿内各数据的书写必须前后一致;总数应等于各分组的数据 之和。   2.对不同指标,有其不同数据精度的要求,这应结合专业知识加 以判断。如新生儿出生体重是以公斤为单位,记录测定数据精确到小 数点后的第二位数字即可。   3.测定数据的书写,不能超越其测量仪器测试的精确度范围。   4.同一指标的前后数据应保持同一精确度。   5.经计算,出现比预定小数点后两位数多的数字,应采取“≤4 舍、≥6入”与“5‘奇’进‘偶’出”方法,以决定小数点后第三位数字

是“舍”还是“入”,即5前为单数则入,双数则舍。   6.未经统计检验,文稿内不宜出现推断性的比较结果的结论。 如“××结果的百分率高或低于××结果的百分率”、“本文结果较××报 道的多或少或类似”等结论。这在综述类文章撰写过程中也需注意;欲 予以比较,也应注意两者的可比性。   上述是统计学中较为基础的概念,但又是文稿中常见的、较易出 现差错的内容。因此可以认为,统计学是医护人员必需掌握并能熟练 应用的一门重要知识;藉此,可不断地从自身和他人的研究中获取更 多、更新和更可靠的专业信息。


相关推荐

最新更新

猜你喜欢