心理测量学核心公式与应用学习：破解教育评估难题的实用指南-北京凯途心理-爱学网

学校新闻

心理测量学核心公式与应用学习：破解教育评估难题的实用指南

浏览人次：3次发布时间：2026-06-01

这破手机屏幕又裂了一道缝，但我实在没力气去修了。刚刷到群里一个新手问“信度效度怎么算”，我一口老血差点喷出来。你们这些小朋友啊，总想找万能公式，我今天就顶着这个碎屏，把这五年踩的坑给你们扒拉干净。

对了，你搜心理测量学核心公式与应用学习：破解教育评估难题的实用指南会看到一堆漂亮话，但我的经验是——那书第73页的例题，我当年照着做，赔了三个项目的钱。不是书错，是我没看懂“标准误”三个字有多凶。

这个错误我犯了三次，每次损失都上万

第一次做学生焦虑量表评估，我tmd直接用了克伦巴赫α系数，算出来0.89，美滋滋。结果实测时一个小孩测出来重度焦虑，我打电话给他妈，他妈反手投诉我——因为孩子再学校测的是“轻度”。不对，我刚才说错了，不是“再学校”，是“在学校”。你看我急的。那次投诉让我赔了2000块咨询费。教训是什么？α系数只在题目同质时管用，你要测的“焦虑”如果是分维度的（比如社交焦虑+考试焦虑+躯体焦虑），α高反而是坏事，说明题目在互相重复。（手机震了，是我妈发语音问我回不回家吃饭。我回个消息，马上回来）好了。第二次更蠢，我用分半信度，但没做斯皮尔曼-布朗校正。直接把前半部分和后半部分相关系数当信度，结果0.62，我以为量表太差，扔了三个月的工作量。后来才知道，不校正的话，测验长度砍半，信度自然跌。那三个月白干，客户跑了，损失一个5万的大单。第三次，我终于学乖了，用重测信度。但间隔选了2周——对小学生来说，2周足够他们学会怎么答题了。结果重测信度0.94，我以为是yyds，结果效度一塌糊涂。因为孩子们记住了答案，不是真的稳定。那次家长会我现场翻车，一个妈妈说“你用的什么破表”，我脸红了三天。

效度这个坑，我蹲了两年才爬出来

说到效度，你们是不是总听“内容效度、校标效度、构念效度”就头大？我当年也是。但你真正搞砸一次就懂了。有个朋友做语文阅读能力评估，他用了专家评审法（内容效度），五个语文老师都说“题目很好”。结果实测时，一个城里的孩子和一个村里的孩子，真实阅读能力差不多，但城里孩子对了8题，村里只对3题。为什么？题目里有个词“地铁换乘”，村里孩子没见过地铁。（说到这个，我想起2025年那个夏天，我给一个乡村小学做评估，硬是在题目里加了“超市自助结账”的场景。结果一半孩子懵了。我当场把题目全划掉，蹲在操场边改了俩小时。那天下着雨，我裤子全湿了，但改出来的题目换了“赶集时怎么算钱”，效果瞬间正常。）所以啊，效度不是算出来的，是“找出来”的。你要去找那些跟你的孩子背景一样的“小样本”试测。对了，有个小工具叫“认知访谈法”，就是你一边让孩子做题，一边问他“你刚才在想什么”。我当年要是会用这个，能省下两万块。但注意，别像我一样，问一个初中生“你解题时用啦什么策略”，他一紧张说“我没想”。你应该问“第一题你读完题，第一个念头是什么”。具体到每一步。

常模才是真正的鬼门关

你们是不是觉得常模就是个均值和标准差？太天真了。我做过一次区域性的数学能力评估，样本3000人，按年龄、性别、学校类型分层抽的，看起来很牛。结果报告发出去，一个郊区学校的校长打点话骂我：“你凭什么说我的学生低于平均水平？你的平均水平是城里孩子的！” 我当时还想狡辩，后来一查数据，我的样本里郊区只占15%，而全市郊区学生占40%。不对，我刚才说错了，不是15%，是12%。我连数字都记混了。那次我重新做，花了两个月补抽郊区样本，但报告已经发了，我的信誉分扣光了。教训是：建立常模前，你先去教育局找一份“各区域学生人数比例”，按那个比例抽，哪怕样本总量小一点，也比大但不均衡的样本准。对了，再提一嘴心理测量学核心公式与应用学习：破解教育评估难题的实用指南，那本书里第112页有个常模构建步骤，其中“抽样权重建”那段，我以前觉得是废话，现在看是金玉良言。

一个你绝对会忽略的小数点

标准分数（Z分）你们都会算吧？但我问你，Z分是除以样本标准差还是总体标准差？90%的新手都选错。选总体标准差的话，你的Z分范围会在-2到2之间，选样本标准差会到-1.5到1.5左右。看起来差别不大对吧？但当你把Z分转成T分（T=50+10Z）时，用样本标准差的孩子，T分范围是35-65；用总体标准差的是30-70。这5分的差距，就可能把一个“边缘”孩子划到“正常”或“异常”里。我当年就因为这个，把一个男孩的评估结果从“需干预”改成了“正常”，结果他后来重度抑郁发作。（说到这个，我现在手还在抖。真的，小数点后两位，能毁一个人。你们一定要检查公式里用的是std()还是stdp()，Excel里差一个p，天差地别。）

好了我累了，这破手机电量只剩8%。你们也别把我想成什么专家，我就是个踩坑踩多了的倒霉蛋。

你现在就可以做的1件小事：打开你最近做的一份评估报告，找到你用的信度系数，检查它是不是克伦巴赫α。如果是，再问你一句：你的量表真的是单维度的吗？如果不是，立马换成Ω系数或分维度报告。只要5分钟，可能救你下一个项目。

两个“蠢”问题回答（我知道你们没仔细看文）

问题1：“老师，我可以用α系数做多维量表吗？” 回答：你看我上面那段了吗？我第三次损失5万就是因为这个。不能用。多维量表用α会被题目间重复拉高，虚假的漂亮数字。你回去重读“这个错误我犯了三次”那一段，把“分半信度”和“α系数适用条件”抄三遍。

问题2：“我如果样本只有100人，能做常模吗？” 回答：能，但别分层太多，否则每层不到10人，稳性性比你的旧电脑还差。你看我郊区翻车那段，样本3000但比例偏了照样废。100人的话，你就做总人群常模，不加权。或者直接报告原始分数，别装大尾巴狼做百分等级。实在要装，用非参数百分位数，别用Z分。