testyourvocab工作原理

它是如何工作的？

我们有一本有超过45,000个条目的字典，单词按照英语语言和写作的频率顺序排列。例如，它的一开始就是：

1. the
2. and
3. I
4. to

再往后些，例如：

8001.preface
8002.scooter
8003.recite
8004.exemplify

最准确的词汇计算方法是展示所有45000+个单词，计算你知道多少。但这将需要很长时间。

另一个最简单的方法是每百个单词为一题，总共大约450题。但这仍然是一个相当长的试题。而且对于那些能幸运地猜中试题中1或2个的幼儿或外国学习者来说，它并不是非常准确。

所以我们要用两个步骤来测试词汇量。第一步，我们从英语中最简单到最难选择大约40个单词。这让我们大致了解你的词汇水平。然后我们给出第二组范围较精确的单词，按频率排序。在这个范围内，我们设想你一定会知道排在开头的单词，一定不知道排在最后的单词，而在排在中间的则是可能认识或不认识。通过在这个更窄的范围内测试你，我们可以为任何水平的人估算出一个相当准确的词汇量。

要了解我们如何给出确切的数字，类比一下。想象你有整个45000+个单词的字典，单词按照最常见到最不常见的顺序排列，然后你把所有你知道的单词都标记了出来。最后你倒回去，发现在第15000个单词处的前面（更常见的）有2000个单词你不认识。在第15000个单词的后面（更不常见的）有2000个单词你认识。你知道的那2000个单词把你不认识的2000个单词抵消了，最后这意味着你认识15000个单词。

我们遵循同样的原则，但只使用一个小的单词样本（大约120个）来获得相同的结果。在第二步中检查的所有单词中，我们发现哪个单词（如第55个）前面的空白的复选框个数（如18个），与后面的勾选的复选框个数（同样，18个）相同。然后我们查找这个“中点”第55个单词的频率排行，是第15000，这意味着你知道15000个单词。

实际上，数学上的说法比这要复杂一些，因为样本单词是按秩的对数排列的，而不是线性分布的，但基本概念是相同的。

什么是一个单词？

衡量某人的词汇量并不容易。毕竟，当有人问“我知道多少个词？”时，这取决于你所说一个词的确切意思。虽然这看起来和比尔·克林顿想知道“is”这个词的意思一样愚蠢，但它实际上比你想象的要复杂得多。

让我们从一个简单的例子开始：“jump”和“jumped”是一个词还是两个词？在这种情况下，很容易确定它们只算为一个，因为“jumped”是“jump”的常规变化——你不必把它作为一个单独的单词学习就知道如何使用它。

但是，“give”和“gave”又如何呢？这一次，过去时态是不规则的（不是“gived”），需要单独学习，所以把“give”和“gave”算为两个单词可能是更好的选择。

但现在，事情变得更加复杂了。那么把动词变成形容词（“derive”变成“derived”)，把形容词变成副词(“quick”变成“quickly”)，或者把动词变成名词(“evict”变成“eviction”）呢？或者用前缀，比如把“examine”变成“reexamine”——你可以在几乎任何一个动词中添加“re-”，对吧？或者你能让Jack an Jill“rejumped”吗？再者，拿“unhappy”做例子——这是“happy”的明显的变形，还是一个单独的词？这看起来很显而易见，但对一个不知道更多的人来说，“nonhappy”和“happyless”也是如此。

那么专有名词呢？“France”是一个词吗？它似乎应该作为你词汇的一部分，但如果我们把它包括在内，那么我们也应该包括巴黎和其他城市……一直到卡斯特莫隆-阿尔布雷特。所以，最好不要把其中的任何一个都包括进去。但有趣的是，“French”不是一个专有名词，因为它是一个指某种人的词，而不是“France”的常规派生。像“November”这样的词，虽然在学术上是专有名词，但却是语言中不可分割的组成部分，不能不把它们包括在内。

最后，短语呢？“air conditioner”能算作一个词吗？我们认为它可以，因为它被用得像一个词一样。但是各种表达，比如fork out（花钱）呢？毕竟，它和fork没有任何关系。但是，让像“food for thought”这样不完全明显或不明显的表达怎么办呢？

关于这些问题，比我们有更好想法的人，特别是那些写字典的人。他们很方便地把“quickly”作为一个主要条目“quick”的子条目，“unhappy”作为它自己的主要条目。“air conditioner”有它自己的条目，但“fork out”是“fork”下的一个子条目。“France”不是一个条目，而“November”是。所以我们简单地遵循了权威字典的指导，只统计主要条目用于估计词汇量，而不统计子条目。

还有一个细节我们还没有提到，那就是关于多重含义的麻烦问题——你可能知道nuns的穿着习惯，但你知道nun也会飞吗？很可能不知道吧。“nun”也是一种鸟——所以你真的知道“nun”这个词吗？你可能也不知道，牛津英语词典中列出了“set”一词的430个不同的含义。如果我们能数出人们所知道的一个单词的定义的数量，那将会更有趣——但不幸的是，这就太复杂了。没有什么简单的方法可以通过用单词的频率来组织单词定义，确定什么是不同的单词含义，或者只是具有相同含义的不同用法，都可能比确定单词是什么更困难。所以，我们主张只测量人们只知道一个定义的单词的数量。

如何排名单词？

我们在这方面付出了超乎我们想象的努力。经过深思熟虑，如何按频率排序字典定义并不重要，只要它们不是完全随机的——你仍然会得到相同的词汇估计。另一方面，你选择的参考字典确实很重要，因为它决定了什么算一个单词，什么不算，因此会按比例影响你的最终结果。但是，如果你的目标是拥有一个用于比较词汇水平的工具（这也是我们的目标），那么这也无关紧要。但既然我们想把每一件事情做有条不紊有章可循，我们的步骤如下：

1: 语料库。找到一个合适的大型口语和书面文本语料库。我们使用了英国国家语料库(BNC)，因为它巨大的规模和丰富的口语。

2: 字典。找一本很好的权威词典。我们使用了一本英国的，来匹配BNC中主要的英国拼写。（然而，我们最后的测试词都没有一个是专门的英式英语单词。）

3: 单词计数。计算语料库中每个单词的频率。一个名叫亚当·基尔加里夫的好伙计已经这样做好了这项工作，并且免费提供，所以我们用了这个（谢谢，亚当！）。为了使计数更加现实，我们重新平衡了频率为1/3的“人口统计学”口语（对话)，1/3的“上下文控制”口语(会议、讲座）和1/3的写作。

4: 规则变化。频率列表把“jump”和“jumps”列为两个单独的单词，但我们没有这么做。所以我们将所有规则变化的形式的频率计数加到它们原形式中，然后丢弃掉所有变化的形式。

5: 派生形式。频率表把“quick”和“quickly”列为不同的形式，但我们的字典没有。因此，将所有派生形式（根据字典）的频率计数加到它们的中心词中，然后丢弃派生形式。

6: 清理。丢弃字典里没有找到的所有单词。这包括地名、人名，以及一些胡言乱语。

7: 完成。按频率升序对生成的字典匹配条目进行排序。

尽管我们的字典包含了大约7万个中心词（以及更多的派生形式），但我们惊讶地发现，在1亿个单词的BNC中只有大约4.5万个有用。事实证明，字典的其余部分主要是科学的或古老的术语，要么是罕见的但容易组合的词，如“unrivaled”。让我们告诉你，超过35000以上的非组合词是困难的。

我们选择了哪些单词作为样本单词？

这就是很棘手的地方。理想情况下，我们简单地以偶数（对数）的间隔取样本单词，并对这些单词进行直接测试，且没有人为的干预。不幸的是，绝大多数潜在的测试词都有一个或多个问题，这意味着我们必须排除它们：

可推断出的含义。像“unhappy”这样的词很容易猜出来，即使你“不知道”它。因此，象声词也被排除在外。

你以为你知道，但是…人们会把“dissemble”标记为“知道”，而没有看清这个单词不是“disassemble”。“lessor”和“lesser”也是如此。我们甚至排除了“kitchen”，因为外国英语学习者经常把它和“chicken”混淆。

知识限制。特别是美国或英国的单词（意思或拼写），俚语，科学/医学，或任何标记为古老的东西，或其他不属于宽泛英语的单词。动物或材料也被排除在外，这几乎完全取决于你住在哪里。

很少单独使用。当人们看到像“lop”这样的词时，他们会感到困惑，这个词只在像“lop off”这样的短语中使用，所以我们也排除了这些词。

因为我们使用相同的词汇列表来测试学习英语的巴西人：

排除与葡萄牙语的同源词或同形异意词。这可能干掉词典里至少一半的词，因为罗曼语和英语有很多共同之处。同形异意词也需要避免，因为一个巴西初学者会看到“pretend*（假装）”，并假设他知道它的意思是pretender（意图）。有趣的是，“无葡萄牙规则”使测试具有强烈明显的短盎格鲁-撒克逊风格。

因此，按照这些规则，我们选择了一个偶数（对数）排名间隔序列来采样，然后取我们在每个点找到的第一个单词，它不属于上面的任何类别。样本间距并不完美，但它很接近。如果我们在选择或排除样本单词时做出了“个人”的选择，那么这就有可能系统地扭曲词汇结果，但我们尽最大努力非常谨慎地遵循上面的指导方针。

你可能会问，真的有必要排除这么多的单词吗？难道不应该是知道“unhappy”就是知道这个词吗？关于这个问题，我们有了最后的区分方式：接受性词汇（我们理解但不能使用的单词)和生产性词汇(我们在说话和写作中使用的单词）。

我们的接受性词汇远远大于我们的生产性词汇。在许多方面，接受性词汇是我们生产性词汇的“数倍”，能让我们根据我们已经知道的单词来识别更多的单词。然而，如果我们简单地选用所有我们能理解的单词，我们就可能会遇到一个根本就没听过西班牙语单词的英语使用者，来去测试他“知道”的也许成千上万的西班牙语单词！

我们别无选择，只能测试接受性词汇，因为测试生产性词汇更加困难和耗时。但为了测出真正有意义的词汇量，我们决定通过尽可能地排除“可推断含义”的单词，来以一种更接近生产性词汇的方式来测试接受性词汇。当然，我们的频率排名本身就包括了大量可简化的单词。所以我们认为，如果你知道不可推断含义的词，那么近似的你也知道可推断含义的词。但如果你只知道可推断的词汇，那么你还没有真正“达到”那个词汇水平，所以它们不算在内。

还有许多其他的方法来计算词汇量，它们都有不同的可靠性、不同的时间消耗和精力消耗，以及根据最终目标而具有的不同程度的适当性。我们相信，我们已经找到了一个既快速又有意义的很好的“折中”测试。但最重要的是，无论我们做出什么选择，都不应该影响我们研究的比较目标——比较不同年龄和教育水平的语言习得水平，比较母语学习者和外语学习者。制作一个有趣的工具来向人们展示他们（语言上）多么聪明！

误差的幅度是多少？

简短的回答：±10%。

换句话说，2万的估算意味着你真正的真实词汇量在18000到22000之间。

还需要注意的是，所有超过10000的估算都四舍五入到最近的百位数，300-9999的估计都四舍五入到最近的十位数。

长答案：为了计算误差范围，我们将词汇量大小视为正在采样的“平均值”，其中排名低于估计词汇量大小的未知单词被视为样本点，以及排名超过词汇量大小的已知单词也被视为样本点。假设这些样本点有一个正态分布（它们大致是这样的），标准偏差几乎正好是词汇量的0.25倍，平均为22.5个样本。应用标准误差的公式，s/sqrt(n)，可得到0.0527。计算传统的95%的置信度度量需要乘以1.96，导致总误差边际为±10.33%。

我们的调查目前在第二阶段测试了120个单词（包括在同一测试间隔内出现的第一阶段的单词）。相比之下，将误差幅度缩小到5%需要额外的380个词，而实现1%的误差幅度总共需要12,000个单词。

随着我们的调查参与程度的增加，我们将改进我们的误差计算，特别是当我们确定标准偏差和样本量随着词汇量的增加而增加或缩小，以及我们考虑样本点在多大程度上遵循正态分布时。