日期:2014-11-14 14:05 点击:
一、第二册单词词频统计情况
第二册总共96课,每课都是1篇短文,每24课一个单元。第一单元每篇课文的篇幅大约是100个词,第二单元每篇课文大约是140个词,第三单元每篇课文大约是160个词,第四单元每篇课文大约是180个词。
小编把第二册的全部96篇课文汇集到一个文档里,包含每篇课文的标题,经ROST软件初次统计分析之后,结果是:单词总量为14535个,不同的单词数为2407个,去除22个停用单词(stopword,主要是指在搜索引擎中为了提高搜索速度、减轻网页空间压力而忽略的单词,这类词往往使用频率很高,去除之之后对于文档的意义和理解影响又不大)后不同的单词数为2385个;其中,缩略形式也忽略不计的,如can’t、He’s、You’ll、We’re等。
因为软件本身的局限性(比如不分大小写、不区分同一单词的不同形式等),这2385个单词其实还需要进一步的筛选。比如,这些词中有不少人名或机构名称,都可以忽略;还有一些单词,其实是同一单词的不同形式,软件把这些词都算作不同的单词。为此,小编又手工对这些单词进行了归并筛选,归并筛选的几条原则是:
1、人名、地名、机构名恢复首字母大写,并且归为一类;
2、同一动词的不同形式归并为一个单词,但会加备注,把该动词在第二册里出现的各种形式都罗列出来,如go、goes、went、going、gone;
3、名词的单数和复数形式都归并为一个单数形式;
4、如果几个词根相同但因为形式不同而词性或者意义不同的单词则保留其不同形式的单词,如amused(觉得好笑的)和amusing(令人发笑的);
5、形容词和副词的比较级和最高级都不做归并,算作不同的单词;
6、be动词的各种形式考虑到其用法差异和频率,也不做归并;
7、通过加-ly构成的副词,与其形容词形式算作一个单词,但如果加了-ly之后,意思发生改变的,则同时保留其形容词和副词形式,算作两个不同的单词,如simple(简单的)和simply(仅仅)。
按照以上原则,把这2385个单词进行归并筛选之后,单词总数为1962个,请看以下图表:
思源教育(原上海交大思源进修学院,简称思源教育)成立于1996年,自建校以来,秉承交大校训,依托名校师资,提供专业的托班辅导、青少年英语辅导、小学辅导、初中辅导、高中辅导、高考高复、三校生高复、艺考生文化课等,学生遍及全市各区,至今已帮助六万多余名学子取得优异成绩,成功考入理想的各级院校!20余年来思源已成为“中考教学研究中心”、“中学个性化学习教育基地”、“快速学习法”实验学校。