61阅读

现代汉语频率词典-自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

发布时间:2017-12-04 所属栏目:心理学家

一 : 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

汉语词频表--根据《现代汉语频率词典》输入

数据摘要:

根据《现代汉语频率词典》输入的汉语使用频率统计数据。

中文关键词:

汉语,词频表,频率,词典,输入,

英文关键词:

Chinese,Frequency table,Frequency,Dictionary,Input,

数据格式:

TEXT

数据用途:

统计汉字使用频率,中文信息处理,汉字编码

数据详细介绍:

PlaceLab Couple Dataset

Overview of the PLCouple Dataset

This is about one month of all non-identifying data from a 2.5 month stay in the PlaceLab of a couple. We cannot provide audio and video because it could reveal the identity of the participants.

二 : 频率词典:频率词典-频率词典,频率词典-正文

一种按词出现频率的高低而编排的词典,具有概率统计意义。

现代汉语频率词典_频率词典 -频率词典

[www.61k.com)现代汉语频率词典_频率词典 -正文

按词出现频率的高低而编排的词典。
世界上第一部频率词典是1898年德国语言学家F.W.凯丁编的《德语频率词典》,这部词典统计了 110万个词的语言素材。20世纪初,美国教育学家兼心理学家E.L.桑代克(1874~1949)编写了《教师两万词词书》(192和《教师三万词词书》(1944)。他做了大量的英语词汇的频率统计工作。中国第一部汉语频率字典是教育家陈鹤琴 (1892~1982) 编写的《语体文应用字汇》(1928)。中华人民共和国建立前他在南京高等师范学校任教,与助理员用了两年时间,分析了55447八个字,得出426一个单字。这是一部汉语频率字典,而不是汉语频率词典。
频率词典按其内容可分为普通频率词典和专业性频率词典2大类。
普通频率词典可分为单语言频率词典和多语言频率词典。
单语言频率词典 分为:①语义频率词典:有英国学者M.韦斯特编写的《通用英语词表》(1953),收集了2000个最常用的英语词,对于每1个多义词,统计了它的每1个意义的频率。②成语频率词典:在桑代克的倡议下,美国外语教学委员会于20世纪二三十年代出版了一系列外语成语频率词典。例如,美国学者F.D.切伊德勒尔的《法语成语词表》(1929)和E.豪克的《德语成语词表》(193都以成语的中心词为词条,列出了各个成语的绝对频率和序号。③后缀频率词典:有桑代克的《英语后缀的教学》(194。他在每1个后缀的后面,注明由该后缀构成的词的数量,从而表示该后缀在英语中出现的频率。后缀频率词典不是针对单词而是针对语言的形态进行编写的,又可称为倒序频率词典,它对于了解各种语言形态在交际活动中的分布情况有很大作用,对于语法教学也很有用处,因此,倒序频率词典的编制很受语言学家的欢迎。④ 一般频率词典: 在每1个词后,注明其绝对频率、相对频率及序号,有的还注明该词在各种文件中的分布情况。
多语言频率词典 有美国学者 H.S.伊通的 《英语、法语、德语、西班牙语比较频率词表》(1940),这是一本多语言对照的频率词典,以各语言中最常用的1000个词为依据进行对照。由于各语言所选的样本及样本容量不同,因而各语言中词的频率的相对误差也各不相同。
专业性频率词典有苏联学者С.Д.别列斯涅夫等编的《德语畜牧学频率词典》(1968),他们从151000个词的语言素材中,统计出了2050个常用词。 苏联学者П.М.阿列克谢耶夫和Л.А.图里金娜合编的《英俄频率词典-最低限量的新闻词汇》从30万个词的语言素材中,统计出161十四个词(其中出现3次以上的有600两个),并从另外30万个词的语言素材中统计出 165十八个词组(其中出现3次以上的有196三个)。其他如电子学等专业也编制了专业性频率词典。
过去,编写频率词典主要靠手工查频。近年来,人们开始借助于计算机查频。对于一些形态变化丰富的语言,首先由计算机将文章中的每个词还原成它的原形(即频率词典中作词条列出的形式),并注出每个词详尽的形态变化,输入计算机储存,然后由计算机进行频率统计,打印出频率词典。例如,苏联拉脱维亚共和国科学院语言文学研究所数理语言学实验室就用计算机编写了《拉脱维亚语倒序频率词典》。北京航空学院计算机系用计算机对中国自1977~1982年汉字的使用频率进行了一项规模浩大的统计工作,他们从报纸、期刊、教材、专著和通俗读物等材料中,选出1240余万字,分社会科学五类、自然科学五类,用计算机进行处理,得出这些材料中共使用汉字896九个,并给出了这些汉字根据不同学科分类的二十六种使用频率表,这是目前统计规模最大的汉语频率字典。北京师范大学现代化教育技术研究所将24册现行中小学语文教材共106.8万字存入计算机,用动态方式生成了1个"汉语词汇信息库",并进行词频统计,由计算机编制出总词频表和分别按年代、教学阶段、作者以及文体进行统计的分布词频表。 北京语言学院语言教学研究所采用人工与计算机相结合的办法,对近200万字的汉语语料进行词频统计,编制了《现代汉语频率词典》,收词31159条,这是中国正式出版的第一部汉语频率词典。

现代汉语频率词典_频率词典 -配图

现代汉语频率词典_频率词典 -相关连接

三 : 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

汉语词频表--根据《现代汉语频率词典》输入

数据摘要:

根据《现代汉语频率词典》输入的汉语使用频率统计数据。[www.61k.com]

中文关键词:

汉语,词频表,频率,词典,输入,

英文关键词:

Chinese,Frequency table,Frequency,Dictionary,Input,

数据格式:

TEXT

数据用途:

统计汉字使用频率,中文信息处理,汉字编码

数据详细介绍:

PlaceLab Couple Dataset

Overview of the PLCouple Dataset

This is about one month of all non-identifying data from a 2.5 month stay in the PlaceLab of a couple. We cannot provide audio and video because it could reveal the identity of the participants.

现代汉语频率词典 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

Sensors included are all the standard PlaceLab wired sensors, described here:

S. S. Intille, K. Larson, E. Munguia Tapia, J. Beaudin, P. Kaushik, J. Nawyn, and R. Rockinson, "Using a live-in laboratory for ubiquitous computing research," in Proceedings of PERVASIVE 2006, vol. LNCS 3968, K. P. Fishkin, B. Schiele, P. Nixon, and A. Quigley, Eds. Berlin Heidelberg: Springer-Verlag, 2006, pp. 349-365.

The mobile stick-on object usage and accelerometer-based sensors are called MITes and are described in this publication:

E. Munguia Tapia, S. S. Intille, L. Lopez, and K. Larson, "The design of a portable kit of wireless sensors for naturalistic data collection," in Proceedings of PERVASIVE 2006, vol. LNCS 3968, K. P. Fishkin, B. Schiele, P. Nixon, and A. Quigley, Eds. Berlin Heidelberg: Springer-Verlag, 2006, pp. 117-134.

The infrared MITes were developed as part of this work at MERL:

C. R. Wren and E. Munguia-Tapia, "Toward Scalable Activity Recognition for Sensor Networks," in Proceedings of The Second International Workshop in Location and Context-Awareness (LoCA '06), vol. 3987 / 2006, M. Hazas, J. Krumm, and T. Strang, Eds. Dublin, Ireland: Springer Berlin / Heidelberg, 2006, pp. 168-185.

RFID tagging is provided using the Intel RFID glove, described in this publication:

Philipose, M., Smith, J.R., Jiang, B., Mamishev, A., Roy, S., Sundara-Rajan, K., "Battery-free wireless identification and sensing." IEEE Pervasive Computing 4(1), 37–45 (2005)

About 100 hours of the data are annotated. The annotation was done using custom annotation software called Handlense []. Only the activity of the male subject was annotated. This paper has details about how the 100 hours of annotation was done:

B. Logan, J. Healey, Matthai Philipose, E. Munguia Tapia, and S. Intille, "A

long-term evaluation of sensing modalities for activity recognition," in Proceedings of the International Conference on Ubiquitious Computing, vol. LNCS 4717. Berlin Heidelberg: Springer-Verlag, 2007, pp. 483–500.

Directory Structure

现代汉语频率词典 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

The data can be (temporarily) found here: . Look at the README

Other Helpful Information

See a short and an example to decode the data format.

Acknowledgements:

The collection of this particular dataset was funded by Microsoft Research and the MIT House_n Consortium.

数据预览:

现代汉语频率词典 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

现代汉语频率词典 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

现代汉语频率词典 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

现代汉语频率词典 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

现代汉语频率词典 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

现代汉语频率词典 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

现代汉语频率词典 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

现代汉语频率词典 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入

点此下载完整数据集

四 : 自然语言处理_汉语词频表--根据《现代汉语频率词典》输入91

汉语词频表--根据《现代汉语频率词典》输入

数据摘要:

根据《现代汉语频率词典》输入的汉语使用频率统计数据。

中文关键词:

汉语,词频表,频率,词典,输入,

英文关键词:

Chinese,Frequency table,Frequency,Dictionary,Input,

数据格式:

TEXT

数据用途:

统计汉字使用频率,中文信息处理,汉字编码

数据详细介绍:

PlaceLab Couple Dataset

Overview of the PLCouple Dataset

This is about one month of all non-identifying data from a 2.5 month stay in the PlaceLab of a couple. We cannot provide audio and video because it could reveal the identity of the participants.

Sensors included are all the standard PlaceLab wired sensors, described here:

S. S. Intille, K. Larson, E. Munguia Tapia, J. Beaudin, P. Kaushik, J. Nawyn, and R. Rockinson, "Using a live-in laboratory for ubiquitous computing research," in Proceedings of PERVASIVE 2006, vol. LNCS 3968, K. P. Fishkin, B. Schiele, P. Nixon, and A. Quigley, Eds. Berlin Heidelberg: Springer-Verlag, 2006, pp. 349-365.

The mobile stick-on object usage and accelerometer-based sensors are called MITes and are described in this publication:

E. Munguia Tapia, S. S. Intille, L. Lopez, and K. Larson, "The design of a portable kit of wireless sensors for naturalistic data collection," in Proceedings of PERVASIVE 2006, vol. LNCS 3968, K. P. Fishkin, B. Schiele, P. Nixon, and A. Quigley, Eds. Berlin Heidelberg: Springer-Verlag, 2006, pp. 117-134.

The infrared MITes were developed as part of this work at MERL:

C. R. Wren and E. Munguia-Tapia, "Toward Scalable Activity Recognition for Sensor Networks," in Proceedings of The Second International Workshop in Location and Context-Awareness (LoCA '06), vol. 3987 / 2006, M. Hazas, J. Krumm, and T. Strang, Eds. Dublin, Ireland: Springer Berlin / Heidelberg, 2006, pp. 168-185.

RFID tagging is provided using the Intel RFID glove, described in this publication:

Philipose, M., Smith, J.R., Jiang, B., Mamishev, A., Roy, S., Sundara-Rajan, K., "Battery-free wireless identification and sensing." IEEE Pervasive Computing 4(1), 37–45 (2005)

About 100 hours of the data are annotated. The annotation was done using custom annotation software called Handlense []. Only the activity of the male subject was annotated. This paper has details about how the 100 hours of annotation was done:

B. Logan, J. Healey, Matthai Philipose, E. Munguia Tapia, and S. Intille, "A

long-term evaluation of sensing modalities for activity recognition," in Proceedings of the International Conference on Ubiquitious Computing, vol. LNCS 4717. Berlin Heidelberg: Springer-Verlag, 2007, pp. 483–500.

Directory Structure

The data can be (temporarily) found here: . Look at the README

Other Helpful Information

See a short and an example to decode the data format.

Acknowledgements:

The collection of this particular dataset was funded by Microsoft Research and the MIT House_n Consortium.

数据预览:

点此下载完整数据集

本文标题:现代汉语频率词典-自然语言处理_汉语词频表--根据《现代汉语频率词典》输入
本文地址: http://www.61k.com/1070213.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1