业界动态
语料库是个什么东东
2024-11-07 23:18
语料库,就是把平常说话的句子以及一些文学作品、报刊杂志和学术文章上出现过的语句段落等等语言材料整理在一起,形成一个集合,以便做科学研究的时候能够从中取材或者得到数据佐证。
我们写文章用词搭配时,就可以通过在语料库中搜索来查看这个词出现的频率及用法搭配等等。
(相关阅读:一句歧义将他送上绞架,为他平反的是个语言学家)
1
语料库(corpus):存放语言材料的仓库。
现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本的汇集。
三点基本认识:
A.必须是实际使用中真实出现过的语言材料;
B.须以计算机为必要载体;
C.材料分析加工后才有用。
2
语料库及其分类
3
公共语料库检索
4
1.我国21个知名语料库
01.中央研究院近代汉语标记语料:http://www.sinica.edu.tw/Early_Mandarin/
02.中央研究院汉籍电子文献:http://www.sinica.edu.tw/ftms-bin/ftmsw3
03.国家现代汉语语料库:http://124.207.106.21:8080/
04.国家语委现代汉语语料库:http://www.clr.org.cn/retrieval/index.html
05.树图数据库:http://treebank.sinica.edu.tw/
06.语料库语言学在线:corpus4u.org
07.北京大学CCL语料库:http://ccl.pku.edu.cn/Yuliao_Contents.Asp
08.北京大学《人民日报》标注语料库:http://www.icl.pku.edu.cn
09.北京语言大学的语料库:http://www.blcu.edu.cn/kych/H.htm
10.清华大学TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm
11.山西大学语料库:http://www.sxu.edu.cn/homepage/cslab/sxuc1.htm
12.台湾南岛语典藏:http://www.ling.sinica.edu.tw/Formosan/ 
13.闽南语典藏:http://southernmin.sinica.edu.tw/
14.香港城市大学LIVAC共时语料库:http://www.livac.org/search.php
15.浙江师范大学的历史文献语库:http://lib.zjnu.net.cn/xueke/hyywzx/xkjj.htm
16.中科院计算所语料库:http://mtgroup.ict.ac.cn/corpus/query_process.php
17.中文语言资源联盟:http://www.chineseldc.org/xyzy.htm
18.SKETCHENGINE多语言语料库:www.sketchengine.co.uk
19.LIVAC共时语料库:http://www.livac.org/
20.红楼梦汉英平行语料库:http://corpus.usx.edu.cn/hongloumeng/
21.北京语言大学BCC语料库:http://bcc.blcu.edu.cn/
2.国外18个知名英语语料库
01.国际英语语料库(ICE):http://www.ucl.ac.uk/english-usage/ice/htm
02.美国国家语料库(ANC):http://www.anc.org/
03.美国当代英语语料库(COCA):http://www.americancorpus.org/
04.美国近当代英语语料库(COHA):http://corpus.byu.edu/coha/
05.英国国家语料库(BNC):http://corpus.byu.edu/bnc/
06.柯林斯英语语料库(BOE):http://www.collinslanguage.com/wordbanks/
07.英国英语语料库(SEU):http://www.ucl.ac.uk/english-usage/
08.澳大利亚英语语料库(ACE):http://khnt.hit.uib.no/icame/manuals/
09.新规范语料库(NMC):http://www.sketchengine.co.uk/
10.LLC口语语料库:http://khnt.hit.uib.no/icame/manuals/
11.COBUILD语料库:http://www.collins.co.uk/Corpus/CorpusSearch.aspx
12.ICE东非等分库:http://www.ucl.ac.uk/english-usage/ice/avail.htm
13.ARCHER语料库:http://www.cal.nau.edu/english/degree_programs.asp
14.CEECS语料库:http://www.eng.helsinki.fi/varieng/main/corporal.htm
15.SCTS语料库:http://www.scottishcorpus.ac.uk/
16.VOICE语料库:http://www.univie.ac.at/Anglistik/voice/
17.ELFA语料库:http://www.uta.fi/laitokset/kielet/engf/research/elfa/
18.朗曼语料库:http://www.long-man.com/dictionaries/corpus/index.html
相关阅读
 一句歧义将他送上绞架,为他平反的是个语言学家
中文信息处理研究些啥?
程序员眼中的《全唐诗》,竟然是这样的……
举例说明语言学的交叉学科
AI阅卷翻车,人工和机器评分为何出入这么大?
语言学应该脱离文学,成为一级学科
人机对话的构想,早在计算机出现之前
都有AI了,还有必要学语言学吗?
中文语言学方向及学校
查看更多,请点击主页菜单“语言学→语言学杂文汇总”或点击阅读原文

语料库是个什么东东

    以上就是本篇文章【语料库是个什么东东】的全部内容了,欢迎阅览 ! 文章地址:http://nhjcxspj.xhstdz.com/news/1612.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 物流园资讯移动站 http://yishengsujiao.xhstdz.com/ , 查看更多   
最新新闻
icp信息查询 icp信息查询系统
    域名信息DNICP(Domain Name Internet Content Provider)的目的就是为了防止在网上从事非法的网站经营活动&
bi数据分析工具
bi数据分析工具是一款非常专业的线上办公软件,这款软件可以帮助用户快速整理各种表格,直接生成柱状图,了解企业的各项经营情况
【“数智说”系列人物对话】上海市经信委钱晓:从“上海数字”到“数字上海”
为贯彻落实上海市委、市政府《关于全面推进上海城市数字化转型的意见》精神,推动“经济、生活、治理”全面数字化转型,引导全社
元宵祝福语简洁大气
在学习、工作乃至生活中,大家都有写祝福语的经历,对祝福语很是熟悉吧,祝福语是指对人们的美好祝福的语句。下面是小编整理的元
AI文档解析软件大PK:准确度、速度、多样性对比一览
作为一位热衷于科技的爱好者,我对AI文章信息提取技术怀抱极大兴趣并期待它带来的惊喜改进。在这次分享中,我会以谦虚但详尽的方
又一种农产品上热搜 看点居然是能“手撕”
新京报讯(记者 景啸尘)继春节前的“车厘子”上过热搜后,这两天又有一种农产品登上了微博和抖音热搜,就是咱们常见的凤梨,而
《天津市人民政府办公厅关于进一步加强征地管理工作的通知》政策解读
近日,市政府办公厅正式印发了《关于进一步加强征地管理工作的通知》(津政办发〔2022〕13号)(以下简称《通知》),有关政策解
2024年高考英语的热点词汇 - New quality productive forces(新质生产力)
高考英语阅读理解题占比30%,而且其他题项均涉及对阅读速度和理解质量的考查,可谓得阅读者,得150。大部分同学比较畏惧的就是Di
TikTok东南亚卖家宝典:《2024全球消费趋势白皮书》东南亚篇
TikTok官方发布《2024全球消费趋势白皮书》美区篇同时也推出了东南亚篇,《2024全球消费趋势白皮书》从赛道、渠道、价格、潮流、
AI大模型推理的详细过程和推理优化技术,以及代码实战样例
大家好,我是微学AI,今天给大家介绍一下AI大模型推理的详细过程和推理优化技术,以及代码实战样例,同
本企业新闻