该项目通过python脚本从巨潮网络的服务器获取中国股市公告(上市公司和监管机构),公告信息存入数据库,公告文件下载到本地。
中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。
这是最全的中华古典文集数据库,包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近 1.4 万古诗人,和两宋时期 1.5 千古词人。数据来源于互联网。
这是首个中文阅读理解数据集,包括人民日报和儿童童话(PD&CFT)。
THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。
NLPIR实验室定位为世界一流的多语种认知智能创新中心,服务于国家安全治理、行业大数据挖掘与个人智能服务。
Open Data Stack Exchange是是一个面向对开放数据感兴趣的开发人员和研究人员的问答网站。
SuperDataScience是关于数据科学和人工智能的图书馆,包含56门课程。
加州大学尔湾分校化学信息学数据集
WOLFRAM DATA REPOSITORY是一个公共资源,它承载着一个不断扩展的可计算数据集集合,经过策划和结构化,适合立即用于计算、可视化、分析等。
Bigml提供适合机器学习的公共数据源。
OPEN DATA NETWORK发布并共享数据,查找并构建数据以及回答问题。
Data Is Plural — Structured Archive电子表格跟踪了每周通讯《Data Is Plural》上发布的项目。
DATAJOBS网站的Big Data Knowledge Repo栏目提供数据科学家/分析专家的核心知识资源。
Internet World Stats提供全球的互联网使用情况及人口统计。
Commodity解释什么是商品,它们是如何交易的,以及什么驱动价格。
Bloomberg创建于1981年,是全球商业、金融信息和新闻资讯提供商,通过其强大的集信息、人物及观点为一体的动态网络为全球决策者带来关键优势。 彭博精于以创新的技术来快速、精准地传递数据、新闻和分析。