• 中国股市信息数据集

     该项目通过python脚本从巨潮网络的服务器获取中国股市公告(上市公司和监管机构),公告信息存入数据库,公告文件下载到本地。

  • 中文突发事件语料库

     中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。

  • 中国宗教在线用户关键词及用户关系

    【数据名称】 1. Keywords List; 2. Religion Network。【数据说明】Keywords List是中国宗教用户关键词列表 ,Religion Network是宗教用户构成的社交网络 。【使用说明】
  • 中文诗歌数据集

     这是最全的中华古典文集数据库,包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近 1.4 万古诗人,和两宋时期 1.5 千古词人。数据来源于互联网。

  • 中文阅读理解数据集

    这是首个中文阅读理解数据集,包括人民日报和儿童童话(PD&CFT)。

  • 清华大学开放中文词库THUOCL

     THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。

  • 中文文本分类数据集THUCNews

    THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

  • NLPIR自然语言处理与信息检索共享平台

    NLPIR实验室定位为世界一流的多语种认知智能创新中心,服务于国家安全治理、行业大数据挖掘与个人智能服务。

  • StackExchange

     Open Data Stack Exchange是是一个面向对开放数据感兴趣的开发人员和研究人员的问答网站。

  • SuperDataScience

     SuperDataScience是关于数据科学和人工智能的图书馆,包含56门课程。

  • ChemDB Chemoinformatics Portal

     加州大学尔湾分校化学信息学数据集

  • WOLFRAM

     WOLFRAM DATA REPOSITORY是一个公共资源,它承载着一个不断扩展的可计算数据集集合,经过策划和结构化,适合立即用于计算、可视化、分析等。

  • Bigml

     Bigml提供适合机器学习的公共数据源。

  • OPEN DATA NETWORK

    OPEN DATA NETWORK发布并共享数据,查找并构建数据以及回答问题。

  • Data Is Plural — Structured Archive

     Data Is Plural — Structured Archive电子表格跟踪了每周通讯《Data Is Plural》上发布的项目。

  • DATAJOBS

     DATAJOBS网站的Big Data Knowledge Repo栏目提供数据科学家/分析专家的核心知识资源。

  • Statcounter GlobalStats

    Statcounter GlobalStats提供浏览器使用率参考,统计数据是基于Statcounter收集的汇总数据,这些数据来自Statcounter网络中150多万个网站,样本每月超过50亿次页面浏览量。统计数据每天都在更新,但在发布后的45天内都要进行质量保证测试和修订。

  • Internet World Stats

     Internet World Stats提供全球的互联网使用情况及人口统计。

  • Commodity

    Commodity解释什么是商品,它们是如何交易的,以及什么驱动价格。

  • Bloomberg-stock

     Bloomberg创建于1981年,是全球商业、金融信息和新闻资讯提供商,通过其强大的集信息、人物及观点为一体的动态网络为全球决策者带来关键优势。 彭博精于以创新的技术来快速、精准地传递数据、新闻和分析。