Janet blog

横看成岭侧成峰,远近高低各不同。Be curious always!


  • 首页

  • 分类

  • 标签

  • 归档

  • 搜索

Apple Health数据解析

发表于 2019-03-16 | 分类于 工具案例 , R
字数统计: 2.5k | 阅读时长 ≈ 12
解析iPhone导出的Apple Health 数据,分析过往几年的运动轨迹。主要涉及XML包的使用、字段处理、画图、简单统计等。本文分成6个部分(数据处理、以日维度的步数等走势、以周维度的步数等走势、以月维度的步数等走势、标注重要事项、各个系统的时间间)。
阅读全文 »

Python画文字云图

发表于 2019-03-23 | 分类于 工具案例 , Python
字数统计: 696 | 阅读时长 ≈ 2
词云图,即文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现。在做文字云之前,需要对文字做分词处理,得到词语、频数等重要信息。本文分成两个部分介绍词云图(使用工具Python和R、推荐网页版文字云速成)。
阅读全文 »

第14章 数据分析案例

发表于 2019-01-21 | 分类于 工具案例 , Python
字数统计: 11.6k | 阅读时长 ≈ 56
正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。
阅读全文 »

第13章 Python建模库介绍

发表于 2019-01-20 | 分类于 工具案例 , Python
字数统计: 5.6k | 阅读时长 ≈ 26
本章中,会回顾一些pandas的特点,在你胶着于pandas数据规整和模型拟合和评分时,它们可能派上用场。然后我会简短介绍两个流行的建模工具,statsmodels和scikit-learn。这二者每个都值得再写一本书,我就不做全面的介绍,而是建议你学习两个项目的线上文档和其它基于Python的数据科学、统计和机器学习的书籍。
阅读全文 »

第12章 pandas高级应用

发表于 2019-01-19 | 分类于 工具案例 , Python
字数统计: 4.6k | 阅读时长 ≈ 21
深入学习pandas的高级功能。分类数据,group by 应用,链式编程技术(可初步理解成:R语言中的dplyr有异曲同工之妙用)
阅读全文 »

第11章 时间序列

发表于 2019-01-18 | 分类于 工具案例 , Python
字数统计: 13.4k | 阅读时长 ≈ 64
pandas也支持基于timedeltas的指数,它可以有效代表实验或经过的时间。这本书不涉及timedelta指数,但你可以学习pandas的文档(http://pandas.pydata.org/)。pandas提供了许多内置的时间序列处理工具和数据算法。因此,你可以高效处理非常大的时间序列,轻松地进行切片/切块、聚合、对定期/不定期的时间序列进行重采样等。有些工具特别适合金融和经济应用,你当然也可以用它们来分析服务器日志数据。
阅读全文 »

第10章 数据聚合与分组运算

发表于 2019-01-17 | 分类于 工具案例 , Python
字数统计: 9.5k | 阅读时长 ≈ 45
对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL(Structured Query Language,结构化查询语言)能够如此流行的原因之一就是其能够方便地对数据进行连接、过滤、转换和聚合。但是,像SQL这样的查询语言所能执行的分组运算的种类很有限。在本章中你将会看到,由于Python和pandas强大的表达能力,我们可以执行复杂得多的分组运算(利用任何可以接受pandas对象或NumPy数组的函数)。
阅读全文 »

第9章 绘图和可视化

发表于 2019-01-16 | 分类于 工具案例 , Python
字数统计: 6.9k | 阅读时长 ≈ 28
学习本章代码案例的最简单方法是在Jupyter notebook进行交互式绘图。matplotlib是一个用于创建出版质量图表的桌面绘图包(主要是2D方面)。该项目是由John Hunter于2002年启动的,其目的是为Python构建一个MATLAB式的绘图接口。matplotlib和IPython社区进行合作,简化了从IPython shell(包括现在的Jupyter notebook)进行交互式绘图。matplotlib支持各种操作系统上许多不同的GUI后端,而且还能将图片导出为各种常见的矢量(vector)和光栅(raster)图:PDF、SVG、JPG、PNG、BMP、GIF等。除了几张,本书中的大部分图都是用它生成的。
阅读全文 »

第8章 数据规整:聚合、合并和重塑

发表于 2019-01-15 | 分类于 工具案例 , Python
字数统计: 8k | 阅读时长 ≈ 39
首先,介绍pandas的层次化索引,它广泛用于以上操作。然后,深入介绍了一些特殊的数据操作。在第14章,可以看到这些工具的多种应用。
阅读全文 »

第7章 数据清洗和准备

发表于 2019-01-14 | 分类于 工具案例 , Python
字数统计: 8.2k | 阅读时长 ≈ 37
数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。本章主要讨论处理缺失数据、重复数据、字符串操作和其它分析数据转换的工具。下一章,关注于用多种方法合并、重塑数据集。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理。幸运的是,pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具,可以让你轻松地将数据规整为想要的格式。
阅读全文 »
12
Janet

Janet

数据分析,旅游攻略,心情随笔

20 日志
5 分类
9 标签
RSS
GitHub CSDN
Links
  • Next主题
© 2019 Janet | Site words total count: 145.6k
0%