Pandas学习笔记

发布日期: 2020-06-18

更新日期: 2020-06-19

文章字数: 518

阅读时长: 2 分

阅读次数:

[TOC]

Pandas方法

使用pandas首先要导入pandas包。

import pandas as pd  //标准的导入pandas的代码

读入csv文件

trainData = pd.read_csv("./Data/train.csv") //
./Data/   表示路径，train表示文件名

标题获取文件中的前5行数据

trainData.head() //
.head()是pandas中的一个方法，可以获取文件中的前5行数据

在这里插入图片描述

info() 迅速获取数据描述

trainData.info()  // 方法就不具体介绍了   下面给出运行结果

//////////////    运行结果
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 10 columns):
Pclass      891 non-null int64
Name        891 non-null object
Sex         891 non-null object
Age         714 non-null float64
SibSp       891 non-null int64
Parch       891 non-null int64
Ticket      891 non-null object
Fare        891 non-null float64
Cabin       204 non-null object
Embarked    889 non-null object
dtypes: float64(2), int64(3), object(5)
memory usage: 69.7+ KB

在这里插入图片描述

.drop( , , )

#删除name
allData.drop("Name",axis=1,inplace=True)  //
第一个参数为要删除的内容，第二第三个参数的形式固定

替换文件中的内容

#可以考虑替换为出现的次数
allData['SibSp'].value_counts()   // 
替换SibSp中缺失的数据为出现的次数

///////////////运行结果
0    891
1    319
2     42
4     22
3     20
8      9
5      6
Name: SibSp, dtype: int64

合并两个文件中的内容

allData = pd.concat([trainData,testData],axis=0,ignore_index=True)  
//第一个参数为两个文件名，第二第三个参数格式相同

pd.set_option() 设置指定的值

pd.setoption('max_rows',7)  //////设置最大的行数

value_counts() 获取每个值出现的次数

trainData['Pclass'].value_counts()

fillna() 用指定方法填充

age = trainData['Age']
age = age.fillna(0)   ////将年龄用0来填充

客串seaborn中的一个方法 distplot(age) 画出age的树状图

sns.distplot(age)

在这里插入图片描述

describe() 简要显示数据的数字特征

allData['Fare'].describe()

在这里插入图片描述

### ~corr() 计算相关系数

method：可选{‘pearson’, ‘kendall’, ‘spearman’}
- pearson: standard correlation coefficient
- kendall: Kendall Tau correlation coefficient
- spearman: Spearman rank correlation
min_periods： Minimum number of observations required per pair of columns to have a valid result. Currently only available for pearson and spearman correlation

# 计算标准相关系数
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

#输出：
# median_house_value    1.000000
# median_income         0.687160
# total_rooms           0.135097
# housing_median_age    0.114110
# households            0.064506
# total_bedrooms        0.047689
# population           -0.026920
# longitude            -0.047432
# latitude             -0.142724
# Name: median_house_value, dtype: float64