Python: просмотр информации о датафрейме в pandas

Датафрейм, который возьмем за основу для просмотра данных о нем:

import pandas as pd

# опция, чтобы выровнять вывод print по ширине
pd.set_option('display.width', 55)

# датафрейм с 3 свойствами и 7 строками
df = pd.DataFrame({'A': [0,0,0,0,0,1,1],
                   'B': [1,2,3,4,5,6,7],
                   'C': [5,4,1,8,8,8,9]})

index — просмотр индексов датафрейма

Информацию об индексах легко посмотреть при помощи свойства index

print(df.index)

# ВЫВОД:
# RangeIndex(start=0, stop=7, step=1)

columns — просмотр колонок (свойств) датафрейма

При помощи свойства columns можно увидеть название колонок (свойств).

print(df.columns)

# ВЫВОД:
# Index(['A', 'B', 'C'], dtype='object')

dtypes — просмотр типов данных в датафрейме

Используя dtypes свойство, можно увидеть типы данных в разрезе колонок (свойств) датафрейма.

print(df.dtypes)

# ВЫВОД:
# A    int64
# B    int64
# C    int64
# dtype: object

info() — просмотр информации о датафреме

Метод info() показывает информацию о датафрейме, включая индексы для типов и свойств, а также не null значения и информацию о использовании памяти.

print(df.info())

# ВЫВОД:
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 7 entries, 0 to 6
# Data columns (total 3 columns):
#  #   Column  Non-Null Count  Dtype
# ---  ------  --------------  -----
#  0   A       7 non-null      int64
#  1   B       7 non-null      int64
#  2   C       7 non-null      int64
# dtypes: int64(3)
# memory usage: 296.0 bytes
# None

axes — просмотр информации о строках и колонках (свойствах)

print(df.axes)

# ВЫВОД:
# [RangeIndex(start=0, stop=7, step=1), Index(['A', 'B', 'C'], dtype='object')]

size — просмотр количества элементов в объекте

s = pd.Series({'a': 1, 'b': 2, 'c': 3})
print(s.size)   # ВЫВОД: 3

df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
print(df.size)  # ВЫВОД: 4

shape — проказывает размерность объекта

df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4], 'col3': [5, 6]})
df.shape  # ВЫВОД: (2, 3)

describe() — просмотр карты данных датафрейма

Информация о наборе данных можно получить при помощи функции describe(), на выходе вы получите количество данных (count), среднее значение (mean), стандартное отклонение (std), минимальное (min) и максимальное (max) значение, а также персентиль (25%, 50%, 75%).

# группируем по А и результат смотрим через describe
a_group_desc = df.groupby('A').describe()
print(a_group_desc)

# добавив к describe() функцию stack(), можно посмотреть данные в боллее компактном виде
a_group_desc = df.groupby('A').describe().stack()
print(a_group_desc)


# ВЫВОД:

#       B                                            \
#   count mean       std  min   25%  50%   75%  max   
# A                                                   
# 0   5.0  3.0  1.581139  1.0  2.00  3.0  4.00  5.0   
# 1   2.0  6.5  0.707107  6.0  6.25  6.5  6.75  7.0   

#       C                                            
#   count mean       std  min   25%  50%   75%  max  
# A                                                  
# 0   5.0  5.2  2.949576  1.0  4.00  5.0  8.00  8.0  
# 1   2.0  8.5  0.707107  8.0  8.25  8.5  8.75  9.0

Добавив к вызову describe() функцию stack(), можно посмотреть данные в более компактном виде df.groupby('A').describe().stack()