Датафрейм, который возьмем за основу для просмотра данных о нем:
import pandas as pd # опция, чтобы выровнять вывод print по ширине pd.set_option('display.width', 55) # датафрейм с 3 свойствами и 7 строками df = pd.DataFrame({'A': [0,0,0,0,0,1,1], 'B': [1,2,3,4,5,6,7], 'C': [5,4,1,8,8,8,9]})
index — просмотр индексов датафрейма
Информацию об индексах легко посмотреть при помощи свойства index
print(df.index) # ВЫВОД: # RangeIndex(start=0, stop=7, step=1)
columns — просмотр колонок (свойств) датафрейма
При помощи свойства columns можно увидеть название колонок (свойств).
print(df.columns) # ВЫВОД: # Index(['A', 'B', 'C'], dtype='object')
dtypes — просмотр типов данных в датафрейме
Используя dtypes свойство, можно увидеть типы данных в разрезе колонок (свойств) датафрейма.
print(df.dtypes) # ВЫВОД: # A int64 # B int64 # C int64 # dtype: object
info() — просмотр информации о датафреме
Метод info() показывает информацию о датафрейме, включая индексы для типов и свойств, а также не null значения и информацию о использовании памяти.
print(df.info()) # ВЫВОД: # <class 'pandas.core.frame.DataFrame'> # RangeIndex: 7 entries, 0 to 6 # Data columns (total 3 columns): # # Column Non-Null Count Dtype # --- ------ -------------- ----- # 0 A 7 non-null int64 # 1 B 7 non-null int64 # 2 C 7 non-null int64 # dtypes: int64(3) # memory usage: 296.0 bytes # None
axes — просмотр информации о строках и колонках (свойствах)
print(df.axes) # ВЫВОД: # [RangeIndex(start=0, stop=7, step=1), Index(['A', 'B', 'C'], dtype='object')]
size — просмотр количества элементов в объекте
s = pd.Series({'a': 1, 'b': 2, 'c': 3}) print(s.size) # ВЫВОД: 3 df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]}) print(df.size) # ВЫВОД: 4
shape — проказывает размерность объекта
df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4], 'col3': [5, 6]}) df.shape # ВЫВОД: (2, 3)
describe() — просмотр карты данных датафрейма
Информация о наборе данных можно получить при помощи функции describe(), на выходе вы получите количество данных (count), среднее значение (mean), стандартное отклонение (std), минимальное (min) и максимальное (max) значение, а также персентиль (25%, 50%, 75%).
# группируем по А и результат смотрим через describe a_group_desc = df.groupby('A').describe() print(a_group_desc) # добавив к describe() функцию stack(), можно посмотреть данные в боллее компактном виде a_group_desc = df.groupby('A').describe().stack() print(a_group_desc) # ВЫВОД: # B \ # count mean std min 25% 50% 75% max # A # 0 5.0 3.0 1.581139 1.0 2.00 3.0 4.00 5.0 # 1 2.0 6.5 0.707107 6.0 6.25 6.5 6.75 7.0 # C # count mean std min 25% 50% 75% max # A # 0 5.0 5.2 2.949576 1.0 4.00 5.0 8.00 8.0 # 1 2.0 8.5 0.707107 8.0 8.25 8.5 8.75 9.0
Добавив к вызову describe() функцию stack(), можно посмотреть данные в более компактном виде
df.groupby('A').describe().stack()