Ex1:房屋信息数据集
现有一份房屋信息数据集如下:
In [114]: df = pd.read_excel('data/house_info.xls', usecols=[
.....: 'floor','year','area','price'])
.....:
In [115]: df.head(3)
Out[115]:
floor year area price
0 高层(共6层) 1986年建 58.23㎡ 155万
1 中层(共20层) 2020年建 88㎡ 155万
2 低层(共28层) 2010年建 89.33㎡ 365万
- 将
year
列改为整数年份存储。 - 将
floor
列替换为Level, Highest
两列,其中的元素分别为string
类型的层类别(高层、中层、低层)与整数类型的最高层数。 - 计算房屋每平米的均价
avg_price
,以***元/平米
的格式存储到表中,其中***
为整数。
Ex2:《权力的游戏》剧本数据集
现有一份权力的游戏剧本数据集如下:
In [116]: df = pd.read_csv('data/script.csv')
In [117]: df.head(3)
Out[117]:
Release Date Season Episode Episode Title Name Sentence
0 2011-04-17 Season 1 Episode 1 Winter is Coming waymar royce What do you expect? They're savages. One lot s...
1 2011-04-17 Season 1 Episode 1 Winter is Coming will I've never seen wildlings do a thing like this...
2 2011-04-17 Season 1 Episode 1 Winter is Coming waymar royce How close did you get?
- 计算每一个
Episode
的台词条数。 - 以空格为单词的分割符号,请求出单句台词平均单词量最多的前五个人。
- 若某人的台词中含有问号,那么下一个说台词的人即为回答者。若上一人台词中含有 nn 个问号,则认为回答者回答了 nn 个问题,请求出回答最多问题的前五个人。