这是一个字符串的全角和半角的问题,可以导入?unicodedata?中的?normalize?函数先把全角转换为半角,然后再用?set?对列表去重,参考代码如下:
from?unicodedata?import?normalize
输出:
{'硬菜',?'热菜',?'凉菜'}
扩展:
"?NFKC"代表"Normalization?Form?KC?[Compatibility?Decomposition,?followed?by?Canonical?Composition]",并将全角字符替换为半角字符,这些半角字符与Unicode等价.
dd=datetime.datetime.strptime(date,'%a,?%d?%b?%Y?%H:%M:%S?%z')
dd.strftime('%Y-%m-%d?%H:%M:%S')
Python格式化日期时间的函数为datetime.datetime.strftime();由字符串转为日期型的函数为:datetime.datetime.strptime(),两个函数都涉及日期时间的格式化字符串,列举如下:
%a?Abbreviated?weekday?name?
%A?Full?weekday?name?
%b?Abbreviated?month?name?
%B?Full?month?name?
%c?Date?and?time?representation?appropriate?for?locale?
%x?Date?representation?for?current?locale?
%X?Time?representation?for?current?locale?
%Y?Year?with?century,?as?decimal?number?
%z,?%Z?Time-zone?name?or?abbreviation;?no?characters?if?time?zone?is?unknown?
%%?Percent?sign
①.、运用新建字典的方式,去除重复的键
主讲 刘培富
地点 四楼电教室
数据清洗是数据治理的关键环节,是指对获取的原始数据(也称"脏数据")进行审查、校验、加工的过程,目的在于删除重复信息、纠正错误信息,保持数据一致性.
一般来说,数据清洗,主要是对数据进行去错、去空、去重处理.
针对一张包含姓名、身份证号码、车牌号码的数据表,建立纠错规则如下:
①车牌号既不包含汉字赣,且不包含汉字饶.
第二段:去空
对于关键性数据,不允许为空,对于这类数据,要查询是否存在空值.
第三段:去重
在一张表中,有的数据列允许重复,有的数据列则不允许重复.例如,对于一张车主信息表来说,姓名、身份证号可以重复,因为存在一人登记多辆车的情形,这种重复,不能认为是错误.但是,车牌号则不允许重复,否则就存在业务逻辑的错误.所以,针对车牌号数据列,要进行去重.
通过以下SQL语句,可以列出重复的数据:
综上,数据清洗,既要懂技术,更要懂业务,否则无法正确制定清洗规则,导致数据清洗流于形式,达不到清洗的效果.
以上就是土嘎嘎小编为大家整理的python日期去重函数相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦!!