Python基础语法 | zdaiot

import sys
 
sys.stdout.write("Stdout1")
sys.stderr.write("Stderr1")
sys.stdout.write("Stdout2")
sys.stderr.write("Stderr2")

1	Stdout1Stderr1Stdout2Stderr2

1	Stderr1Stderr2Stdout1Stdout2

1	Stdout1Stderr1Stdout2Stderr2

>>> '\u4e2d\u6587'
'中文'
# 1个汉字用unicode表示，是2个byte，这里\u4e2d是十六进制的写法。4e是0100 1110，2d是0010 1101，合起来16位2bytes。

# encode默认参数是'utf-8'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '\u4e2d\u6587'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'

# '\u4e2d'是unicode表示的字符，unicode只是表示它的一个形式，但本质上被表示的对象还是字符，是str而不是bytes

>>> ('\u0041').encode('ascii')
b'A'
>>> 'A'.encode('ascii')
b'A'
>>> 'A'.encode('utf-8')
b'A'
>>> '中文'.encode('gb2312')
b'\xd6\xd0\xce\xc4'

# 错误的方式
>>> '中文'.encode('ascii')
---------------------------------------------------------------------------
UnicodeEncodeError                        Traceback (most recent call last)
<ipython-input-19-76f41cd8dafa> in <module>
----> 1 '中文'.encode('ascii')

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

# 错误的方式
>>> '中文'.encode('unicode')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
LookupError: unknown encoding: unicode

>>> "abc".encode('utf-8')
b'abc'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
# 1个汉字，按utf-8编码，一般是3个bytes，\xe4是十六进制表示的1个byte。

>>> 'A'.encode('ascii')
b'A'
# 注意区分b'A'和'A'，虽然编码后看到的结果是b'A'，但这个结果跟'A'没有关系。
# 这个结果b'A'就是一串0101，具体说就是0100 0001这样一个1个byte，是表示'A'还是其他符号，要看解编码形式。
# b'A'已经是内存里的形式，占1个byte；而'A'，由于我们说python 3在内存里是按unicode形式表示字符，所以占的是2个byte。

1 2	>>>'abc'.encode('ascii').decode('utf-8') 'abc'

1 2	>>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore') '中'

 ord('A')
65
ord('中')
20013
chr(66)
'B'
chr(25991)
'文'

>>> len('中文')
2
# len(str)统计字符数

>>> byte1 = '中文'.encode('gb2312')
>>> byte2 = '中文'.encode('utf-8')
>>> byte1
b'\xd6\xd0\xce\xc4'
>>> byte2
b'\xe4\xb8\xad\xe6\x96\x87'
>>> len(byte1)
4
>>> len(byte2)
6
# len(bytes)统计bytes数。

import




    
 chardet

raw = u'我是一只小小鸟'
print(chardet.detect(raw.encode('utf-8')))
print(chardet.detect(raw.encode('gbk')))

1 2	{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''} {'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

s = '\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c'
s = s.encode('unicode_escape')

# 得到bytes类型数据（单斜杠变成双斜杠）
b'\\xe4\\xbd\\xa0\\xe5\\xa5\\xbd\\xe4\\xb8\\x96\\xe7\\x95\\x8c'

# bytes to string
s.decode('utf-8')

ss = s.decode('utf-8').replace('\\x', '%')
# 替换作用就是将字符串改为url的utf-8编码格式
%e4%bd%a0%e5%a5%bd%e4%b8%96%e7%95%8c

1
2
3

import urllib.parse
un = urllib.parse.unquote(ss)
# 你好世界

s = '\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c'

s.encode('raw_unicode_escape')
# b'\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c'

s.encode('raw_unicode_escape').decode()
# '你好世界'

In [63]: s = '\u5403\u9e21\u6218\u573a'

In [64]: s
Out[64]: '吃鸡战场'

In [74]: a = '\u5403\u9e21\u6218\u573a'

In [75]: a
Out[75]: '吃鸡战场'

In [76]: b = a.encode('unicode-escape')

In [77]: b
Out[77]: b'\\u5403\\u9e21\\u6218\\u573a'

In [78]: c = b.decode('utf-8')

In [79]: c
Out[79]: '\\u5403\\u9e21\\u6218\\u573a'

In [80]: c.encode()
Out[80]: b'\\u5403\\u9e21\\u6218\\u573a'

In [81]: c.encode().decode('unicode-escape')
Out[81]: '吃鸡战场'

In [82]: b.decode('unicode-escape')
Out[82]: '吃鸡战场'

In [95]: c.encode() == b
Out[95]: True

In [103]: b'\u5403\u9e21\u6218\u573a'
Out[103]: b'\\u5403\\u9e21\\u6218\\u573a'