1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
import
os
import
sys
import
signal
def
waitpid
(
)
:
(
pid
,
status
)
=
os
.
waitpid
(
-
1
,
os
.
WUNTRACED
|
os
.
WCONTINUED
)
if
os
.
WIFSTOPPED
(
status
)
:
s
=
"stopped sig=%i"
%
os
.
WSTOPSIG
(
status
)
elif
os
.
WIFCONTINUED
(
status
)
:
s
=
"continued"
elif
os
.
WIFSIGNALED
(
status
)
:
s
=
"exited signal=%i"
%
os
.
WTERMSIG
(
status
)
elif
os
.
WIFEXITED
(
status
)
:
s
=
"exited status=%i"
%
os
.
WEXITSTATUS
(
status
)
print
"waitpid received: pid=%i %s"
%
(
pid
,
s
)
childpid
=
os
.
fork
(
)
if
childpid
==
0
:
# Child
os
.
kill
(
os
.
getpid
(
)
,
signal
.
SIGSTOP
)
sys
.
exit
(
)
waitpid
(
)
os
.
kill
(
childpid
,
signal
.
SIGCONT
)
waitpid
(
)
waitpid
(
)
$ python parent.py
waitpid received: pid=16935 stopped sig=19
waitpid received: pid=16935 continued
waitpid received: pid=16935 exited status=0
这段代码执行的流程如下:
子进程在退出之后,保存进程状态的一些信息并不会立即销毁,因为这样的话,父进程就无法获得这些信息了。它们等待父进程调用
wait()
来读出来后,才会真正销毁。
这种已经退出,但是 state change 并没有被父进程读到的进程,叫做讲僵尸进程(Zombies)。父进程创建了子进程,就需要对子进程负责,在子进程退出之后,去调用
wait()
来 clear 这些子进程状态,即使父进程并不关心这些状态是什么。不然的话,这些子进程的状态将一直存在,占用资源(虽然很少),成为 ghosts,这些 ghosts 的 parent 也成为了不负责任的父母。
通常,我们可以安装一个 signal handler 来
wait()
这些子进程。需要注意的是,发给父进程的 SIGCHLD 可能被合并,比如有 3 个子进程退出了,但是父进程实际上只会收到一次 SIGCHLD。所以我们在
wait()
的时候要注意使用一个循环。
如果一个进程创建了子进程,但是在子进程之前就退出了呢?这样子进程就没有父进程来调用
wait()
了。
当一个进程结束的时候,kernel 会遍历它的子进程,将这些父进程已经死掉的进程,分配给 init 进程(即 pid 是1的进程)作为它们的父进程。这就保证了系统中每一个进程,都有一个直接的父进程。init 进程会定期去
wait()
它所有的子进程。
进程的状态
上面我们已经提到了一些进程的状态:Zombies,Runing,Stopped。
这里重点解释一下几种状态:
R – runnable,处于这个状态的进程是可以执行的,会被 kernel 放到一个待执行的 queue 中,分配时间片去执行。我们无法控制进程的运行,runnable 的进程由 kernel 的 scheduler 来决定什么时候运行,运行多长时间;
D – 不可中断的 sleep(一般是IO);
S – 可中断的 sleep;
Z – 进程已死,或者失去响应,死透了;
T – 进程以暂停(是可以恢复的,还没死透);
这里面其他状态都比较好理解,D 和 S 有点模糊。
代码在执行的时候,会
在 user space 和 kernel space 之间切换
。当执行 syscall 的时候,代码的执行从用户空间切换到内核空间。当在等待 system call 的时候,进程处于 S 状态或者 D 状态。S 状态比如
read()
,这时收到像 SIGTERM 这样的信号,进程就会提前结束 syscall,返回用户空间,执行 signal hanlder 的代码;如果是处于 D 状态,进程就是不
可 kill 的
。
T 状态是可以恢复的暂停。比如我们给进程发送 SIGSTOP 或者按 CTRL+Z,就可以将进程置为暂停状态,可以通过 bg/fg 命令,或者发送 SIGCONT 信号恢复。
下面开启了一个 sleep 命令,然后用 CTRL+Z 暂停它,再用 fg 重新开启。展示了 S -> T -> S 的状态转换:
[1]+ Stopped sleep 100
[root@trial1 vagrant]# ps -o pid,state,command -p7144
PID S COMMAND
7144 T sleep 100
[root@trial1 vagrant]# fg %1
sleep 100
[vagrant@trial1 ~]$ ps -o pid,state,command -p7144
PID S COMMAND
7144 S sleep 100
[
root
@
trial1
vagrant
]
# sleep 100
^
Z
[
1
]
+
Stopped
sleep
100
[
root
@
trial1
vagrant
]
# ps -o pid,state,command -p7144
PID
S
COMMAND
7144
T
sleep
100
[
root
@
trial1
vagrant
]
# fg %1
sleep
100
[
vagrant
@
trial1
~
]
$
ps
-
o
pid
,
state
,
command
-
p7144
PID
S
COMMAND
7144
S
sleep
100
SIGCONT: 进程继续执行;
SIGSTOP: 进程暂停,和上面的 SIGCONT 是一对;
SIGTERM: 指示进程结束,这个信号可以被捕捉或者忽略,允许进程收到这个信号之后 gracefully exit;
SIGKILL: 立即结束进程,收到这个信号的进程无法忽略这个信号,必须退出。但是 init 除外,init 不接受 SIGKILL;
SIGINT: 从终端(用 CTRL+C)发出的终端信号。在一些 REPL 中会介绍当前的命令,也有些进程的表现是直接退出;
信号本质上是一中进程间通讯方式(
IPC
),
Signal wiki
。
以上就是基本的进程知识了,本文所有的参考资料已经在文中链接。这是我最近读
Linux System Programming
的笔记,如有理解错误,请指出。接下来还会分享一些有关 Linux 的文章。