linux io指的是什么

linux io指的是一种文件操作；在Linux中，文件就是一串二进制流，那么在信息的交换过程中，我们都是对这些流进行数据收发操作，这些操作简称为I/O操作；由于Linux使用的是虚拟内存机制，所以必须通过系统调用请求内核来完成IO动作。

本教程操作环境：linux5.9.8系统、Dell G3电脑。

linux io指的是什么？

我们都知道在Linux的世界，一切皆文件。

而文件就是一串二进制流，不管Socket、FIFO、管道还是终端，对我们来说，一切都是流。

在信息的交换过程中，我们都是对这些流进行数据收发操作，简称为I/O操作。
往流中读取数据，系统调用Read，写入数据，系统调用Write。

通常用户进程的一个完整的IO分为两个阶段：

磁盘IO：

网络IO：

操作系统和驱动程序运行在内核空间，应用程序运行在用户空间，两者不能使用指针传递数据，因为Linux使用的虚拟内存机制，必须通过系统调用请求内核来完成IO动作。

IO有内存IO、网络IO和磁盘IO三种，通常我们说的IO指的是后两者！

为什么需要IO模型

如果使用同步的方式来通信的话，所有的操作都在一个线程内顺序执行完成，这么做缺点是很明显的：

因为同步的通信操作会阻塞同一个线程的其他任何操作，只有这个操作完成了之后，后续的操作才可以完成，所以出现了同步阻塞+多线程（每个Socket都创建一个线程对应），但是系统内线程数量是有限制的，同时线程切换很浪费时间，适合Socket少的情况。

因该需要出现IO模型。

Linux的IO模型

在描述Linux IO模型之前，我们先来了解一下Linux系统数据读取的过程：

以用户请求index.html文件为例子说明

基本概念

用户空间和内核空间

操作系统的核心是内核，独立于普通的应用程序，可以访问受保护的内存空间，也有访问底层硬件设备的所有权限。

为了保证内核的安全，用户进程不能直接操作内核，操作系统将虚拟空间划分为两部分，一部分为内核空间，一部分为用户空间。

进程切换

为了控制进程的执行，内核必须有能力挂起正在CPU上运行的进程，并恢复以前挂起的某个进程的执行。

这种行为被称为进程切换。

因此可以说，任何进程都是在操作系统内核的支持下运行的，是与内核紧密相关的。

进程的阻塞

正在执行的进程，由于期待的某些事件未发生，如请求系统资源失败、等待某种操作的完成、新数据尚未到达或无新工作做等，则由系统自动执行阻塞原语(Block)，使自己由运行状态变为阻塞状态。

可见，进程的阻塞是进程自身的一种主动行为，也因此只有处于运行态的进程（获得CPU），才可能将其转为阻塞状态。

当进程进入阻塞状态，是不占用CPU资源的。

文件描述符

文件描述符（File Descriptor）是计算机科学中的一个术语，是一个用于表述指向文件的引用的抽象化概念。

文件描述符在形式上是一个非负整数，实际上，它是一个索引值，指向内核为每一个进程所维护的该进程打开文件的记录表。

当程序打开一个现有文件或者创建一个新文件时，内核向进程返回一个文件描述符。

缓存IO

大多数文件系统的默认 IO 操作都是缓存 IO。

其读写过程如下：

读操作：操作系统检查内核的缓冲区有没有需要的数据，如果已经缓存了，那么就直接从缓存中返回；否则从磁盘、网卡等中读取，然后缓存在操作系统的缓存中；
写操作：将数据从用户空间复制到内核空间的缓存中。这时对用户程序来说写操作就已经完成，至于什么时候再写到磁盘、网卡等中由操作系统决定，除非显示地调用了 sync 同步命令。

假设内核空间缓存无需要的数据，用户进程从磁盘或网络读数据分两个阶段：

阶段一： 内核程序从磁盘、网卡等读取数据到内核空间缓存区；
阶段二： 用户程序从内核空间缓存拷贝数据到用户空间。

缓存 IO 的缺点：

数据在传输过程中需要在应用程序地址空间和内核空间进行多次数据拷贝操作，这些数据拷贝操作所带来的CPU以及内存开销非常大。

同步阻塞

用户空间的应用程序执行一个系统调用，这会导致应用程序阻塞，什么也不干，直到数据准备好，并且将数据从内核复制到用户进程，最后进程再处理数据，在等待数据到处理数据的两个阶段，整个进程都被阻塞，不能处理别的网络IO。

调用应用程序处于一种不再消费 CPU 而只是简单等待响应的状态，因此从处理的角度来看，这是非常有效的。

这也是最简单的IO模型，在通常FD较少、就绪很快的情况下使用是没有问题的。

同步非阻塞

非阻塞的系统调用调用之后，进程并没有被阻塞，内核马上返回给进程，如果数据还没准备好，此时会返回一个error。

进程在返回之后，可以干点别的事情，然后再发起系统调用。
重复上面的过程，循环往复的进行系统调用。这个过程通常被称之为轮询。
轮询检查内核数据，直到数据准备好，再拷贝数据到进程，进行数据处理。
需要注意，拷贝数据整个过程，进程仍然是属于阻塞的状态。
这种方式在编程中对Socket设置O_NONBLOCK即可。

IO多路复用

IO多路复用，这是一种进程预先告知内核的能力，让内核发现进程指定的一个或多个IO条件就绪了，就通知进程。

使得一个进程能在一连串的事件上等待。

IO复用的实现方式目前主要有Select、Poll和Epoll。

伪代码描述IO多路复用：

while(status == OK) { // 不断轮询 ready_fd_list = io_wait(fd_list); //内核缓冲区是否有准备好的数据 for(fd in ready_fd_list) {  data = read(fd) // 有准备好的数据读取到用户缓冲区  process(data) }}

登录后复制