估计是继 Linux 后,目前影响最大的开源项目
💡 前提准备:K8s 学习前必须要先了解容器,参考 Docker/容器 101(2020.9 更新)
功能概述
同样先来道开胃菜:
Kubernetes 定义为容器编排引擎(orchestration),Kubernetes 对于容器,就相当于 Linux 内核对于线程,考虑到容器作为云基础设施上的基本运行单位,Kubernetes 就类似云上的操作系统内核,其作用包含:

集群架构

Kubernetes 的组件分成两组(control panel
& data panel
),通常相应运行在两种机器上(master node
& worker node
):
control panel:master node
master
控制节点负责管理集群,包含以下组件:
kube-apiserver
kube-controller-manager
kube-scheduler
etcd

kube-apiserver 提供了资源操作的唯一入口,并提供认证、授权、访问控制、API 注册和发现等机制,只有 API Server 会与 etcd 进行通信,其它模块都必须通过 API Server 访问集群状态。API Server 封装了核心资源对象的增删改查操作,以 RESTFul 接口方式提供给外部客户端和内部组件调用,API Server 再对相关的资源数据(全量查询 + 变化监听)进行操作,以达到实时完成相关的业务功能。
kube-controller-manager 负责维护各种资源对象,从现在状态(status)到用户想要的状态(spec),比如故障检测、自动扩展、滚动更新等,具体由各种 controller 负责执行:
📌 cloud-controller-manager 用于对接各种云基础设施(AWS,Azure,GCP 等)云厂商提供接口以便让 k8s 可以管理使用其各种资源
kube-scheduler 负责资源的调度,主要用于收集和分析当前 Kubernetes 集群中所有负载节点的资源 (包括内存、CPU 等) 负载情况,并按照预定的调度策略(例如:根据用户对资源要求,CPU、内存、来评估哪个 nodes 最合适运行)将 Pod 调度到相应的机器上。
etcd 保存了整个集群/资源的状态,是一个分布式 key-value 存储。
data panel:worker node
worker/slave
工作/负载节点运行具体的容器应用,执行并运行从 Master 传来的各种负载任务,包含以下组件:
Container Runtime
kubelet
kube-proxy

kubelet 相当于 Master 的 agent,负责和 Master 的通信,维持 Pod/容器的生命周期,同时确定其符合 YAML 所定义的 PodSpec,其中包括关于 Volume(CVI)和网络(CNI)的管理。
Container runtime 负责镜像管理以及 Pod 和容器的真正运行时(CRI),默认的容器运行时为 Docker。
kube-proxy 负责为 Service 提供内部的服务发现和负载均衡,把 request 转发到相关容器上;
此外还有非常重要的集群管理命令行客户端工具集 Kubectl
,通过 Kubectl 命令对 API Server 进行操作,API Server 响应并返回对应的命令结果,从而达到对 Kubernetes 集群的管理。
Kubernetes 还有一些安装扩展以达到真正可使用,包括网络 Calico/Flannel,CoreDNS,Dashboard 等,参考安装扩展 。
核心资源对象
和 OS 类似,Kubernetes 对底层静态和运行时的资源都进行了抽象,Kubernetes 的编排和管理功能就是通过对这些对象进行编排和管理(具体如何管理的底层原理这里不展开):
- workload:Pod、ReplicaSet、Deployment、StatefulSet、DaemonSet、Job、CronJob、等
- networking:Service、Ingress、等
- storage: Volume、CSI、ConfigMap、Secret、等
- RBAC:Namespace、None、Role、ClusterRole、RoleBinding、ClusterRoleBinding
- 元数据类型资源:HPA、PodTemplate、LimitRange
资源对象 workload
资源对象 networking
资源对象 storage
资源对象 RBAC
namespaces
为了管理好资源,可以把一个物理 Kubernetes 集群划分成几个虚拟的集群(namespace):
大部分资源对象都是具有 namespace 特性的,如果没有指定,默认的就是 default - 一个 namespace 里的资源和另一个 namespace 里的是不相关的/相互隔离,但有一些和 namespace 无关的资源 - 通常是和 cpu 算力或存储相关,如 Nodes,PersisentVolumes,它们可以通过 namespace 的 Quotas
来限定。
没有完美的方法来划分 namespace,可以根据需要和用途,如:
按项目或团队划分
按部署环境划分,如 dev,staging,prod
根据特殊要求划分,如 blue/green 部署
抽象层 | 现实层 | 使用 namespace | 资源描述 |
---|---|---|---|
Pod | container | Pod 是 k8s 最小的负载调度单元,等同一个或多个 container(但同属于一个 container namespace) | |
Replicaset | load balancing | 跟踪并保证指定 pod 的实例个数 | |
Deployment | - | 跟踪并保证指定 pod 和 replicaset 的配置 | |
StatefulSet | - | 加强版的 deployment,StatefulSet 是为了解决有状态服务的问题(对应 Deployments 和 ReplicaSets 是为无状态服务而设计),其应用场景包括: 1. 稳定的持久化存储,即 pod 重新调度后还是能访问到相同的持久化数据; 2. 稳定的网络标志,即 pod 重新调度后其 PodName 和 HostName 不变;3. 有序部署,有序扩展,即 pod 是有顺序的,在部署或者扩展的时候要依据定义的顺序依次依序进行(即从 0 到 N-1,在下一个 pod 运行之前所有之前的 pod 必须都是 Running 和 Ready 状态); 4. 有序收缩,有序删除(即从 N-1 到 0); | |
Node | host | 运行 pod 的虚机或物理机器 | |
Service | network | 一组相关 pods 的入口点 | |
Ingress | reverse proxy | ingress 负责把 service 暴露到 k8s 外部 | |
Cluster | datacenter | 一组相关 k8s 节点组成的集群,包括 master 控制节点和 worker 负载节点 | |
Namespace | - | - | 在一个 k8s 集群内划分的虚拟集群 |
StorageClass | disk | 配置存储源用以创建 PersistentVolumens | |
PersistentVolume | disk partition | 配置文件系统,可以被挂载在 Pod 中一个或者多个容器的指定路径下面 | |
PersistentVolumeClaim | - | 把 PersistentVolume 绑定到 pod 上 | |
ConfigMap | env var | 定义各种 properties | |
Secret | secured env var | 加密或带有使用权限的 properties |
资源配置文件 definition file
在 Kubernetes 中,所有资源对象都在配置文件(yaml 或 json)中定义/声明,基本格式:
apiVersion:
kind:
# 资源类别,标记创建什么类型的资源: Pod, Deployment, Job 等
metadata:
# 元数据内部是嵌套的字段
# 定义了资源对象的名称、命名空间(k8s级别的不是系统的)等、标签、注解、UID等
annotations:
name: myproj-mysql
labels: # labels recommended by k8s
app.kubernetes.io/name: mysql
app.kubernetes.io/instance: mysql-abcxzy
app.kubernetes.io/version: "5.7.21"
app.kubernetes.io/component: database
app.kubernetes.io/part-of: wordpress
app.kubernetes.io/managed-by: helm
app.kubernetes.io/created-by: controller-manager
data:
# 针对数据资源,如 Secret, ConfigMap
spec:
# 规范定义资源应该拥有什么样的特性,依靠控制器确保特性能够被满足,各种资源有自己的spec
# 用户定义所期望了资源状态
containers:
- name:
image:
ports:
- containerPort:
env:
- name:
value:
status:
# 显示资源的当前状态,k8s 就是确保当前状态向目标状态无限靠近从而满足用户期望
# 它是只读的,代表了资源当前状态
- Label
Label(标签)以 key/value 的方式附加到对象上(key 最长不能超过 63 字节,value 可以为空,也可以是不超过 253 字节的字符串)。 Label 定义好后其他对象可以使用 Selector 来选择一组相同 label 的对象(比如 ReplicaSet 和 Service 用 label 来选择一组 Pod)。Label Selector 支持以下几种方式:
- 等式,如 app=nginx 和 env!=production
- 集合,如 env in (production, qa)
- 多个 label(它们之间是 AND 关系),如 app=nginx,env=test
- Annotations
Annotations 是 key/value 形式附加于对象的注解。不同于 Labels 用于标志和选择对象,Annotations 则是用来记录一些附加信息,用来辅助应用部署、安全策略以及调度策略等。比如 deployment 使用 annotations 来记录 rolling update 的状态。
资源实例
下面通过一个例子,介绍几个核心资源具体配置实例:
- ConfigMap
apiVersion: v1
kind: ConfigMap
metadata:
name: simple-web-config
namespace: default
data:
configuration_key: "Configuration value"
ConfigMap 可以通过三种方式在 Pod 中调用,三种分别方式为:设置环境变量、设置容器命令行参数以及在 PersistentVolume 中直接挂载文件或目录。
- Secret
data 默认下知识 base64 编码,不过 k8s 支持加密 或者和role-based access control :
apiVersion: v1
kind: Secret
metadata:
name: simple-web-secrets
# Opaque can hold generic secrets, so no validation will be done.
type: Opaque
data:
# Secrets should be encoded in base64
secret_configuration_key: "c2VjcmV0IHZhbHVl"
- Pod
Pod 是一组紧密关联的容器集合,它们共享 PID、IPC、Network 和 UTS namespace,是 Kubernetes 调度的基本单位。Pod 的设计理念是支持多个容器在一个 Pod 中共享网络和文件系统,可以通过进程间通信和文件共享这种简单高效的方式组合完成服务。我们知道容器本质上就是进程,那么 Pod 实际上就是进程组了,只是这一组进程是作为一个整体来进行调度的。
apiVersion: v1
kind: Pod
metadata:
name: my-web-server
spec:
# <containers> is a list of container definition to embed in the pod
containers:
- name: web
image: nginx
ports:
- name: web
containerPort: 80
protocol: TCP
env:
- name: SOME_CONFIG
# Create a line "value: <config_entry>" from the ConfigMap data
valueFrom:
configMapKeyRef:
name: simple-web-config
key: configuration_key
- name: SOME_SECRET
# Create a line "value: <config_entry>" from the Secret data
valueFrom:
secretKeyRef:
name: simple-web-secrets
key: secret_configuration_key
- Replica Set
声明 Pod 的横向水平扩展,selector 标签选择器,可以使用 matchLabels、matchExpressions 两种类型的选择器来选中目标 POD:
apiVersion: apps/v1
kind: ReplicaSet
metadata:
name: myrs
namespace: default
spec:
replicas: 2
selector:
matchLabels:
app: myapp
release: canary
template:
metadata:
name: myapp-pod
labels:
app: myapp # 标签一定要符合 replicaset 标签选择器的规则
release: canary
spec:
containers:
- name: myapp-containers
image: ikubernetes/myapp:v1
ports:
- name: http
containerPort: 80
- Deployment
一般不直接管理 Pod,而是通过 Deployment 来管理应用程序。Deployment 通过控制 ReplicaSet 来实现功能,除了支持 ReplicaSet 的扩缩容意外,还支持滚动更新和回滚等,还提供了声明式的配置,这个是我们日常使用最多的控制器。它是用来管理无状态的应用。Deployment 在滚动更新时候,通过控制多个 ReplicaSet 来实现,ReplicaSet 又控制多个 POD,多个 ReplicaSet 相当于多个应用的版本。
k8s 基于template
创建 Pod
k8s 基于selector
创建 Replicaset,实例数目有replicas
指定
apiVersion: apps/v1
kind: Deployment
metadata:
name: my-web-server-deployment
namespace: default
labels:
app: webserver
spec:
# <selector> should retrieve the Pod defined below, and possibly more
selector:
matchLabels:
app: webserver
instance: nginx-ws-deployment
# <replicas> asks for 3 pods running in parallel at all time
replicas: 3
# The content of <template> is a Pod definition file, without <apiVersion> nor <kind>
template:
metadata:
name: my-web-server
namespace: default
labels:
app: webserver
instance: nginx-ws-deployment
spec:
containers:
- name: web
image: nginx
ports:
- name: web
containerPort: 80
protocol: TCP
env:
- name: SOME_CONFIG
# Create a line "value: <config_entry>" from the ConfigMap data
valueFrom:
configMapKeyRef:
name: simple-web-config
key: configuration_key
- name: SOME_SECRET
# Create a line "value: <config_entry>" from the Secret data
valueFrom:
secretKeyRef:
name: simple-web-secrets
key: secret_configuration_key
- Service
由于 Pod 可以被动态创建,所以其提供的服务不能通过其 ip 地址直接访问。Service 为 Pod 控制器控制的 Pod 实例提供一个固定的访问端点 - 一个 k8s 集群内部的虚拟 ip,集群内部通过虚拟 ip 访问一个服务,负载均衡由 Kube-proxy 实现。Service 的工作还依赖于一个安装扩展,就是 CoreDNS ,它将 Service 地址提供一个域名解析。组成 Service 的 Pod 由 selector
里的 lables
来选定。
有三种 service:
ClusterIP:默认方式,如上所述
NodePort:把 service 绑定在 pod 所在节点的一个 port(30000-32767)(这种 servide 会带来安全隐患)
LoadBalancer:这种方式会在 k8s 集群外部创建 load balancer,并绑定到 pod 所在的 nodes 上
apiVersion: v1
kind: Service
metadata:
name: simple-web-service-clusterip
spec:
# ClusterIP is the default service <type>
type: ClusterIP
# Select all pods declaring a <label> entry "app: webserver"
selector:
app: webserver
ports:
- name: http
protocol: TCP
# <port> is the port to bind on the service side
port: 80
# <targetPort> is the port to bind on the Pod side
targetPort: 80
kubectl 管理资源
资源对象配置文件定义好后,就可以通过 kubectl 来管理
# <kind> is the type of resource to create (e.g. deployment, secret, namespace, quota, ...)
$ kubectl create <kind> <name>
$ kubectl edit <kind> <name>
$ kubectl delete <kind> <name>
# All those commands can be used through a description file.
$ kubectl create -f <resource>.yaml
$ kubectl edit -f <resource>.yaml
# create & update
$ kubectl apply -f <resource>.yaml
$ kubectl delete -f <resource>.yaml
内部架构
Kubernetes 虽然庞大复杂,但是其架构和设计机理却是很清晰。
分层架构:

- 核心层:Kubernetes 最核心的功能,对外提供 API 构建高层的应用,对内提供插件式应用执行环境
- 应用层:部署(无状态应用、有状态应用、批处理任务、集群应用等)和路由(服务发现、DNS 解析等)
- 管理层:系统度量(如基础设施、容器和网络的度量),自动化(如自动扩展、动态 Provision 等)以及策略管理(RBAC、Quota、PSP、NetworkPolicy 等)
- 接口层:kubectl 命令行工具、客户端 SDK 以及集群联邦
- 生态系统:在接口层之上的庞大容器集群管理调度的生态系统,可以划分为两个范畴
- Kubernetes 外部:日志、监控、配置管理、CI、CD、Workflow、FaaS、OTS 应用、ChatOps 等
- Kubernetes 内部:CRI、CNI、CVI、镜像仓库、Cloud Provider、集群自身的配置和管理等
核心组件:

生态系统:

Kubernetes 以及云原生
技术是生产力发展的核心,发生第二次工业革命是因为有了蒸汽动力等技术的出现,发生 Internet 是因为有了 HTML,CSS,Tcp/Ip 等技术,发生 digital transformation 是因为有了 Kubernetes 等云原生技术,其中的一些显著特点:
轻量级的容器技术
不依赖底层 infrastructure 或服务,包括 OS,VM,物理机器,以及各种云基础设施
声明式资源管理
按需自动弹性扩展
拥有强壮性和自愈功能
编程语言无关
API 驱动
Stateless/Stateful 应用分离
微服务架构
敏捷和自动化 DevOps
自服务
云原生众说纷纭,我的看法就是容器和 Kubernetes,因为还未看到有第二种技术来实现支持上述特性。
Kubernetes 相当一个云操作系统内核,内外沿涉及到的东西几乎是个无底洞,不是 3-5 个小时或 3-5 天就能搞定,慢慢来。