JVM-内存管理

　　都说搞C的牛叉，那是因为C解决问题，全靠程序员自己，他们对自己的程序在内存中是什么样了如指掌。而Java呢不需要有太多操作系统的知识，不用时刻注意内存的问题，但这不代表我们就不用去了解它背后的原理。Java之所以容易上手，那是因为最困难的问题，已经被前人解决了，而这一切都归功于Java Virtual Machine-Java虚拟机，JVM其实就是一个抽象的计算机，它有自己的指令集，有自己的机器语言，有自己的内存管理。本系列会一一解开它的真面目。

　　本文基于Java HotSpot™ 虚拟机，JDK 1.8，将讨论：

JVM 内部结构
JVM 内存管理
JVM 内存模型

1. JVM 内部结构

　　JVM是用C/C++ 编写的一个软件，在Linux的体现就是一个进程（进程是操作系统的一个重要抽象CPU，内存和IO）。在了解JVM内部结构之前，我们先看看Linux中进程虚拟地址空间的结构：

图 1 进程地址空间结构

　　JVM内部虽然与它不同，但简单了解一下，对后面的理解还是用好处的，下面从下往上简单的介绍一下：

（1）data & code

　　这里主要存储编译后的一些文件，主要是未初始化和已初始化的全局变量，静态数据如字符串常量和可执行程序的二进制代码。

（2）heap area

　　堆，动态内存分配，在运行时，由程序员手动申请和释放，如malloc，free。堆的大小向上增长，内存地址增大的方向。此外只能通过指针访问堆内存。

（3）shared library

　　动态链接常用的库，如libc.so etc

（4）stack area

　　栈，这部分内存由编译器来管理，主要来存储局部变量，处理函数调用，处理运算。栈的大小向下增长，内存地址减少的方向。

（5）kernel

　　内核，操作系统的核心，就是它提供便利的接口，并且管理内存，进程等一系列资源。

　　下面来看一下 JVM 内部是个什么样子，一图胜千言，如图所示：

图 2 JVM 内部结构

　　JVM 加载字节码文件，然后一顿操作，就 load 到内存了，JVM内存整体上分为堆和非堆，下面是详细介绍：

（1） Heap

　　堆，和C不同的是，Java不能直接操作它，而是由 JVM 自动管理。当我们使用关键字 new 一个对象实例，JVM就会为我们在堆上分配空间。基本所有的对象实例都在这里分配，那么问题就来了，怎么分配，怎么回收呢？为了方便管理堆内存，HotSpot VM 又把堆根据对象的不同生命周期分为年轻代（YoungGen）和老年代（OldGen）。YoungGen 又分为 Eden 区和两个大小一样的 Survivor（From，To），对象优先在 Eden 分配，当Eden无空闲空间，会进行一次 MinorGC，把 Eden 清空，把存活的对象从From复制到To。大部分对象生命周期都很短，时间长的根据它的年龄会提升到老年代，当老年代空间满了，会发生一次stop-the-world的FullGC，对整个堆进行回收。关于释放内存，JVM 会根据不同区域使用不同的回收策略，当然也可以手动指定垃圾收集器。

（2） JVM Stacks & PC Register

　　栈，每个线程都唯一对应着一个栈和程序计数器，这里是线程的工作内存，这部分内存不由 JVM 管理，随线程生而生，死而死。程序计数器，主要作用就是存储指令地址，取指，解码和执行。栈的元素是栈帧，当调用方法时，创建一个栈帧并入栈，把当前对象的引用 this 存储在第 0 位置，然后依次存储方法的局部变量，返回地址以及动态链接运行时常量池。

（3） Metaspace

　　元空间，JDK1.8移除了永久代，相关数据的移动情况是，将Class meta数据移动到Metaspace并存储在本地内存中，将Intern String 和类静态变量移动到了堆中，具体内容请查看 JEP 122: Remove the Permanent Generation 。

（4） Native Method Stacks

　　JVM栈是为Java方法准备的，那么本地方法栈则是为虚拟机调用本地方法服务的。

2. JVM 内存管理

　　JVM 通过Garbage Collection（以下简称GC）进行管理内存，GC 解决了大部分内存分配的问题。GC的主要职责有：

分配内存
确保引用对象保留在内存
回收不可达引用对象的内存

2.1 内存分配

（1）Bump-the-pointer & TLABs

　　对于一些垃圾回收器来说，如SerialGC、ParallelGC，大部分情况下都是有可用且比较大的连续内存。使用 bump-the-pointer 技术为对象分配空间，指针始终指向之前分配对象的末尾，当要分配新对象时，只需要检查该代剩余空间是否能够容纳次对象，如果能，就更新指针并初始化对象。bump有颠簸之意，而且每次分配对象的大小都不一样，指针增加忽快忽慢，不如译为颠簸指针。

　　线性分配效率比较高，在多线程环境下，必须保证分配操作的安全性，一个简单的办法就是使用全局锁，但不可避免的会影响性能。HotSpot VM 采用一种 Thread-Local Allocation Buffers（TLABs）的技术来增加分配吞吐量，只有当线程需要一个新的 TLABs 时，才需要同步。此外TLABs在Eden分配。

（2）Free Memory List

　　当使用 Concurrent Mark-Sweep (CMS) Collector 收集器时，它释放无用对象的空间后，并不压缩活的对象，也就是空闲内存是不连续的，就不能使用上述的简单指针的技术，就必须维护一个空间内存的列表，每次分配新对象时，搜索这个列表，由于内存不连续，对于大对象可能会找不到连续的内存来分配，所以 cms 所需的堆要更大一些。

（3）Object Header 对象头

　　每个对象都有一个头信息，数组对象比普通对象多了一个长度如下：

图 3 对象头

2.2 如何判断对象是否可回收

　　垃圾收集器如何判断对象能否被回收？常用的算法如下。

（１）引用计数法

　　给对象添加一个引用计数器，每当有一个地方引用它时就加1，引用失效就减1，当计数器为0时，就说明这个对象为垃圾，可以被回收。引用计数法效率比较高，但是不能解决对象循环引用的问题，所以 JVM 没有使用这一方法。

（2）可达性分析

　　JVM 维护着一个对象可达图，其形式如下：

图 4 可达性分析

　　根节点，即GC Root对象，主要有以下几种：

JVM 栈引用的对象
类静态属性和常量引用的对象
PC Register引用的对象
JNI引用的对象

2.3 回收算法和垃圾收集器

垃圾收集算法

（1）标记清除（Mark&Sweep）

　　算法分为两个阶段：标记和清除阶段。首先标记所有可达的存活对象，然后清除不可达对象。清除后的内存是不连续的。

（2）标记压缩（Mark&Compact）

　　与标记清除的区别是，标记完后，不直接清除，而是先把活的对象紧凑压缩到一块，然后在清除不可达对象。

（3）复制算法

　　把内存分为相等的两部分，比如年轻代的Survivor区域的两个空间，每次分配时只使用其中的一块，当进行回收时，就将存活的对象复制到另一块，清空当前使用的。降低了内存的利用率。

（4）分代收集

　　HotSpot就是这种算法，它不是新的算法，而是把堆分成不同区域，使用不同的回收方法。年轻代对象生命周期比较短，存活对象少，使用复制算法，老年代对象存活率比较高，使用标记清除或标记压缩算法。

垃圾收集器

（1）Serial

　　串行垃圾收集器，是Client模式VM的默认收集器，stop-the-world，使用复制算法，而且只有一个GC线程。

（2）ParNew

　　stop-the-world，使用复制算法，有多个 GC 线程。它可以和CMS收集器配合使用。

（3）Parallel Scavenge

　　stop-the-world，使用复制算法，有多个 GC 线程。不能和CMS配合使用

（4）Serial Old

　　老年代的串行收集器，使用标记压缩整理算法，也是 stop-the-world，并且只有一个GC线程。

（5）Parallel Old

　　老年代并行垃圾收集器，多个 GC 线程，使用标记压缩整理算法。

（6）CMS & G1

　　并发垃圾收集器，JVM 停顿时间比较短，相对来说程序响应快。

常用 GC 参数

Option	Garbage Collector Selected	Note
–XX:+UseParNewGC	ParNew + Serial Old
–XX:+UseSerialGC	Serial + Serial Old	Serial
–XX:+UseParallelGC	Parallel Scavenge + Serial Old	Parallel（Default）
–XX:+UseParallelOldGC	Parallel Scavenge + Parallel Old	Parallel compacte
–XX:+UseConcMarkSweepGC	ParNew + CMS + Serial Old	如果使用CMS出现错误，则使用Serial Old
–XX:+PrintGC	输出 GC 基本信息
–XX:+PrintGCDetails	输出 GC 详细信息	常用
–XX:+PrintGCTimeStamps	输出 GC 开始时间戳

3. JVM 内存模型

TODO