go语言字符串长度 go语言字符串

go语言string之Buffer与Builder

操作字符串离不开字符串的拼接，但是Go中string是只读类型，大量字符串的拼接会造成性能问题。

专注于为中小企业提供网站制作、网站设计服务,电脑端+手机端+微信端的三站合一,更高效的管理,为中小企业汕城免费做网站提供优质的服务。我们立足成都，凝聚了一批互联网行业人才，有力地推动了上1000家企业的稳健成长，帮助中小企业通过网站建设实现规模扩充和转变。

拼接字符串，无外乎四种方式，采用“+”，“fmt.Sprintf()”,"bytes.Buffer","strings.Builder"

上面我们创建10万字符串拼接的测试，可以发现"bytes.Buffer","strings.Builder"的性能最好，约是“+”的1000倍级别。

这是由于string是不可修改的，所以在使用“+”进行拼接字符串，每次都会产生申请空间，拼接，复制等操作，数据量大的情况下非常消耗资源和性能。而采用Buffer等方式，都是预先计算拼接字符串数组的总长度（如果可以知道长度），申请空间，底层是slice数组，可以以append的形式向后进行追加。最后在转换为字符串。这申请了不断申请空间的操作，也减少了空间的使用和拷贝的次数，自然性能也高不少。

bytes.buffer是一个缓冲byte类型的缓冲器存放着都是byte

是一个变长的 buffer，具有 Read 和Write 方法。 Buffer 的零值是一个空的 buffer，但是可以使用，底层就是一个 []byte，字节切片。

向Buffer中写数据，可以看出Buffer中有个Grow函数用于对切片进行扩容。

从Buffer中读取数据

strings.Builder的方法和bytes.Buffer的方法的命名几乎一致。

但实现并不一致，Builder的Write方法直接将字符拼接slice数组后。

其没有提供read方法，但提供了strings.Reader方式

Reader 结构:

Buffer:

Builder:

可以看出Buffer和Builder底层都是采用[]byte数组进行装载数据。

先来说说Buffer:

创建好Buffer是一个empty的，off 用于指向读写的尾部。

在写的时候，先判断当前写入字符串长度是否大于Buffer的容量，如果大于就调用grow进行扩容，扩容申请的长度为当前写入字符串的长度。如果当前写入字符串长度小于最小字节长度64，直接创建64长度的[]byte数组。如果申请的长度小于二分之一总容量减去当前字符总长度，说明存在很大一部分被使用但已读，可以将未读的数据滑动到数组头。如果容量不足，扩展2*c + n 。

其String()方法就是将字节数组强转为string

Builder是如何实现的。

Builder采用append的方式向字节数组后添加字符串。

从上面可以看出，[]byte的内存大小也是以倍数进行申请的，初始大小为 0，第一次为大于当前申请的最大 2 的指数，不够进行翻倍.

可以看出如果旧容量小于1024进行翻倍，否则扩展四分之一。（2048 byte 后，申请策略的调整）。

其次String()方法与Buffer的string方法也有明显区别。Buffer的string是一种强转，我们知道在强转的时候是需要进行申请空间，并拷贝的。而Builder只是指针的转换。

这里我们解析一下 *(*string)(unsafe.Pointer(b.buf)) 这个语句的意思。

先来了解下unsafe.Pointer 的用法。

也就是说，unsafe.Pointer 可以转换为任意类型，那么意味着，通过unsafe.Pointer媒介，程序绕过类型系统，进行地址转换而不是拷贝。

即*A = Pointer = *B

就像上面例子一样，将字节数组转为unsafe.Pointer类型，再转为string类型，s和b中内容一样，修改b,s也变了，说明b和s是同一个地址。但是对s重新赋值后，意味着s的地址指向了“WORLD”,它们所使用的内存空间不同了，所以s改变后，b并不会改变。

所以他们的区别就在于 bytes.Buffer 是重新申请了一块空间，存放生成的string变量，而strings.Builder直接将底层的[]byte转换成了string类型返回了回来，去掉了申请空间的操作。

golang unicode/utf8源码分析

包 utf-8 实现的功能和常量用于文章utf8编码,包含runes和utf8字节序列的转换功能.在unicode中，一个中文占两个字节，utf-8中一个中文占三个字节，golang默认的编码是utf-8编码，因此默认一个中文占三个字节，但是golang中的字符串底层实际上是一个byte数组.

Output:

RuneSelf该值的字节码值为128，在判断是否是常规的ascii码是使用。hicb字节码值为191. FF 的对应的字节码为255。

计算字符串中的rune数量,原理：首先取出字符串的码值，然后判断是不是个小于128的，如果是小于则直接continue.rune个数++.

如果是个十六进制f1.的则是无效字符，直接continue.rune个数++,也就是说一个无效的字符也当成一个字长为1的rune.如果字符的码值在first列表中的值和7按位的结果为其字长，比如上面示例中的钢。其字长为三位，第一位的值为 233 .二进制形式为 11101001 ;与7按位与后的值为0.从acceptRanges中取出的结果为{locb, hicb}。也就是标识 ox80 到 0xbf 之间的值。而结果n也就是直接size+3跳过3个字节后，rune个数++。其他函数的处理流程差不多，不再过多叙述。

示例：

ValidString返回值表明参数字符串是否是一个合法的可utf8编码的字符串。

RuneCount返回参数中包含的rune数量,第一个例子中将 utf8.RuneCountInString ,改成该方法调用，返回的结果相同。错误的和短的被当成一个长一字节的rune.单个字符 H 就表示一个长度为1字节的rune.

该函数标识参数是否以一个可编码的rune开头,上面的例子中，因为字符串是以一个ascii码值在0-127内的字符开头，所以在执行

first[p[0]] 时，取到的是 p[0] 是72,在first列表中，127之前的值都相同都为 0xF0 ,十进制标识为240，与7按位与后值为0，所以，直接返回 true .

和FullRune类似，只是参数为字符串形式

Go中字符串的遍历

首先说一下go中的字符串类型：

字符串就是一串固定长度的字符连接起来的字符序列。Go的字符串是由单个字节连接起来的。Go语言的字符串的字节使用UTF-8编码标识Unicode文本。

下面介绍字符串的三种遍历方式，根据实际情况选择即可。

该遍历方式==缺点==：遍历是按照字节遍历，因此如果有中文等非英文字符，就会出现乱码,比如要遍历"abc北京"这个字符串，效果如下:

可见这不是我们想要的效果，根据utf-8中文编码规则，我们要str[3]str[4]str[5]三个字节合起来组成“北”字及 str[6]str[7]str[8]合起来组成“京”字。由此引出下面第二种遍历方法。

该方式是按照字符遍历的，所以不会出现乱码，如下：

运行结果：

从图中可以看到第二个汉子“京”的开始下标是6，直接跳过了4和5，可见确实依照utf8编码方式将三个字节组合成了一个汉字，str[3]-str[5]组合成“北”字，str[6]-str[8]组合成了“京”字。

由于下标的不确定性，所以引出了下面的遍历方式。

1 可以先将字符串转成 []rune 切片

2 再用常规方法进行遍历

运行效果：

由此可见下标是按1递增的，没有产生跳跃现象。

golang原生数据类型

golang原生数据类型：按长度：int8(-128-127)、int16、int32、int64。

布尔型：布尔型的值只可以是常量true或者false。一个简单的例子：varbbool=true。

数字类型：整型int和浮点型float32、float64，Go语言支持整型和浮点型数字，并且支持复数，其中位的运算采用补码。

字符串类型：字符串就是一串固定长度的字符连接起来的字符序列。Go的字符串是由单个字节连接起来的。Go语言的字符串的字节使用UTF-8编码标识Unicode文本。

派生类型：包括：(a)指针类型（Pointer）(b)数组类型?结构化类型(struct)(d)Channel类型(e)函数类型(f)切片类型(g)接口类型（interface）(h)Map类型。

当前文章：go语言字符串长度 go语言字符串
分享地址：http://cdxtjz.cn/article/hhoojg.html

go语言字符串长度 go语言 字符串

go语言string之Buffer与Builder

golang unicode/utf8源码分析

Go中字符串的遍历

golang原生数据类型

其他资讯

go语言字符串长度 go语言字符串