一个鲜为人知的事实是.go
文件中的所有内容都是用UTF-8编码的。信不信由你,Unicode不是世界上唯一的字符集。例如,Windows-1250编码在Windows用户中广泛使用。
在处理非Unicode字符串时,需要将内容转换为Unicode。本篇将演示如何解码和编码非unicode字符串。
解码非Unicode字符集中的字符串
Golang 版本
1.12.1
前言
一个鲜为人知的事实是.go
文件中的所有内容都是用UTF-8编码的。信不信由你,Unicode不是世界上唯一的字符集。例如,Windows-1250编码在Windows用户中广泛使用。
在处理非Unicode字符串时,需要将内容转换为Unicode。本篇将演示如何解码和编码非unicode字符串。
实现
- 创建文件
encode.go
,代码如下:
package main
import (
"io"
"os"
"golang.org/x/text/encoding/charmap"
)
func main() {
f, err := os.OpenFile("out.txt", os.O_CREATE|os.O_RDWR,
os.ModePerm|os.ModeAppend)
if err != nil {
panic(err)
}
defer f.Close()
// 解码unicode
encoder := charmap.Windows1250.NewEncoder()
writer := encoder.Writer(f)
io.WriteString(writer, "Gdańsk")
}
运行go run encode.go
out.txt
以Windows-1250编码进行编码
- 创建文件
decode.go
,代码如下:
package main
import (
"fmt"
"io/ioutil"
"os"
"strings"
"golang.org/x/text/encoding/charmap"
)
func main() {
// 打开 windows-1250 文件
f, err := os.Open("out.txt")
if err != nil {
panic(err)
}
defer f.Close()
// 全部以原始内容读入
b, err := ioutil.ReadAll(f)
if err != nil {
panic(err)
}
content := string(b)
fmt.Println("Without decode: " + content)
// unicode 解码
decoder := charmap.Windows1250.NewDecoder()
reader := decoder.Reader(strings.NewReader(content))
b, err = ioutil.ReadAll(reader)
if err != nil {
panic(err)
}
fmt.Println("Decoded: " + string(b))
}
$ go run decode.go
Without decode: Gda�sk
Decoded: Gdańsk
原理
软件包golang.org/x/text/encoding/charmap
包含用于简单编码和解码的Charset
类型。该类型实现创建解码器结构的NewDecoder
方法。
编码工作类似。创建编码Writer
,然后将由该Writer
编写的每个字符串编码为Windows-1250编码。
注意,选择Windows-1250作为示例。这个包golang.org/x/text/encoding/charmap
包含许多其他字符集选项。