go基础库之解码非Unicode字符集中的字符串

一个鲜为人知的事实是.go文件中的所有内容都是用UTF-8编码的。信不信由你,Unicode不是世界上唯一的字符集。例如,Windows-1250编码在Windows用户中广泛使用。

在处理非Unicode字符串时,需要将内容转换为Unicode。本篇将演示如何解码和编码非unicode字符串。

解码非Unicode字符集中的字符串

Golang 版本

1.12.1

前言

一个鲜为人知的事实是.go文件中的所有内容都是用UTF-8编码的。信不信由你,Unicode不是世界上唯一的字符集。例如,Windows-1250编码在Windows用户中广泛使用。

在处理非Unicode字符串时,需要将内容转换为Unicode。本篇将演示如何解码和编码非unicode字符串。

实现

  1. 创建文件encode.go,代码如下:
package main

import (
	"io"
	"os"

	"golang.org/x/text/encoding/charmap"
)

func main() {

	f, err := os.OpenFile("out.txt", os.O_CREATE|os.O_RDWR,
		os.ModePerm|os.ModeAppend)
	if err != nil {
		panic(err)
	}
	defer f.Close()

	// 解码unicode
	encoder := charmap.Windows1250.NewEncoder()
	writer := encoder.Writer(f)
	io.WriteString(writer, "Gdańsk")

}

运行go run encode.go

out.txt以Windows-1250编码进行编码

  1. 创建文件decode.go,代码如下:
package main

import (
	"fmt"
	"io/ioutil"
	"os"
	"strings"

	"golang.org/x/text/encoding/charmap"
)

func main() {

	// 打开 windows-1250 文件
	f, err := os.Open("out.txt")
	if err != nil {
		panic(err)
	}
	defer f.Close()

	// 全部以原始内容读入
	b, err := ioutil.ReadAll(f)
	if err != nil {
		panic(err)
	}
	content := string(b)

	fmt.Println("Without decode: " + content)

	// unicode 解码
	decoder := charmap.Windows1250.NewDecoder()
	reader := decoder.Reader(strings.NewReader(content))
	b, err = ioutil.ReadAll(reader)
	if err != nil {
		panic(err)
	}
	fmt.Println("Decoded: " + string(b))

}
$ go run decode.go
Without decode: Gda�sk
Decoded: Gdańsk

原理

软件包golang.org/x/text/encoding/charmap包含用于简单编码和解码的Charset类型。该类型实现创建解码器结构的NewDecoder方法。

编码工作类似。创建编码Writer,然后将由该Writer 编写的每个字符串编码为Windows-1250编码。

注意,选择Windows-1250作为示例。这个包golang.org/x/text/encoding/charmap包含许多其他字符集选项。