阅: 2607 | 回: 1
等级:初学者
- 积分:0
- 财富值:0.0
- 身份:普通用户
用公式提取Excel单元格中的汉字
对于一个混杂各种字母、数字及其他字符和汉字的文本字符串,要提取其中的汉字,在Excel中通常可用下面的公式。例如下图A列中的字符串,要在B列提取其中的汉字(或词语)。如果汉字位于字符串的开头或结尾,用LEFT或RIGHT函数即可提取,例如上图中A2:A4区域中的字符串。在B2中输入下面的公式:
=LEFT(A2,LENB(A2)-LEN(A2))
就会返回字符串中开头的几个汉字。
说明:LENB函数和LEN函数都可用返回文本字符串中的字符数,不同的是,LENB函数会将每个汉字(双字节字符)的字符数按2计数,LEN函数则对所有的字符,无论是单字节还是双字节都按1计数,因而公式中的“LENB(A2)-LEN(A2)”返回文本字符串中的汉字个数。
同样对于A6:A8区域中的字符串,在B6中用RIGHT函数即可:
=RIGHT(A6,LENB(A6)-LEN(A6))
如果汉字位于字符串的中间,可使用下面的数组公式。例如图中A10:A12区域中的字符串,在B10中输入数组公式:
=MID(A10,MATCH(2,LENB(MID(A10,ROW(INDIRECT("1:"&LEN(A10))),1)),),LENB(A10)-LEN(A10))
公式输入完毕,按Ctrl+Shift+Enter结束。
说明:公式先用MID函数将字符串中的每个字符分解到到一个字符数组中,然后用LENB函数返回各字符的的字符数,对于汉字会返回“2”。用MATCH函数取得第一个“2”的位置,即第一个汉字的位置,最后再用MID函数提取汉字。
使用上述公式时要求字符串中的汉字是连续的,中间没有其它字符分隔。如果字符串中的汉字之间有其它字符分隔,例如上图中的A14单元格,要提取其中的所有汉字,可用下面的自定义函数。方法是:
1. 按Alt+F11,打开VBA编辑器,单击菜单“插入→模块”,在代码窗口中输入粘贴下面的代码:
Function 提取汉字(sString As String) As String
Dim regEx As Object
Set regEx = CreateObject("VBScript.RegExp")
With regEx
'搜索整个字符串
.Global = True
'匹配非汉字
.Pattern = "[^\u4e00-\u9fa5]"
'将字符串中的非汉字替换为空
提取汉字 = .Replace(sString, "")
End With
Set regEx = Nothing
End Function
说明:上述代码定义了一个自定义函数“提取汉字”。代码利用RegExp对象使用正则表达式匹配模式,清除字符串中的所有非汉字,得到其中的汉字。
2. 返回Excel工作表界面,在B14单元格中输入公式:
=提取汉字(A14)
即可取得A14单元格字符串中的所有汉字。
对于一个混杂各种字母、数字及其他字符和汉字的文本字符串,要提取其中的汉字,在Excel中通常可用下面的公式。例如下图A列中的字符串,要在B列提取其中的汉字(或词语)。如果汉字位于字符串的开头或结尾,用LEFT或RIGHT函数即可提取,例如上图中A2:A4区域中的字符串。在B2中输入下面的公式:
=LEFT(A2,LENB(A2)-LEN(A2))
就会返回字符串中开头的几个汉字。
说明:LENB函数和LEN函数都可用返回文本字符串中的字符数,不同的是,LENB函数会将每个汉字(双字节字符)的字符数按2计数,LEN函数则对所有的字符,无论是单字节还是双字节都按1计数,因而公式中的“LENB(A2)-LEN(A2)”返回文本字符串中的汉字个数。
同样对于A6:A8区域中的字符串,在B6中用RIGHT函数即可:
=RIGHT(A6,LENB(A6)-LEN(A6))
如果汉字位于字符串的中间,可使用下面的数组公式。例如图中A10:A12区域中的字符串,在B10中输入数组公式:
=MID(A10,MATCH(2,LENB(MID(A10,ROW(INDIRECT("1:"&LEN(A10))),1)),),LENB(A10)-LEN(A10))
公式输入完毕,按Ctrl+Shift+Enter结束。
说明:公式先用MID函数将字符串中的每个字符分解到到一个字符数组中,然后用LENB函数返回各字符的的字符数,对于汉字会返回“2”。用MATCH函数取得第一个“2”的位置,即第一个汉字的位置,最后再用MID函数提取汉字。
使用上述公式时要求字符串中的汉字是连续的,中间没有其它字符分隔。如果字符串中的汉字之间有其它字符分隔,例如上图中的A14单元格,要提取其中的所有汉字,可用下面的自定义函数。方法是:
1. 按Alt+F11,打开VBA编辑器,单击菜单“插入→模块”,在代码窗口中输入粘贴下面的代码:
Function 提取汉字(sString As String) As String
Dim regEx As Object
Set regEx = CreateObject("VBScript.RegExp")
With regEx
'搜索整个字符串
.Global = True
'匹配非汉字
.Pattern = "[^\u4e00-\u9fa5]"
'将字符串中的非汉字替换为空
提取汉字 = .Replace(sString, "")
End With
Set regEx = Nothing
End Function
说明:上述代码定义了一个自定义函数“提取汉字”。代码利用RegExp对象使用正则表达式匹配模式,清除字符串中的所有非汉字,得到其中的汉字。
2. 返回Excel工作表界面,在B14单元格中输入公式:
=提取汉字(A14)
即可取得A14单元格字符串中的所有汉字。
我的个性签名