开始处理各种语言
Elasticsearch 为很多世界流行语言提供良好的、简单的、开箱即用的语言分析器集合:
阿拉伯语、亚美尼亚语、巴斯克语、巴西语、保加利亚语、加泰罗尼亚语、中文、捷克语、丹麦、荷兰语、英语、芬兰语、法语、加里西亚语、德语、希腊语、北印度语、匈牙利语、印度尼西亚、爱尔兰语、意大利语、日语、韩国语、库尔德语、挪威语、波斯语、葡萄牙语、罗马尼亚语、俄语、西班牙语、瑞典语、土耳其语和泰语。
这些分析器承担以下四种角色:
文本拆分为单词:
[C#] 纯文本查看 复制代码 The quick brown foxes → [ The, quick, brown, foxes]
大写转小写:
移除常用的 _停用词_:
[C#] 纯文本查看 复制代码 [ The, quick, brown, foxes] → [ quick, brown, foxes]
将变型词(例如复数词,过去式)转化为词根:
[C#] 纯文本查看 复制代码
foxes → fox
为了更好的搜索性,每个语言的分析器提供了该语言词汇的具体转换规则:
英语 分析器移除了所有格 's
[C#] 纯文本查看 复制代码 John's → john
法语 分析器移除了 元音省略 例如 l' 和 qu' 和 变音符号 例如 ¨ 或 ^ :
[C#] 纯文本查看 复制代码 l'église → eglis
德语 分析器规范化了切词, 将切词中的 ä 和 ae 替换为 a , 或将 ß 替换为 ss :
äußerst → ausserst开始处理各种语言编
Elasticsearch 为很多世界流行语言提供良好的、简单的、开箱即用的语言分析器集合:
阿拉伯语、亚美尼亚语、巴斯克语、巴西语、保加利亚语、加泰罗尼亚语、中文、捷克语、丹麦、荷兰语、英语、芬兰语、法语、加里西亚语、德语、希腊语、北印度语、匈牙利语、印度尼西亚、爱尔兰语、意大利语、日语、韩国语、库尔德语、挪威语、波斯语、葡萄牙语、罗马尼亚语、俄语、西班牙语、瑞典语、土耳其语和泰语。
这些分析器承担以下四种角色:
文本拆分为单词:
[C#] 纯文本查看 复制代码 The quick brown foxes → [ The, quick, brown, foxes]
大写转小写:
移除常用的 _停用词_:
[C#] 纯文本查看 复制代码 [ The, quick, brown, foxes] → [ quick, brown, foxes]
将变型词(例如复数词,过去式)转化为词根:
[C#] 纯文本查看 复制代码 foxes → fox
为了更好的搜索性,每个语言的分析器提供了该语言词汇的具体转换规则:
英语 分析器移除了所有格 's
[C#] 纯文本查看 复制代码 John's → john
法语 分析器移除了 元音省略 例如 l' 和 qu' 和 变音符号 例如 ¨ 或 ^ :
[C#] 纯文本查看 复制代码 l'église → eglis
德语 分析器规范化了切词, 将切词中的 ä 和 ae 替换为 a , 或将 ß 替换为 ss :
[C#] 纯文本查看 复制代码
äußerst → ausserst
|