按分隔符分割文本
字符串分割方法:split()按分隔符拆分为数组、正则分割(split(/\s+/)按空白分割)、按长度分割(每n个字符一段)。split不改变原字符串,返回新数组。
分词(Tokenization)将文本切分为词单元。英文按空格和标点分词,中文需算法(最大匹配、CRF、BERT)。自然语言处理第一步。应用:搜索引擎、文本分类、机器翻译。