按行或按词去重文本
去重方法:HashSet(O(n)时间O(n)空间)、排序后去重(O(n log n)时间O(1)空间)、BitMap(海量整数去重)。选择依据:数据量、数据类型(字符串/数字)、内存限制。
Set是互不重复元素的集合。特性:元素唯一、自动去重、不保证顺序。支持add/delete/has操作。JavaScript的Set:new Set([1,2,2,3])得到{1,2,3}。判断重复用===比较。