最新要闻
- 世界信息:男子借朋友12万 1小时后借条变成白纸!网友:防不胜防
- 顶级富豪果然都惜命 扎克伯格个人安保费一年超1亿元
- 环球要闻:今起可提前预约个税办税:每天6-22点可在App预约
- 要闻:接棒年销26万台扫地机器人爆款单品!石头G10S Pure即将正式亮相
- 天天通讯!吉利中高端新能源系列定名“吉利银河”:每个人都仰望
- 诺如病毒进入高发期 学校、家庭如何做好预防?一文了解
- 你怕失业吗?马斯克炮轰人工智能:比核弹头更危险
- 巴菲特“黄金搭档”芒格盛赞:比亚迪在中国遥遥领先于特斯拉
- 40岁男子报复10岁小孩连划7车引围观:结局舒适了 网友点赞
- 《霍格沃茨之遗》更新后PC优化更差!玩家:游戏卡顿问题解决一下
- 快资讯丨再下一城!百度地图红绿灯倒计时上线兰州:实时读秒
- 最资讯丨下行5000兆 跟上行同速!谷歌美国推5Gbps光纤:每月850元
- 片仔癀珍珠霜的功效
- 环球热点评!5年前就已杀青 周星驰《美人鱼2》进入后期制作
- 谨慎升级 等了2个月的AMD新驱动疑似翻车:系统崩了
- 世界热议:央广网:“暴雪式”傲慢引众怒 或终将致其失去中国市场
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
模型预处理层介绍(2) - Hashing
Hashing的方式本质上也是分桶,在上一篇我们提到过的bucket的方式进行分桶,而在Hashingd的方法中,所有的输入都会通过Hash映射进行转换成int,然后再进行分桶。
该层将分类输入转换为散列输出。它在元素上将一个 int型或字符串转换为固定范围内的int型。稳定哈希函数使用tensorflow::ops::Fingerprint在所有平台上产生一致的输出。
【资料图】
该层默认使用FarmHash64,它在不同的平台上提供一致的散列输出,并且通过彻底混合输入位,在不同的调用中都是稳定的,而不考虑设备和上下文。
如果您想混淆散列输出,还可以在构造函数中传递一个随机salt参数。在这种情况下,该层将使用SipHash64哈希函数,将salt值作为哈希函数的额外输入。
tf.keras.layers.Hashing( num_bins, mask_value=None, salt=None, output_mode="int", sparse=False, **kwargs)
举个例子来说
layer = tf.keras.layers.Hashing(num_bins=3)inp = [["A"], ["B"], ["C"], ["D"], ["E"]]layer(inp)
执行上述语句的结果是:
我们向Hashing层传入了一个字符串的list的嵌套list,尝试使用Hashing的方法进行分桶。从结果上我们可以看到,[A,C,D]被分到一个桶,[B] [E]被分成另外两个桶。
被分入哪个桶取决于输入的字符串或者int被HASH成什么样的数值。从下面的代码可以直观的看出,其实不管传入的int还是string,都会在 tf.as_string(values)
统一处理成string,然后在tf.strings.to_hash_bucket_*
中全部再进行分桶。
def call(self, inputs): inputs = utils.ensure_tensor(inputs) if isinstance(inputs, tf.SparseTensor): indices = tf.SparseTensor( indices=inputs.indices, values=self._hash_values_to_bins(inputs.values), dense_shape=inputs.dense_shape, ) else: indices = self._hash_values_to_bins(inputs) return utils.encode_categorical_inputs( indices, output_mode=self.output_mode, depth=self.num_bins, sparse=self.sparse, dtype=self.compute_dtype, ) def _hash_values_to_bins(self, values): """Converts a non-sparse tensor of values to bin indices.""" hash_bins = self.num_bins mask = None # If mask_value is set, the zeroth bin is reserved for it. if self.mask_value is not None and hash_bins > 1: hash_bins -= 1 mask = tf.equal(values, self.mask_value) # Convert all values to strings before hashing. if values.dtype.is_integer: values = tf.as_string(values) # Hash the strings. if self.strong_hash: values = tf.strings.to_hash_bucket_strong( values, hash_bins, name="hash", key=self.salt ) else: values = tf.strings.to_hash_bucket_fast( values, hash_bins, name="hash" ) if mask is not None: values = tf.add(values, tf.ones_like(values)) values = tf.where(mask, tf.zeros_like(values), values) return values
Hash 的作用:
Hash :散列,通过关于键值(key)的函数,将数据映射到内存存储中一个位置来访问。这个过程叫做Hash,这个映射函数称做散列函数,存放记录的数组称做散列表(Hash Table)。
后面补充一下FarmHash64的处理代码,仅供参考:
FarmHash64
//Google FarmHash#include typedef std::pair uint128_t;inline uint64_t Uint128Low64(const uint128_t x) { return x.first; }inline uint64_t Uint128High64(const uint128_t x) { return x.second; }inline uint128_t Uint128(uint64_t lo, uint64_t hi) { return uint128_t(lo, hi); }#define STATIC_INLINE static inlineusing namespace std;using ui = unsigned int;using ul = unsigned long;using uc = unsigned char;using ull = unsigned long long;// Some primes between 2^63 and 2^64 for various uses.static const uint64_t k0 = 0xc3a5c85c97cb3127ULL;static const uint64_t k1 = 0xb492b66fbe98f273ULL;static const uint64_t k2 = 0x9ae16a3b2f90404fULL;#define uint32_in_expected_order(x) (x)#define uint64_in_expected_order(x) (x)STATIC_INLINE uint64_t Fetch64(const char *p) { uint64_t result; memcpy(&result, p, sizeof(result)); return uint64_in_expected_order(result);}STATIC_INLINE uint32_t Fetch32(const char *p) { uint32_t result; memcpy(&result, p, sizeof(result)); return uint32_in_expected_order(result);}STATIC_INLINE uint32_t bswap_32(const uint32_t x) { uint32_t y = x; for (size_t i = 0; i> 1; i++) { uint32_t d = sizeof(uint32_t) - i - 1; uint32_t mh = ((uint32_t)0xff) << (d << 3); uint32_t ml = ((uint32_t)0xff) << (i << 3); uint32_t h = x & mh; uint32_t l = x & ml; uint64_t t = (l << ((d - i) << 3)) | (h >> ((d - i) << 3)); y = t | (y & ~(mh | ml)); } return y;}STATIC_INLINE uint64_t bswap_64(const uint64_t x) { uint64_t y = x; for (size_t i = 0; i> 1; i++) { uint64_t d = sizeof(uint64_t) - i - 1; uint64_t mh = ((uint64_t)0xff) << (d << 3); uint64_t ml = ((uint64_t)0xff) << (i << 3); uint64_t h = x & mh; uint64_t l = x & ml; uint64_t t = (l << ((d - i) << 3)) | (h >> ((d - i) << 3)); y = t | (y & ~(mh | ml)); } return y;}STATIC_INLINE uint32_t Bswap32(uint32_t val) { return bswap_32(val); }STATIC_INLINE uint64_t Bswap64(uint64_t val) { return bswap_64(val); }// FARMHASH PORTABILITY LAYER: bitwise rotSTATIC_INLINE uint32_t BasicRotate32(uint32_t val, int shift) { // Avoid shifting by 32: doing so yields an undefined result. return shift == 0 ? val : ((val >> shift) | (val << (32 - shift)));}STATIC_INLINE uint64_t BasicRotate64(uint64_t val, int shift) { // Avoid shifting by 64: doing so yields an undefined result. return shift == 0 ? val : ((val >> shift) | (val << (64 - shift)));}STATIC_INLINE uint32_t Rotate32(uint32_t val, int shift) { return BasicRotate32(val, shift);}STATIC_INLINE uint64_t Rotate64(uint64_t val, int shift) { return BasicRotate64(val, shift);}// Hash 128 input bits down to 64 bits of output.// This is intended to be a reasonably good hash function.// May change from time to time, may differ on different platforms, may differ// depending on NDEBUG.STATIC_INLINE uint64_t Hash128to64(uint128_t x) { // Murmur-inspired hashing. const uint64_t kMul = 0x9ddfea08eb382d69ULL; uint64_t a = (Uint128Low64(x) ^ Uint128High64(x)) * kMul; a ^= (a >> 47); uint64_t b = (Uint128High64(x) ^ a) * kMul; b ^= (b >> 47); b *= kMul; return b;}STATIC_INLINE uint64_t ShiftMix(uint64_t val) { return val ^ (val >> 47);}STATIC_INLINE uint64_t HashLen16(uint64_t u, uint64_t v) { return Hash128to64(Uint128(u, v));}STATIC_INLINE uint64_t HashLen16(uint64_t u, uint64_t v, uint64_t mul) { // Murmur-inspired hashing. uint64_t a = (u ^ v) * mul; a ^= (a >> 47); uint64_t b = (v ^ a) * mul; b ^= (b >> 47); b *= mul; return b;}STATIC_INLINE uint64_t HashLen0to16(const char *s, size_t len) { if (len >= 8) { uint64_t mul = k2 + len * 2; uint64_t a = Fetch64(s) + k2; uint64_t b = Fetch64(s + len - 8); uint64_t c = Rotate64(b, 37) * mul + a; uint64_t d = (Rotate64(a, 25) + b) * mul; return HashLen16(c, d, mul); } if (len >= 4) { uint64_t mul = k2 + len * 2; uint64_t a = Fetch32(s); return HashLen16(len + (a << 3), Fetch32(s + len - 4), mul); } if (len > 0) { uint8_t a = s[0]; uint8_t b = s[len >> 1]; uint8_t c = s[len - 1]; uint32_t y = static_cast(a) + (static_cast(b) << 8); uint32_t z = len + (static_cast(c) << 2); return ShiftMix(y * k2 ^ z * k0) * k2; } return k2;}// This probably works well for 16-byte strings as well, but it may be overkill// in that case.STATIC_INLINE uint64_t HashLen17to32(const char *s, size_t len) { uint64_t mul = k2 + len * 2; uint64_t a = Fetch64(s) * k1; uint64_t b = Fetch64(s + 8); uint64_t c = Fetch64(s + len - 8) * mul; uint64_t d = Fetch64(s + len - 16) * k2; return HashLen16(Rotate64(a + b, 43) + Rotate64(c, 30) + d, a + Rotate64(b + k2, 18) + c, mul);}// Return a 16-byte hash for 48 bytes. Quick and dirty.// Callers do best to use "random-looking" values for a and b.STATIC_INLINE pair WeakHashLen32WithSeeds( uint64_t w, uint64_t x, uint64_t y, uint64_t z, uint64_t a, uint64_t b) { a += w; b = Rotate64(b + a + z, 21); uint64_t c = a; a += x; a += y; b += Rotate64(a, 44); return make_pair(a + z, b + c);}// Return a 16-byte hash for s[0] ... s[31], a, and b. Quick and dirty.STATIC_INLINE pair WeakHashLen32WithSeeds( const char* s, uint64_t a, uint64_t b) { return WeakHashLen32WithSeeds(Fetch64(s), Fetch64(s + 8), Fetch64(s + 16), Fetch64(s + 24), a, b);}// Return an 8-byte hash for 33 to 64 bytes.STATIC_INLINE uint64_t HashLen33to64(const char *s, size_t len) { uint64_t mul = k2 + len * 2; uint64_t a = Fetch64(s) * k2; uint64_t b = Fetch64(s + 8); uint64_t c = Fetch64(s + len - 8) * mul; uint64_t d = Fetch64(s + len - 16) * k2; uint64_t y = Rotate64(a + b, 43) + Rotate64(c, 30) + d; uint64_t z = HashLen16(y, a + Rotate64(b + k2, 18) + c, mul); uint64_t e = Fetch64(s + 16) * mul; uint64_t f = Fetch64(s + 24); uint64_t g = (y + Fetch64(s + len - 32)) * mul; uint64_t h = (z + Fetch64(s + len - 24)) * mul; return HashLen16(Rotate64(e + f, 43) + Rotate64(g, 30) + h, e + Rotate64(f + a, 18) + g, mul);}uint64_t FarmHash64(const char *s, size_t len) { const uint64_t seed = 81; if (len <= 32) { if (len <= 16) { return HashLen0to16(s, len); } else { return HashLen17to32(s, len); } } else if (len <= 64) { return HashLen33to64(s, len); } // For strings over 64 bytes we loop. Internal state consists of // 56 bytes: v, w, x, y, and z. uint64_t x = seed; uint64_t y = seed * k1 + 113; uint64_t z = ShiftMix(y * k2 + 113) * k2; pair v = make_pair(0, 0); pair w = make_pair(0, 0); x = x * k2 + Fetch64(s); // Set end so that after the loop we have 1 to 64 bytes left to process. const char* end = s + ((len - 1) / 64) * 64; const char* last64 = end + ((len - 1) & 63) - 63; assert(s + len - 64 == last64); do { x = Rotate64(x + y + v.first + Fetch64(s + 8), 37) * k1; y = Rotate64(y + v.second + Fetch64(s + 48), 42) * k1; x ^= w.second; y += v.first + Fetch64(s + 40); z = Rotate64(z + w.first, 33) * k1; v = WeakHashLen32WithSeeds(s, v.second * k1, x + w.first); w = WeakHashLen32WithSeeds(s + 32, z + w.second, y + Fetch64(s + 16)); std::swap(z, x); s += 64; } while (s != end); uint64_t mul = k1 + ((z & 0xff) << 1); // Make s point to the last 64 bytes of input. s = last64; w.first += ((len - 1) & 63); v.first += w.first; w.first += v.first; x = Rotate64(x + y + v.first + Fetch64(s + 8), 37) * mul; y = Rotate64(y + v.second + Fetch64(s + 48), 42) * mul; x ^= w.second * 9; y += v.first * 9 + Fetch64(s + 40); z = Rotate64(z + w.first, 33) * mul; v = WeakHashLen32WithSeeds(s, v.second * mul, x + w.first); w = WeakHashLen32WithSeeds(s + 32, z + w.second, y + Fetch64(s + 16)); std::swap(z, x); return HashLen16(HashLen16(v.first, w.first, mul) + ShiftMix(y) * k0 + z, HashLen16(v.second, w.second, mul) + x, mul);}int main(int argc, char** argv){ string str = "最強|Hash #2"; uint64_t x = FarmHash64(str.c_str(), str.size()); cout<< x <
参考
https://blog.csdn.net/cyongxue/article/details/19544107
https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Hashing
https://github.com/keras-team/keras/blob/v2.11.0/keras/layers/preprocessing/hashing.py#L35-L298
https://blog.csdn.net/qq_43561345/article/details/116612560
模型预处理层介绍(2) - Hashing
世界信息:男子借朋友12万 1小时后借条变成白纸!网友:防不胜防
顶级富豪果然都惜命 扎克伯格个人安保费一年超1亿元
环球要闻:今起可提前预约个税办税:每天6-22点可在App预约
要闻:接棒年销26万台扫地机器人爆款单品!石头G10S Pure即将正式亮相
天天通讯!吉利中高端新能源系列定名“吉利银河”:每个人都仰望
全球信息:快速搭建一个网关服务,动态路由、鉴权,一网打尽!(含流程图)
全球播报:再有人问你抽象工厂设计模式,把这篇文章丢给他
环球观天下!时间是什么?时间同步是什么?GPS北斗卫星授时又是什么?
世界要闻:《分布式技术原理与算法解析》学习笔记Day13
诺如病毒进入高发期 学校、家庭如何做好预防?一文了解
你怕失业吗?马斯克炮轰人工智能:比核弹头更危险
巴菲特“黄金搭档”芒格盛赞:比亚迪在中国遥遥领先于特斯拉
40岁男子报复10岁小孩连划7车引围观:结局舒适了 网友点赞
《霍格沃茨之遗》更新后PC优化更差!玩家:游戏卡顿问题解决一下
快资讯丨再下一城!百度地图红绿灯倒计时上线兰州:实时读秒
最资讯丨下行5000兆 跟上行同速!谷歌美国推5Gbps光纤:每月850元
全球要闻:读Java实战(第二版)笔记11_语言特性和类库更新
片仔癀珍珠霜的功效
天天热头条丨HEU KMS Activator 28.0.0全能系统数字许可激活工具
CentOS7.9安装K8S高可用集群(三主三从)
Android JetPack~ LiveData (一) 介绍与使用
环球观热点:SDK多项目开发与联调
全球快看:期末复习——线程
环球热点评!5年前就已杀青 周星驰《美人鱼2》进入后期制作
谨慎升级 等了2个月的AMD新驱动疑似翻车:系统崩了
世界热议:央广网:“暴雪式”傲慢引众怒 或终将致其失去中国市场
要闻速递:中国移动:加速千兆网络全面普及 建成全球最大规模光网络
中国快递卷了15年:死死困住了一个50岁的老快递员
纽约黄金期货周三收跌1.1% 创五周来最低收盘价
1998年属虎的人2012年运程
今日聚焦!qq情侣网名 〈談情》**/|(說爰)ⅱ,
80年代的零食大全怀旧辣条_80年代的零食大全怀旧
【保姆级】Python最新版3.11.1开发环境搭建,看这一篇就够了(适用于Python3.11.2安装)
【天天新要闻】day10-1-中文乱码处理
实时焦点:一次学俩Vue&Blazor:1.4基础-响应式数据
数论模板
世界微速讯:2023年春运收官:40天发送旅客近16亿人次 大涨50%
【环球报资讯】数据结构刷题2023.02.15小记
给我两分钟的时间:微博风格九宫格:UICollectionView实现
《分布式技术原理与算法解析》学习笔记Day12
【算法训练营day45】LeetCode70. 爬楼梯(进阶) LeetCode322. 零钱兑换 LeetCode279. 完全平方数
香港2022年暴力罪案同比下降7.9%
观天下!探险的好处辩论赛,正方_探险的好处
全球播报:AMD RX 7600S游戏本显卡首测:远不如RTX 3060!高端弃疗了
世界速讯:10道恋爱送命题灵魂拷问ChatGPT:它的回答让我陷入沉思
马斯克向往每周只工作80小时!网友:驴都不敢这么用
每日速读!中国内地特供!Intel i5-13490F处理器图赏
天天快看:002. html篇之《表格》
当前视讯!力扣---3. 无重复字符的最长子串
今日热文:轻薄长续航!小新Air14超极本2023发布:标配13代酷睿+1TB SSD
普及1TB 联想小新2023笔记本、一体机价格汇总:最贵才8999元
每日资讯:8999元 联想小新Pro 27一体机发布:13代酷睿i9搭配Arc独显
环球微头条丨4199元起 小新14/16轻薄本2023发布:酷睿i5-1340P、高配1TB SSD
播报:三星Galaxy S23 Ultra发布 老外怒赞:安卓阵营老大
最资讯丨【LeetCode栈与队列#05】滑动窗口最大值
如何优雅的在 Word 中添加漂亮的代码?
今日热文:2023.02.15.差分
热头条丨公积金月汇缴额是什么意思
当前热讯:用微信传播盗版电影被查:向两百多人分享《流浪地球2》《满江红》链接
新资讯:日本独居雌长臂猿突然产崽!孩子的父亲竟还是自己的“爷爷”
环球最新:Lady Gaga《小丑2》剧照首曝:疯狂的小丑女登场!
环球速讯:联想小新官宣接入百度“文心一言”:可在桌面一键直达
当前通讯!新能源车企现最大跌幅背后:涨价、营销、刺激消费的“国补退坡游戏”
【环球速看料】数据类型之字符串、数据类型之列表、数据类型之字典、数据类型之布尔值、数据类型之元组、数据类型之集合、与用户交互、格式化输出、基本运算符
每日热讯!数字化开采|AIRIOT智慧矿山自动化生产解决方案
全球视讯!wagger也不好用了!API文档还得是Apipost
世界信息:Web 页面之间传递参数
Java开发工具IntelliJ IDEA 2020.2完整授权流程
观速讯丨一加显示器E 24上市:24寸IPS屏、18W PD输出
环球最新:网易代理《迷室3》《迷室:往逝》经典手游宣布停运:数据全清空
硬蹭名气?《中国式相亲2》非《中国式家长》团队作品
热议:桂格燕麦诞生于俄亥俄引网友关注 客服:产品与俄亥俄无关
环球微动态丨电量低于20%赶快充电!雅迪电动车保养攻略来了:关乎安全 车主必看
前沿热点:M值如何兑换话费
焦点观察:记录--『uni-app、小程序』蓝牙连接、读写数据全过程
全球速看:PostgreSQL重要参数解析及优化
天天新动态:openeuler加载dpdk驱动模块
【全球报资讯】(数据库系统概论|王珊)第三章关系数据库标准语言SQL-第六、七节:视图
环球热头条丨【算法训练营day44】完全背包基础 LeetCode518. 零钱兑换II LeetCode377. 组合总和IV
天天看热讯:想要模仿LPL,DRX赛后发漫画,却被Gen官方拉黑了?
焦点速读:Win11下月喜迎更新大礼包:10GB补丁 重启次数更少
【环球播资讯】员工发现老板娘偷看同事微信:火速离职
天天精选!车标成伤人凶器 日产召回超40万辆汽车
索尼降噪耳机新秀!WH-CH720N意外偷跑:升级蓝牙5.2
大国重器 首台国产HA级重型燃机下线:未来将100%零排放
焦点!字体查看小工具 -- (采用wpf开发)
【算法训练营day43】LeetCode1049. 最后一块石头的重量II LeetCode494. 目标和 LeetCode474. 一和零
每日看点!独立包装:大牌N95口罩25片9.9元到手
环球观速讯丨贾跃亭名下已无财产可执行:无车辆、不动产
【环球报资讯】苹果逐渐向OLED过渡!替换掉mini LED
世界消息!羊毛没了 Steam阿根廷区《卧龙》价格暴涨一倍
焦点讯息:一看就能装!奇瑞iCar原厂趣改套件上市:3389元起
你应该知道的微信小程序游戏技术❗️❗️
【算法题--异或操作】找出数组中唯一没有重复的那个元素
极兔一面:Dockerfile如何优化?注意:千万不要只说减少层数
环球时讯:怎样的目标管理能真正实现目标?做到这3点就对了
开心档之Java 流(Stream)、文件(File)和IO
【焦点热闻】舍利子制作方法居然也有发明专利 网友:得道高僧等级速升外挂
世界即时:跑腿师傅诉苦:男子订一束花送五个女生均被拒 还被扣款差评