最新要闻
- 浙商证券汽车行业周报:特斯拉Q1交付超预期
- 给老外来点中国震撼!比亚迪展台被多名大众高管围观:都在看海鸥
- 7000mAh超大电池仅1799元!华为畅享60X图赏
- 今日播报!小米13 Ultra亮相:外观像极了相机!
- 世界快播:小米手机冲高端!小米MIX Fold 2好评率高达99.97%
- 环球速讯:小米13 Ultra、iPhone 14 Pro Max实拍对比出炉:徕卡光学YYDS
- 2023年社会工作者职业水平考试什么时间开考?
- 今日讯!《心渊梦境》多少钱?豪华版和标准版价格分享
- 定了!本田中国宣布2027年后不再投放燃油新车
- 王冰冰现身上海车展:跟演员王凯同台
- 当前视讯!出境易APP:轻松搞定出国必备应用 让你的海外之旅更便利!
- 【天天报资讯】“五一”出游正升温 文旅市场提前“入夏”
- 全球资讯:羡慕吗?厦门一公司取消所有法定长假调休:补班改休假 不鼓励加班
- 当前动态:自行车胎压多少合适 胎压多少合适
- 天天新消息丨买不到票?无所谓全国游客会替你回家
- 【环球新视野】和平精英s8赛季是什么时候开始的 和平精英ss8赛季是什么时候开始的
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
环球热资讯!AI测试101:测试AI系统的实用技巧&ML和AI自动化工具
基于人工智能的系统,也称为神经网络(NN Neural Networks),和其他应用程序一样是 "系统",因此需要测试。本文将指导你测试AI和基于NN的系统,并理解相关概念。
测试人工智能系统的不同之处是什么?
"传统 "的软件是建立在内部确定的算法基础上的。例如,对于将摄氏度转换为华氏度的系统,它将使用简单的F=1.8C+32公式。
(资料图)
人工智能用于 "公式 "未知的情况,但你有足够的输入和输出的例子,可以根据例子来估计公式。
最终,人工智能并不创造公式,而是根据以前的知识创造一个决策网络。如果人们知道这个公式,那么用人工智能来解决这个问题的价值就非常小。
我们能一直使用一个公式吗?比如,这幅画里是一只企鹅吗?没有简单的公式来确定图片中的企鹅是什么样子。有无穷无尽的 "企鹅图片 "的例子,它们的大小、位置、颜色、灯光、类型等都不一样。
人工智能实际上是模仿人脑在训练方面的运作方式,并根据以前学到的例子给出最佳猜测(即准确性)。对于人类,我们将判断 "企鹅 "的能力视为我们智力的一部分。
就像人类一样,AI也会犯错或被欺骗。这就是 "测试AI "发挥作用的地方。看一下上面和下面的例子。这是一只企鹅,或者,如果你倒过来看,也许是一只长颈鹿?
测试AI应用: 重要的考虑因素
- 准确度人工智能会给出具有一定准确性的结果。对于积极的结果,获得100%的准确性是非常罕见的,对于消极的结果,获得0%的准确性也是非常罕见的。
好的人工智能将在和作为正数和绝对准确率(100%)的因素之间有一个明显的delta。当你在测试时,你会得到不同程度的准确性。这很正常,但如果你在对象A上得到99.99%的阳性结果,而在对象B上得到98%的阴性结果,要确定哪个是阳性,哪个不是,可能会有问题。
99%并不总是比90%好。它是相对于其他结果而言的。如果阳性是80%,阴性是30%及以下,你的人工智能是可以的。如果正数高于99%,负数低于98%,那就有问题了,要确定。永远不可能测试所有的输入,所以测试者的作用是确定人工智能的质量。
- 静态或动态
静态人工智能是 "按原样 "提供给应用程序的。在更新之前,它将有相同的输入结果。静态人工智能通常由外部供应商提供。例如,你的应用程序可能使用由第三方提供的图像识别或NLP引擎。
从测试的角度来看,静态人工智能主要是作为开发过程的一部分(作为验收)和作为版本发布的理智测试的一部分来测试的,这一点很重要。但是,由于是静态的,开发人员和测试人员并不真的需要反复测试它们。无论你现有的OEM策略是什么,包括外部第三方组件,它应该是测试静态AI的相同策略。
动态人工智能正在不断改进自己。它的开始方式与静态人工智能相同,但一旦发布,经过验证的输出会再次注入人工智能,作为额外的 "教学数据",以提高准确性。这与我们大脑的工作方式非常相似。
与我们的大脑一样,更多并不总是更好。"改进 "可能会对人工智能产生负面影响,测试人员应始终执行 "生产测试",以确保人工智能确实在改进,或至少保持它过去的样子。
要做到这一点,要使用一组静态的测试数据和准确率数字(如果有的话)。你可以使用与开发原始人工智能时相同的20%的测试数据,因为它不是教学数据的一部分。测试数据应该产生相同或更好的结果。节奏通常与教学数据的增长百分比有关。一个好的起点是1%。
例如,如果原始的人工智能教学数据是100,000个输入点,每引入一个新的1000个额外的数据来改进人工智能,运行测试数据并检查其结果。小于1%可能不会对AI值产生重大影响。
- 单NN还是多NN?
这是一个非常重要的问题,可能会很难理解。让我们以一个聊天机器人为例。聊天机器人可能是基于消息平台或语音平台的。在语音平台的情况下,在用于确定对话背景的任何NLP之前,有一个基于NN的语音到文本。
这意味着,这里有两个NN在起作用。在某些情况下,这可能是很棘手的。例如,一个碰撞检测系统可能使用人工智能来分析基础图像,并使用相对简单的算法来确定是否可能发生碰撞。
在大多数多NN的情况下,你实际上只测试一个NN,你依靠其余的NN来提供基本信息。
- 虚假或欺诈:人工智能的安全
几乎在所有情况下,人工智能都有潜在的攻击载体,可以用来进行欺诈。在相关的研究中,有人举了一个例子,"红色交通灯 "+额外的11个白色像素可以被确定为 "烤箱"。
即使图像的轻微变化也会使人工智能感到困惑,使其容易受到欺诈。
为了更好地确定你的测试需求,请考虑以下几点:
1.我是否期待欺诈输入?为什么?
例如,在上面的例子中,如果有人想造成车祸,他可能会使用上述的异常情况来欺骗一个特定的交通灯。
然而,对于聊天机器人来说,如果输入没有被正确识别,其结果很可能在本质上不是欺诈性的。这意味着,你可以造成错误的识别,但出于什么原因?
2.错误检测的代价是什么?
在交通灯的例子中,无论是否有欺诈行为,不良检测的结果可能是灾难性的。它可能是由有邪恶意图的人或几滴雨造成的。好的测试应该检测出这样的异常情况,因为错误的检测可能会带来很高的成本。
在你的聊天机器人的例子中,错误的检测通常会导致一个 "对不起,我没有收到 "的回应,除了一个恼人的界面,没有任何伤害。虽然你显然想确保将错误检测降到最低,但错误检测的成本并不是灾难性的。
3.系统是自主的还是不自主的?
在大多数情况下,自主系统的错误检测的成本更高。它并不总是像上面的交通灯例子那样与生命对待的情况有关。但它仍然可能导致高成本。
一个错误的车牌检测可能意味着停车场障碍物不会及时升起,或者一个司机可能被错误地收取收费公路的费用。
如果系统的FLOW包括一个可以 "修复 "人工智能错误的人,错误检测的成本通常会低很多。
- 可能的输入数量
在大多数情况下,人工智能被用于可能的输入数量非常大或几乎是无限的地方。例如,在一个用于确定给定图片是否是企鹅的系统中,根据定义,可能的输入是 "任何图片"。
实际上,了解有多少个可能的输入并不重要。而且很明显,你不可能对所有的人进行测试。需要的是确定一个可靠的测试数据策略。
1.测试输入的数量
有几个因素可以帮助减少测试输入的数量。
你有兴趣测试的输入
之前,我们讨论了多层NN。例如,如果你的系统是依靠计算机视觉(CV)组件来识别物体(例如,返回给定图片中的动物列表的系统),你其实不需要太多或者太频繁地测试这个组件。而且它可以大大减少输入的列表,即 "动物列表"。
2.逻辑分组
NN是以这样的方式创建的,它们根据输入的低级值来分组。这可能解释起来太复杂了,但如果我们正在搜索企鹅,可能的分组可能是 "非动物"、"其他动物 "或 "企鹅"。继续关注上下文,如果你的系统应该检测企鹅,那么 "椅子 "和 "桌子 "之间就没有什么区别,也就是说,测试所有的家具没有意义。
其他分组可以是照明条件、尺寸、位置、颜色等等。
3.矢量
NN往往对输入的轻微变化很敏感。如果你对这些类型的测试很敏感(即主要是自主系统),可以增加一些通过某个参数循环的测试。例如,相同的图像,但有不同的照明条件。
这对非CV、非音频输入也有帮助。例如,如果NN参数是年龄,试着以单日的频率给出日期的向量。
3.欺骗系统
你的 "错误检查 "的一部分应该包括噪音水平测试,这包括带有额外噪音水平的正面输入,如图像噪音、音频噪音等。
注意点
虽然人工智能测试似乎不能自动化,但事实并非如此。如果给予客观的测量,大多数测试可以自动化。
- 如果你有一组已知的输入,并有一组已知的输出(即使这些是数字的范围),它可以被自动化。
- 如果你坐在系统前面,思考如何使系统失败,你就做错了事。
- 如果你做了一次,它可以被添加到已知的输入和输出中。
- 人工智能不被认为是重在处理。虽然有许多可能的输入,但人工智能是极其优化的,通常人工智能的决定应该花费很少的时间(在许多情况下,以毫秒或更少的时间衡量)。
- 如果测试花费太多时间,你可能会推迟CI周期,所以考虑每天和每周的周期。然而,只有在你受到性能不佳的影响时才做出这个决定,而不是在之前。如前所述,人工智能处理通常非常快。
ML和AI自动化工具
差异化的工具
利用AI和ML算法的工具旨在积极主动地自动识别代码质量问题、回归、安全漏洞等。这是通过代码扫描、单元测试自动创建等方式完成的。
如果你的团队缺乏解决上述目标的技能,或者没有时间持续解决这些任务,请考虑其中一些选项。其结果将是更快的发布,通过减少逃逸的缺陷来提高质量,以及提高开发人员的生产力。
- Facebook Infer
- Launchable
- DiffBlue
- Google OSS-Fuzz
让我们以DiffBlue为例来看看。DiffBlue连接到你的源代码控制库(Git、Perforce等),并通过人工智能自动创建单元测试的基础线。一旦发现回归,就会抛出一个标志,报告这个问题。DiffBlue创建其解决方案的动机主要是通过帮助那些不喜欢自己创建测试的开发者来提高代码质量。
Launchable在代码拉动请求时自动查看代码,并执行一种代码影响分析,以适应最近的代码变化。然后,它只选择你的回归套件中最相关的子集,以节省时间来批准代码更改并将其集成到管道中。
最后,Facebook的Infer项目也通过其AI算法实现更好的代码质量。
来自Facebook的人工智能引擎可以自动发现Android和Java代码中的空指针异常、内存泄漏、并发竞赛条件等。同样,它也可以在C、C++和iOS/Objective C代码中找到同样的问题以及错误的编码习惯或不可用的API。
视觉AI自动化工具
相对于差异化的工具,视觉测试解决了用户体验层的测试,并在数字平台(主要是移动和网络)上扩展了验证和UI(用户界面)的外观和感觉。
可视化人工智能测试工具解决了UI层不断变化的痛苦,加上不断增加的平台、屏幕尺寸和配置,使得测试覆盖率成为测试工程师和开发人员的噩梦。
属于这个类别的一些AI/ML工具有:
- Applitools
- Percy.io
对于Applitools和Percy,开发者和/或测试工程师需要将SDK或代码片嵌入测试自动化(Selenium,Appium,其他),以建立网络/移动应用程序的视觉基线。在测试平台内的所有目标平台上进行下一步执行时,工具将突出实际和基线之间的差异,将责任转交给测试所有者,以报告一个缺陷或忽略这个问题。
声明式工具
声明式工具与其他工具有不同的使用情况,但仍然旨在提高测试自动化的生产力和稳定性。利用ML和AI的声明式工具具有与NLP、DSL、RPA(robotic process automation)和MBTA方法相关的重要能力。
这些方法之间的共同点是通过智能自动化消除繁琐的、容易出错的、重复的动作。虽然在这个类别中,我们列出了RPA,但这种特定的方法并不只是围绕着测试的自动化,也是围绕着人工完成的过程和任务的自动化。
专注于声明性测试,我们可以把以下工具作为一个例子:
- Functionize
- Tricentis
- UIPath
- Automation Anywhere这些只是不断变化的市场中可用工具的一个子集。而且上述每个工具都有不同的方法来使用AI创建测试自动化。
例如,Eggplant AI使用的模型是模仿被测试的应用程序而建立的,然后AI引擎自动通过模型流并创建测试自动化场景。
即使是人工智能,测试工程师也需要考虑维护,随着时间的推移,测试资源的管理,以及规模的执行。如果这样的工具支持所有这些,那就很好,否则可能会有颠簸。
上面列出的其他工具,特别是Functionize,指定利用NLP来创建测试自动化脚本,不需要任何编码技能或开发语言。
这种工具类型的主要好处如下
- 快速的测试自动化创建。
- 不需要编码技能。
- 更快地维护测试自动化方案。
这类工具的缺点是:
- 不涉及编码技能/代码。
- 与工具链和DevOps CI/CD管线的集成有问题。
- 版本管理和测试管理能力。
自我修复的工具
如果我们要说出人工智能和ML在测试自动化领域出现的首要原因之一,那就是由于测试自动化的松散性、可靠性和维护。
基于代码的测试自动化在本质上不太稳定。它需要不断调整每个平台或环境,其整个基础是应用程序对象。这些对象往往每隔几周就会改变,或者最坏的情况是它们的使用效率低下(例如XPATH与Object ID等)。
为此,一个新时代的工具已经发展起来,测试维护由机器学习来协助。在这些工具中,主要的ML引擎存在于记录脚本的自我修复中。
有些工具就像安装网络浏览器插件一样简单(Mabl, Testim)。一些用机器学习辅助测试维护的工具能力更丰富,并被集成到一个端到端的持续测试解决方案中(Perfecto, Tricentis)。
- Perfecto
- Mabl这些工具的核心是一个ML算法,在每次执行时和执行之间 "学习 "被测网站和/或应用程序。它根据可靠性和成功找到的概率,对应用程序中每个屏幕的元素定位器进行评分。
报告和分析工具
测试数据来自多个来源:测试自动化工程师、开发人员、安全和运营工程师、分析人员和其他人。团队需要能够理解所有这些来源,并快速做出数据驱动的决定。
报告中的ML有助于对数据进行分类,对其进行切片和切块,在高级情况下,还可以自动对失败的根本原因进行分类,提高团队的生产力。
- Perfecto
- ReportPortal
通过采用利用ML的报告解决方案,团队可以不必担心数据的大小,让机器为他们自动分类,这就消除了管道中的噪音,这样他们就可以更快地发布,并充满信心。
原文 https://www.softwaretestinghelp.com/database-testing-process/
相关python书籍下载 https://github.com/china-testing/python_cn_resouce/blob/main/python_good_books.md
为了让人、流程和技术在有效的协调和规模下无缝工作,我建议你从小处着手,确定应用人工智能/ML的关键场景。调整工具以补充不同角色的技能,如业务测试人员和开发人员。而且一定要了解你如何扩大测试自动化套件的规模,并连接到CI/CD。
关键词:
-
环球热资讯!AI测试101:测试AI系统的实用技巧&ML和AI自动化工具
基于人工智能的系统,也称为神经网络(NNNeuralNetworks),和其他应用程序一样是"系统",因此需要测试...
来源: 环球热资讯!AI测试101:测试AI系统的实用技巧&ML和AI自动化工具
全球热资讯!Redis---主从复制
浙商证券汽车行业周报:特斯拉Q1交付超预期
给老外来点中国震撼!比亚迪展台被多名大众高管围观:都在看海鸥
7000mAh超大电池仅1799元!华为畅享60X图赏
今日播报!小米13 Ultra亮相:外观像极了相机!
世界快播:小米手机冲高端!小米MIX Fold 2好评率高达99.97%
环球速讯:小米13 Ultra、iPhone 14 Pro Max实拍对比出炉:徕卡光学YYDS
2023年社会工作者职业水平考试什么时间开考?
今日讯!《心渊梦境》多少钱?豪华版和标准版价格分享
定了!本田中国宣布2027年后不再投放燃油新车
王冰冰现身上海车展:跟演员王凯同台
当前视讯!出境易APP:轻松搞定出国必备应用 让你的海外之旅更便利!
【天天报资讯】“五一”出游正升温 文旅市场提前“入夏”
全球资讯:羡慕吗?厦门一公司取消所有法定长假调休:补班改休假 不鼓励加班
当前动态:自行车胎压多少合适 胎压多少合适
当前信息:jenkins配置maven编译tomcat项目并使用Nexus配置私库源
全球视点!比较几种热门Hybrid App前端框架
4月22日丨【云数据库技术沙龙】技术进化,让数据更智能
环球观天下!.net C#加载程序集外dll文件方法
【世界播资讯】ChatGPT们接踵而至,AI会彻底改变我们的工作方式吗?
天天新消息丨买不到票?无所谓全国游客会替你回家
市场期待消息和数据进一步指引 日债收益率小幅向上波动
【豫财经】河南上榜的是它!胡润发布2023全球独角兽榜
【环球新视野】和平精英s8赛季是什么时候开始的 和平精英ss8赛季是什么时候开始的
42.78万起售 新一代奔驰GLC上市:对比理想L9你买谁?
焦点热讯:电池级碳酸锂价格跌破20万/吨!十年后电动车价格再跌一半有戏
【天天报资讯】32GB仅794元 七彩虹银翼DDR5内存首发:超频能冲10GHz
环球快看:超好评国产OS!深度20.9正式发布:一切为了稳定
天天快资讯丨成龙、吴京首次同框!《龙马精神》中二人致敬龙虎武师精神
环球要闻:5G进入高速发展阶段,5GETF(159994)近期受到投资者关注,天孚通信、中际旭创、新易盛领涨
【天天热闻】Kubernetes集群调度增强之超容量扩容
每日短讯:Python精品书籍
环球即时看!用户隐私安全卫士——小程序沙箱
Portainer认识、安装、使用
使用openssl自签CA
市场监管总局批准启用激光小角度副基准装置
每日机构分析:4月18日
天天快资讯丨厦门港务:将进一步研究探讨新兴技术在智慧物流云平台等方面的应用
当前快看:是块硬骨头!中国首个6x6超级越野平台首车诞生:3轴6驱5把锁
《幽灵线:东京》令人诧异:微软第一方大作PS5表现更好
【天天聚看点】自循环动态呼吸:骆驼新款Q态羽网面跑鞋129元1.9折狂促
环球今日报丨饮水机不清洗菌落超16000种?打工人看完心态崩了
曝特斯拉上海工厂克扣员工绩效 马斯克回应:将进行调查
天天观热点:厚植绿色技术创新优势
【天天热闻】苹果手机里面的udid怎么查出来
mysql connector 执行 select 和 shardingshpere-proxy 的处理过程
【世界播资讯】Nlog-动态修改DatabaseTarget,对数据库字符串进行加密
精选!Python实现搭建-简单服务器教程
滚动:PHP 7 教程_编程入门自学教程_菜鸟教程-免费教程分享
钉钉个人版来了!将全面接入千问大模型
驱动网简介
头条:【新华500】新华500指数(989001)18日上涨0.24%
焦点信息:“大块头”正当时,中国经济网带您走进2023上海车展
【全球新要闻】20多万有戏!全新宝马iX1纯电SUV发布:中国独享加长版
世界热议:钉钉宣布接入通义千问!一条“/”拉高生产力
天天新消息丨不给小鹏留活路?理想一只脚踏入纯电领域:城市高阶辅助驾驶也来了
天天要闻:小米13 Ultra同时把潜望+1英寸可变光圈塞进手机里 雷军:非常不容易
女司机误将车内空调开成热风中暑:交警帮忙开下高速
天长新型城镇化提质升级补短板项目开展消防演练
世界滚动:好物分享:一款可以加密云盘视频,并依然可在线播放的免费小工具——Alist 云盘视频加密助手!
环球报道:Grafana监控OracleDB的完整过程
环球简讯:Jenkins常用插件
全球热头条丨仅1.0MB,开源压缩软件7-Zip
全量通过,华为云GaussDB首批完成信通院全密态数据库评测
环球快播:吃避孕药副作用有哪些_吃避孕药的副作用有什么
闹大!近10万人联合抵制 网飞黑人《埃及艳后》摊上事:歧视非裔 篡改历史
【世界热闻】Mate60或将首发 华为鸿蒙4.0秋季发布:AI会是亮点
曝芒果TV涉嫌恶意扣费 页面无取消续费选项 你中招没
要闻:2199元 小米米家无线洗地机2发布:活水杀菌 180°躺平洗地
环球讯息:迈威生物(688062)2022年年报简析:增收不增利,存货大幅上升
了解GIS地图和可视化如何改变我们对地理信息的理解
天天热议:火山引擎DataLeap下Notebook 系列文章一:技术选型之路
全球热议:新车充电烧毁 特斯拉回应因电流过大:曾甩锅被国家电网硬怼
环球看点!潍坊风筝节现躺平版“秦始皇” 网友:这是他摔过最狠的一跤
大众拟2026年之前再推10款电动汽车
看热讯:网络编程懒人入门(十五):外行也能读懂的网络硬件设备功能原理速成
环球热议:若依前后端分离 代码生成修改(2)
【聚看点】用C#破解Chrome浏览器cookie值
【世界时快讯】3D轻量化引擎推出新技术,模型渲染更逼真!
17.88万起圆你跑车梦 哪吒GT开售:双门四座零百三秒
环球焦点!鸿蒙5G新机来了!WIKO Hi畅享60官宣:4800万金环双摄
全品牌销冠!魅族20系列成3000元档周线上销量第一
内外双2K E6旗舰屏!vivo X Fold2配置详解:九大全球领先科技
环球微速讯:农业农村部:今年全国农作物种子市场总体上供大于求,合格率稳定保持在98%以上
报道:【Git代码仓库托管】上海道宁为您提供构建、扩展和交付安全软件的完整开发人员平台
世界今日讯!windows系统git使用ssh方式和gitee/github进行同步
【天天时快讯】springboot统一响应实体封装+统一异常类管理
当前观察:Redis---哨兵服务
全球即时:python的matplotlib绘制动态图形(用animation中的FuncAnimation)
财政部:将专项债务限额及时下达各地 推动尽快形成实物工作量
世界看热讯:在史上“最热闹”的上海车展 特斯拉竟然缺席了 维权有阴影?
漫威面临征服者康难题
世界微头条丨爆款狂促!玫瑰精油洗发水47.8元买1000ml:解决软塌油头
焦点观察:王一博主演!《长空之王》领跑五一档预售票房榜
72岁王石出手创立私募基金:曾表态市场一定会惩罚暴利
方萍萍:2023年04月18日原油交易策略
秦昊结了几次婚?秦昊的老婆叫什么名字?
罗云熙真实身高体重是多少?罗云熙为什么那么瘦?
粉红法拉利是谁唱的?粉红法拉利完整版歌词