ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

文献阅读_辅助穿戴_Assistive Technology for the Blind

2021-09-13 09:32:49  阅读:237  来源: 互联网

标签:Blind 256 反馈 caption Assistive LSTM Technology GSM GPS


文笔很怪,看着不连贯

 

Abstract&Conclusion

相机+YOLO+LSTM+Inception V3+音频

啊,时代真好。

未来加入情感识别和距离检测。

Introduction

RW

早期工作有由避障系统衍生的'virtual white cane'基于激光测距的‘一戳知距’,'Path Force feedback belt'基于3D建模进行力反馈,Smart cane基于超声波的,贵、不准(水)、供电

'Silicon Eyes'基于GPS+GSM+触觉反馈+色反馈集成在手套,'obstacle avoidance using auto-adaptive thresholding method'远距离提醒,近距离导航

'Eye substitution'GPS+GSM+超声波(看意思是'Smart cane'的升级,作者没有指出太多缺点)###

' remote guidance system'相机+GPS+GSM, 批:需要一个人工引导员太局限了

'wearable navigation aid for blind ',震动反馈的,也是需要人工引导

'Pathfinder',基于红外的,针对距离的

技术上有激光的 超声的 红外的,反馈上有bibibi的有震动有热弄个引导的,按作者的意思用image caption做反馈是很新颖的,从时间轴来看不一定特别新。

Methodology

他说有个流程图,也没标号,我也没找到。文字复述下了:

1.使用者扭头到所关注方向

2.按一个按钮拍照

3.输出音频

lakh——十万,印度英语

数据集使用的COCO,进行了数据清洗时删除了词频10以下的词汇。

预处理:

1.图像:YOLO进行检测,一次最多输入八个检测出的目标到描述网络,为了转换成统一大小,使用了Inception V3 和自动特征工程,查了一下和inceptionv3是一样的,就是删掉了最后的softmax,自动特征工程在哪里体现了,不懂。

2.caption:建立了'wordtoix'和'ixtoword'两个字典,分别代表word到index和index到word的对应关系,用1-1652这些整数代表词汇表中全体词汇。

数据准备:

ps:这文笔读着好累,真的是2019的文章么。

因为有一个批处理操作,要求句子是等长的,所以最后有一个padding操作

details:categorical cross entropy,adam,在每个iteration更新梯度。用fit generator(batch_size=16 epochs=20)训练了一个generator function    批:?

词嵌入:

词首先按之前的提到的,用整数进行了一次编码,之后使用GloVe方法嵌入到一个200d词向量,之后送入一个256时序的LSTM进行处理。description的最大长度是50(训练集中最大者)

模型结构:

inputs:1.将图像输入微调的inceptionV3得到的2048d的特征向量 2.前一时序的caption 3.YOLO的输出

inceptionv3得到的特征向量传递到256节点的FC层得到256d向量。两个256时序的LSTM得到256d向量,将三者求和再传递到256节点FC层、6256节点FC层、softmax层。到这里output_shape=(50,6256)

完成最终的caption时使用了greedy search approach (或者说MLE)

推理:

最大似然估计,MLE

音频输出:

用了python的这个库'pyttsx3'

 

Result and Analysis

开局三组图,剩下全靠编,没看到什么高价值信息

批:这狗我第一眼也没认出来

 

读后感:磕磕绊绊的读了下来,希望将来自己的文章不要像这样男的女的折磨。只能说从他文章提到的相关工作来看的话,他的组合是比较先进的(视觉+caption+audio)但是在当年这篇文章是否是最早提出这个组合的表示存疑。在技术方面整体也是没太多新鲜的。

 

 

 

 

 

 

 

 

 

标签:Blind,256,反馈,caption,Assistive,LSTM,Technology,GSM,GPS
来源: https://www.cnblogs.com/Nonmy/p/15257672.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有