ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

c – 在文本文件中识别编程语言的代码

2019-10-05 04:15:25  阅读:261  来源: 互联网

标签:c algorithm text-processing language-recognition


我应该编写代码,当给出一个文本文件(源代码)作为输入时,将输出哪种编程语言.这是问题的最基本定义.更多限制如下:

>我必须用C写这个.
>应该识别各种语言 – html,php,perl,ruby,C,C,Java,C#…
>假阳性(错误识别)的数量应该低 – 输出“未知”比错误结果更好. (它将在概率列表中,例如未知:100%,见下文)
>输出应该是代码知道的每种语言的概率列表,因此如果它知道C,Java和Perl,输出应该是例如:C:70%,Java:50%,Perl:30%(注意那里不需要概率总和达到100%)
>它应该具有良好的准确度/速度比(速度更受青睐)

如果能够以一种方式编写代码,即添加用于识别的新语言相当容易并且仅涉及为该特定语言添加“设置/数据”,那将是非常好的.我可以使用任何可用的东西 – 启发式,神经网络,黑魔法.任何东西.我甚至被允许使用现有的解决方案,但是:解决方案必须是免费的,开源的并允许商业用途.它必须以易于集成的源代码或静态库的形式出现 – 没有DLL.但是,我更喜欢编写自己的代码或只使用其他解决方案的片段,我厌倦了整合其他代码.最后一点:也许你们中的一些人会建议FANN(快速人工神经网络库) – 这是我唯一不能使用的东西,因为这是我们使用ALREADY的东西,我们想要替换它.

现在的问题是:你将如何处理这样的任务,你会做什么?有任何建议如何实现这个或使用什么?

编辑:基于评论和答案我必须强调一些我忘记的事情:速度是非常关键的,因为这将获得数千个文件,并且应该快速回答,所以查看一千个文件应该为所有这些文件生成答案最多几秒钟(文件的大小当然很小,每个几KB).所以试图编译每一个都是不可能的.问题是,我真的想要每种语言的概率 – 所以我宁愿知道该文件可能是C或C,但它是bash脚本的可能性非常低.由于代码混淆,评论等我认为寻找100%准确的代码是一个坏主意,事实上并不是这个目标.

解决方法:

你有一个document classification的问题.我建议你阅读naive bayes classifierssupport vector machines.在文章中有链接到实现这些算法的库,其中许多都有C接口.

标签:c,algorithm,text-processing,language-recognition
来源: https://codeday.me/bug/20191005/1854905.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有