关于小唐代码搜索

小唐代码搜索具有丝滑的搜索体验,可以搜索空格及符号,支持大小写敏感及整词匹配。
快是小唐搜索最大的特点,天下武功,唯快不破。

 

一 本站内容

1,CodeParrot数据集,包含730G源代码,123万个项目,1.15亿个代码文件;

CodeParrot数据集来自 huggingface,多个类ChatGPT项目使用它作为源代码数据集,例如PolyCoder, 清华大学的CodeGeeX;

CodeParrot数据集的源代码来自于Github网站,star数量超过100的项目。

程序语言 文件数 字节数(GB) 0 Java 19548190 107.70 1 C 14143113 183.83 2 JavaScript 11839883 87.82 3 HTML 11178557 未收录 4 PHP 11177610 61.41 5 Markdown 8464626 未收录 6 C++ 7380520 87.73 7 Python 7226626 52.03 8 C# 6811652 36.83 9 Ruby 4473331 10.95 10 GO 2265436 19.28 11 TypeScript 1940406 24.59 12 CSS 1734406 22.67 13 Shell 1385648 3.01 14 Scala 835755 3.87 15 Makefile 679430 2.92 16 SQL 656671 5.67 17 Lua 578554 2.81 18 Perl 497949 4.70 19 Dockerfile 366505 0.71 20 Haskell 340623 1.85 21 Rust 322431 2.68 22 TeX 251015 2.15 23 Batchfile 236945 0.70 24 CMake 175282 0.54 25 Visual Basic 155652 1.91 26 FORTRAN 142038 1.62 27 PowerShell 136846 0.69 28 Assembly 82905 0.78 29 Julia 58317 0.29 合计 732G

2,The Stack数据集

The Stack数据集来自 huggingface,这是一个具有6TB的合法开源代码语料,拥有308种编程语言;

目前仅取了该数据集中的kotlin代码,13G,375万个kotlin代码文件。

 

3,Android 13源代码(aosp),123万个文件:

本项目所有代码文件入库,代码文件(.c,.cpp,.h,.hpp,.java):45万个文件,55亿文字;

 

4,OpenHarmony鸿蒙源代码(2023-02-01/OpenHarmony-v3.2-Beta5):

本项目所有代码文件已入库:81万个文件,90亿文字。

 

安卓与鸿蒙是当前开源软件中的巨无霸,它们的代码已经过时间考验,非常适合拿来使用, 但由于其体量过于巨大,目前没有其它网站能够对其进行全文检索;代码无法检索意味着无法使用,如此巨量且优秀的代码无法使用,是一种巨大的社会浪费。

 

5,A股上市公司2021年年报5505份,有如下内容:

源文件:5505个pdf文件;

提取纯文本:2.5G;

演示小唐对pdf文件内容的搜索及展示。

 

 

二 小唐搜索引擎技术

小唐是一种即时搜索引擎,即在用户输入的同时返回结果,带来丝滑流畅的搜索体验;

ElasticSearch是现有使用最广泛的开源搜索引擎技术,它是基于term(词)的搜索; 小唐搜索引擎技术是基于字符的搜索引擎,可以搜索任意片段,在同等数据达到同等性能条件下,小唐占用的内存更少,节约服务器资源。

小唐搜索引擎技术既可以按分词搜索,也能搜索分词内部,建库时无需考虑分词粒度,傻瓜式建库即可;

即时搜索引擎会浪费服务器算力吗?实际上搜索是人对知识的一种探索,或者说挖掘,是需要跟搜索引擎多次交流才能发现的,越快的反应才能让人越早的得到结果,从而减少服务器的算力消耗。

 

三 技术&数据合作

小唐即时搜索引擎经历了长达7年的研发,有着无与伦比的响应速度,是我国在基础软件方面的巨大创新(搜索引擎技术是一种底层基础技术);

如果贵方有搜索服务需求,欢迎跟我们洽谈合作;

搜索引擎没有数据尤如巧妇难为无米之炊,如果你有数据,欢迎跟我们洽谈,让数据及技术发挥作用。

 

四 联系我们

请发送邮件到tap05#126.com。

 

回到首页