博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Solr6.6.0 用 SimplePostTool索引文件的启示
阅读量:5830 次
发布时间:2019-06-18

本文共 1378 字,大约阅读时间需要 4 分钟。

  本文主要是介绍通过SimplePostTool工具索引文件的结果进行确认,针对不同的文件,索引的结果不同。

  1、创建core

    首先启动solr,建立名称为data的core,SimplePostTool工具使用参照:

    由于导入文件的过程需要用到post.jar这个包,所以先把solr-6.6.0\example\exampledocs文件夹下的post.jar拷贝到solr-6.6.0\bin文件夹下。

    solr start;  solr create -c data

    

 

  2、导入文件

    和solr-6.6.0\bin文件夹同级目录下Import文件夹,下面有以下有8个文件:

    

 

    其中前三个文件都是结构化的,有对应的字段。后面的文件就是非结构化的文件。现在导入

 

    2.12017-07-07_info.csv文件

    内容如下,需要注意的是csv文件由于包含中文,所以必须以utf-8格式保存,否则导入后,中文是乱码

    

 

    2.2、books.json文件

    内容如下,需要注意的是books.json格式不能保存为utf-8的格式,否则导入时报错。

    

   2.3、xml文件

    内容如下,需要注意的是xml文件由于包含中文,所以必须以utf-8格式保存,否则导入后,中文是乱码

    

    

    导入命令:  java -Dauto=yes -Dc=mycore -jar post.jar ..\Import\*.*

    

 

 

  3、配置文件

   注意data\conf下的配置文件managed-schema,注意里面的内容在导入前和导入后的变化,在导入后,对于上面的csv,json和json这三个结构化文档中涉及的字段,都会自动增加到managed-schema文档中

   下面这些字段都是导入过程自动增加的

    

 

   

  4、导入结果查询

    1、2017-07-07_info.csv索引结果

     奇怪的是原来csv文件中title字段,变为了_title,前面增加了一个下划线,经过多次测试,都第一个字段,增加一个下划线。

    

      把文件中的title字段改为scheme,

      

      重新导入,查询结果:scheme字段前面又增加了一个下划线

      

      在CSV文件增加一列blank_title,该列都是空值

       

      重新导入,结果正常,而且blank_title也不会索引

      

 

 

 

 

    2、books.json索引结果

      

    3、mem.xml索引结果

       

    4、十九大报告全文.docx索引结果

    

    同样doc, pdf和txt格式的文件索引结果都是类似的,因此对这样的文件索引要用其它方式。

       

 

   总结:SimplePostTool工具适合索引csv/json/xml这种结构化文档,像doc, pdf和txt这种非结构化,索引数据后无法搜索相关的信息

 

转载于:https://www.cnblogs.com/shaosks/p/7941396.html

你可能感兴趣的文章
11. Java常用类
查看>>
Android应用程序窗口(Activity)的绘图表面(Surface)的创建过程分析
查看>>
数据库返回Hibernate中的get和load有何不同?
查看>>
方法contextOpenNI: 深度图显示方法
查看>>
sdut 2168 Mathmen 优先队列处理区间问题
查看>>
iis 6.0上部署.net 2.0和4.0网站
查看>>
hdu 3665(最短路)
查看>>
HTML <iframe> 标签
查看>>
JSON(Ajax)和JsonP
查看>>
漫谈中国软件(中)
查看>>
九度OJ 1502 最大值最小化(JAVA)
查看>>
算法代码[置顶] 机器学习实战之KNN算法详解
查看>>
leetcode -- Longest Common Prefix
查看>>
郝娜 - 百度百科
查看>>
SmartProg2 Universal, ISP capable programmer
查看>>
jquery常用方法
查看>>
把长方形的图片截取成正方形
查看>>
三大线性排序之基数排序
查看>>
PHP 友好的dump
查看>>
HDU 3473 Minimum Sum(划分树)
查看>>