lunce文件存儲_如何讀取Lucene索引數據

⑴ 如何讀取Lucene索引數據

簡單地說luncence的索引數據是通過調用IndexReader介面讀取的。

lucene的索引一般都比較大，索引數據採用分目錄存儲，每個存儲目錄具有一個DocID，因此在實際的使用時需要依次讀取所有的目錄拼接後再以分頁的方式讀取。
代碼片段：
try{
directory=FSDirectory.open（new
File（indexReadPath））；//打開索引文件夾
IndexReader
reader=DirectoryReader.open（directory）；//讀取目錄
IndexSearcher search=new
IndexSearcher（reader）；//初始化查詢組件
for（int i=0;i
Document
doc=search.doc（i）；//依次獲取每個docid對應的Document
}
reader.close（）；//關閉資源
directory.close（）；//關閉連接

}catch（Exception e）{
e.printStackTrace（）；
}

⑵ 如何讀取Lucene索引數據

方法一：依次根據每個docid獲取文檔然後寫入txt中，這樣的以來，就避免了內存不足的缺點，但是這樣單條讀取的話，速度上可能會慢一點，但能滿足需求無可厚非。偽代碼如下
Java代碼
try{
directory=FSDirectory.open（new File（indexReadPath））；//打開索引文件夾
IndexReader reader=DirectoryReader.open（directory）；//讀取目錄
IndexSearcher search=new IndexSearcher（reader）；//初始化查詢組件
for（int i=0;i
Document doc=search.doc（i）；//依次獲取每個docid對應的Document
//可以在此部，做個批量操作，加快寫入速度
}
reader.close（）；//關閉資源
directory.close（）；//關閉連接
}catch（Exception e）{
e.printStackTrace（）；
}
try{
directory=FSDirectory.open（new File（indexReadPath））；//打開索引文件夾
IndexReader reader=DirectoryReader.open（directory）；//讀取目錄
IndexSearcher search=new IndexSearcher（reader）；//初始化查詢組件
for（int i=0;i
Document doc=search.doc（i）；//依次獲取每個docid對應的Document
//可以在此部，做個批量操作，加快寫入速度
}
reader.close（）；//關閉資源
directory.close（）；//關閉連接
}catch（Exception e）{
e.printStackTrace（）；
}
Lucene的分頁，總的來說有兩種形式，小編總結如下圖表格。（如果存在不合適之處，歡迎指正！）
編號方式優點缺點
1 在ScoresDocs里進行分頁無需再次查詢索引，速度很快在海量數據時，會內存溢出
2 利用SearchAfter,再次查詢分頁適合大批量數據的分頁再次查詢，速度相對慢一點，但可以利用緩存彌補
從上圖我們可以分析出，ScoreDocs適合在數據量不是很大的場景下進行分頁，而SearchAfter則都適合，所以，我們要根據自己的業務需求，合理的選出適合自己的分頁方式。
在我們了解這2中分頁技術的優缺點之後，我們再來探討下上面那個讀2億數據存入txt文本里，在這里，SocreDocs不適合這種場景，當然如果你內存足夠大的話，可以嘗試下，通用分頁分批讀取的方式，可以提升我們的寫入效率，效果是比單條單條讀取的速度是要快很多的。雖然ScoresDocs的分頁方式在本需求上不適合，但是作為示例，下面小編給出使用ScoreDocs進行分頁的代碼：

Java代碼
try{
directory=FSDirectory.open（new File（indexReadPath））；//打開索引文件夾
IndexReader reader=DirectoryReader.open（directory）；//讀取目錄
IndexSearcher search=new IndexSearcher（reader）；//初始化查詢組件
TopDocs all=search.search（new MatchAllDocsQuery（）， 50000）；
int offset=0;//起始位置
int pageSize=30;//分頁的條數
int total=30;//結束條數
int z=0;
while（z<=50）{//總分頁數
System.out.println（"=============================="）；
pageScoreDocs（offset,total,search, all.scoreDocs）；//調用分頁列印
offset=（z*pageSize+pageSize）；//下一頁的位置增量
z++;//分頁數+1;
total=offset+pageSize;//下一次的結束分頁量
}
reader.close（）；//關閉資源
directory.close（）；//關閉連接
}catch（Exception e）{
e.printStackTrace（）；
}
try{
directory=FSDirectory.open（new File（indexReadPath））；//打開索引文件夾
IndexReader reader=DirectoryReader.open（directory）；//讀取目錄
IndexSearcher search=new IndexSearcher（reader）；//初始化查詢組件
TopDocs all=search.search（new MatchAllDocsQuery（）， 50000）；
int offset=0;//起始位置
int pageSize=30;//分頁的條數
int total=30;//結束條數
int z=0;
while（z<=50）{//總分頁數
System.out.println（"=============================="）；
pageScoreDocs（offset,total,search, all.scoreDocs）；//調用分頁列印
offset=（z*pageSize+pageSize）；//下一頁的位置增量
z++;//分頁數+1;
total=offset+pageSize;//下一次的結束分頁量
}
reader.close（）；//關閉資源
directory.close（）；//關閉連接
}catch（Exception e）{
e.printStackTrace（）；
}
Java代碼
public void pageScoreDocs（int offset,int total,IndexSearcher searcher,ScoreDoc[] doc） throws Exception{
//System.out.println（"offset:"+offset+"===>"+total）；
for（int i=offset;i
//System.out.println（"i"+i+"==>"+doc.length）；
if（i>doc.length-1）{//當分頁的長度數大於總數就停止
break;
}else{
Document dosc=searcher.doc（doc[i].doc）；
System.out.println（dosc.get（"name"））；
}
}
public void pageScoreDocs（int offset,int total,IndexSearcher searcher,ScoreDoc[] doc） throws Exception{
//System.out.println（"offset:"+offset+"===>"+total）；
for（int i=offset;i
//System.out.println（"i"+i+"==>"+doc.length）；
if（i>doc.length-1）{//當分頁的長度數大於總數就停止
break;
}else{
Document dosc=searcher.doc（doc[i].doc）；
System.out.println（dosc.get（"name"））；
}
}
最後我們來看下使用SearcherAfter進行分頁的方式，代碼如下：

Java代碼
try{
directory=FSDirectory.open（new File（indexReadPath））；//打開索引文件夾
IndexReader reader=DirectoryReader.open（directory）；//讀取目錄
IndexSearcher search=new IndexSearcher（reader）；//初始化查詢組件
int pageStart=0;
ScoreDoc lastBottom=null;//相當於pageSize
while（pageStart<10）{//這個只有是paged.scoreDocs.length的倍數加一才有可能翻頁操作
TopDocs paged=null;
paged=search.searchAfter（lastBottom, new MatchAllDocsQuery（），null,30）；//查詢首次的30條
if（paged.scoreDocs.length==0）{
break;//如果下一頁的命中數為0的情況下，循環自動結束
}
page（search,paged）；//分頁操作，此步是傳到方法里對數據做處理的
pageStart+=paged.scoreDocs.length;//下一次分頁總在上一次分頁的基礎上
lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的總量-1,成為下一次的lastBottom
}
reader.close（）；//關閉資源
directory.close（）；//關閉連接
}catch（Exception e）{
e.printStackTrace（）；
}
try{
directory=FSDirectory.open（new File（indexReadPath））；//打開索引文件夾
IndexReader reader=DirectoryReader.open（directory）；//讀取目錄
IndexSearcher search=new IndexSearcher（reader）；//初始化查詢組件
int pageStart=0;
ScoreDoc lastBottom=null;//相當於pageSize
while（pageStart<10）{//這個只有是paged.scoreDocs.length的倍數加一才有可能翻頁操作
TopDocs paged=null;
paged=search.searchAfter（lastBottom, new MatchAllDocsQuery（），null,30）；//查詢首次的30條
if（paged.scoreDocs.length==0）{
break;//如果下一頁的命中數為0的情況下，循環自動結束
}
page（search,paged）；//分頁操作，此步是傳到方法里對數據做處理的
pageStart+=paged.scoreDocs.length;//下一次分頁總在上一次分頁的基礎上
lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的總量-1,成為下一次的lastBottom
}
reader.close（）；//關閉資源
directory.close（）；//關閉連接
}catch（Exception e）{
e.printStackTrace（）；
}

⑶ .net項目使用luncence.net.dll 建立的的索引文件,Java項目可以檢索嗎

可以用的，luncence.net.dll也只是個客戶端dll而已服務端還是luncence

⑷ 網頁中輸入文件名稱，在本地文件夾中完成搜索，代碼怎麼實現

用lunce可以實現中文搜索，我寫的一篇日誌，你看看

lunce文件存儲

與lunce文件存儲相關的內容