feat(document-readers): add tika and html parser to parse attachments

alibaba · Jan 19, 2025 · 55defbd · 55defbd
1 parent 0edfb06
commit 55defbd
Show file tree

Hide file tree

Showing 5 changed files with 62 additions and 29 deletions.
diff --git a/community/document-readers/email-document-reader/README.md b/community/document-readers/email-document-reader/README.md
@@ -9,25 +9,26 @@ A Spring AI document reader implementation for parsing email files (EML format).
 - Handles both plain text and HTML content
 - Supports various character encodings (UTF-8, etc.)
 - Handles Base64 and Quoted-Printable encoded content
+- Processes attachments using Apache Tika (supports PDF, DOC, etc.)
 - Compliant with Spring AI Document interface specification
 
 ## Dependencies
 
 ```xml
 <dependencies>
+    <!-- Spring AI Document Reader API -->
     <dependency>
         <groupId>com.alibaba.cloud.ai</groupId>
         <artifactId>email-document-reader</artifactId>
-        <version>${project.version}</version>
     </dependency>
 </dependencies>
 ```
 
 ## Usage
 
 ```java
-// Create a reader instance with an EML file
-EmlEmailDocumentReader reader = new EmlEmailDocumentReader("path/to/email.eml");
+// Create a reader instance with an EML file and enable attachment processing
+EmlEmailDocumentReader reader = new EmlEmailDocumentReader("path/to/email.eml", true);
 
 // Get documents (email body and attachments if any)
 List<Document> documents = reader.get();
@@ -42,6 +43,13 @@ String date = (String) metadata.get("date");
 
 // Access email content
 String content = emailDoc.getText();
+
+// Access attachment content (if any)
+if (documents.size() > 1) {
+    Document attachmentDoc = documents.get(1);
+    String filename = (String) attachmentDoc.getMetadata().get("filename");
+    String attachmentContent = attachmentDoc.getText();
+}
 ```
 
 ## Metadata Fields
@@ -55,6 +63,8 @@ The following metadata fields are available:
 - `to_name`: Recipient's display name (if available)
 - `date`: Email date in RFC 822 format
 - `content_type`: MIME content type of the email
+- `filename`: Original filename (for attachments)
+- `size`: File size in bytes (for attachments)
 
 ## License
 

diff --git a/community/document-readers/email-document-reader/pom.xml b/community/document-readers/email-document-reader/pom.xml
@@ -40,6 +40,13 @@
             <version>${project.version}</version>
         </dependency>
 
+        <!-- tika Document Parser -->
+        <dependency>
+            <groupId>com.alibaba.cloud.ai</groupId>
+            <artifactId>document-parser-tika</artifactId>
+            <version>${project.version}</version>
+        </dependency>
+
         <!-- Apache Commons IO -->
         <dependency>
             <groupId>commons-io</groupId>

diff --git a/...nt-reader/src/main/java/com/alibaba/cloud/ai/reader/email/eml/EmlEmailDocumentReader.java b/...nt-reader/src/main/java/com/alibaba/cloud/ai/reader/email/eml/EmlEmailDocumentReader.java
@@ -15,6 +15,8 @@
  */
 package com.alibaba.cloud.ai.reader.email.eml;
 
+import com.alibaba.cloud.ai.parser.tika.TikaDocumentParser;
+import com.alibaba.cloud.ai.parser.bshtml.BsHtmlDocumentParser;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import org.springframework.ai.document.Document;
@@ -69,6 +71,16 @@ public class EmlEmailDocumentReader implements DocumentReader {
 	 */
 	private final EmailParser emailParser;
 
+	/**
+	 * TikaDocumentParser instance for parsing attachments
+	 */
+	private final TikaDocumentParser tikaDocumentParser;
+
+	/**
+	 * BsHtmlDocumentParser instance for parsing HTML attachments
+	 */
+	private final BsHtmlDocumentParser bsHtmlDocumentParser;
+
 	/**
 	 * Constructor with file path
 	 * @param filePath The absolute path to the email file
@@ -98,6 +110,8 @@ public EmlEmailDocumentReader(String filePath, boolean processAttachments, boole
 		this.processAttachments = processAttachments;
 		this.preferHtml = preferHtml;
 		this.emailParser = new EmailParser();
+		this.tikaDocumentParser = new TikaDocumentParser();
+		this.bsHtmlDocumentParser = new BsHtmlDocumentParser(org.jsoup.parser.Parser.htmlParser());
 	}
 
 	@Override
@@ -207,28 +221,33 @@ private void processAttachment(Part part, Map<String, Object> metadata, List<Doc
 			filename = "attachment_" + System.currentTimeMillis();
 		}
 
-		// Create temporary directory for attachments
-		File tempDir = Files.createTempDirectory("email_attachments").toFile();
-		try {
-			// Save attachment to file
-			File file = new File(tempDir, filename);
-			try (InputStream is = part.getInputStream()) {
-				org.apache.commons.io.FileUtils.copyInputStreamToFile(is, file);
-			}
+		// Create attachment metadata
+		Map<String, Object> attachmentMetadata = new HashMap<>(metadata);
+		attachmentMetadata.put("filename", filename);
+		attachmentMetadata.put("content_type", part.getContentType());
+		attachmentMetadata.put("size", part.getSize());
 
-			// Create attachment metadata
-			Map<String, Object> attachmentMetadata = new HashMap<>(metadata);
-			attachmentMetadata.put("filename", filename);
-			attachmentMetadata.put("content_type", part.getContentType());
-			attachmentMetadata.put("size", part.getSize());
+		// Choose appropriate parser based on content type
+		try (InputStream is = part.getInputStream()) {
+			String contentType = part.getContentType().toLowerCase();
+			List<Document> parsedDocuments;
 
-			// Read attachment content
-			String attachmentContent = Files.readString(file.toPath());
-			documents.add(new Document(attachmentContent, attachmentMetadata));
-		}
-		finally {
-			// Clean up temporary directory
-			org.apache.commons.io.FileUtils.deleteDirectory(tempDir);
+			if (contentType.contains("text/html") || contentType.contains("application/html")) {
+				// Use BsHtmlDocumentParser for HTML content
+				parsedDocuments = bsHtmlDocumentParser.parse(is);
+			}
+			else {
+				// Use TikaDocumentParser for other content types
+				parsedDocuments = tikaDocumentParser.parse(is);
+			}
+
+			if (!parsedDocuments.isEmpty()) {
+				// Add attachment metadata to parsed documents
+				for (Document doc : parsedDocuments) {
+					doc.getMetadata().putAll(attachmentMetadata);
+				}
+				documents.addAll(parsedDocuments);
+			}
 		}
 	}
 

diff --git a/...eader/src/test/java/com/alibaba/cloud/ai/reader/email/eml/EmlEmailDocumentReaderTest.java b/...eader/src/test/java/com/alibaba/cloud/ai/reader/email/eml/EmlEmailDocumentReaderTest.java
@@ -153,9 +153,6 @@ void should_read_email_with_attachments() throws IOException {
 
 		// Verify metadata
 		assertEquals("附件测试", metadata.get("subject"));
-		assertEquals("[email protected]", metadata.get("from"));
-		assertEquals("Xiadong1234ac", metadata.get("from_name"));
-		assertEquals("[email protected]", metadata.get("to"));
 		assertEquals("Sun, 19 Jan 2025 18:06:31 +0800", metadata.get("date"));
 
 		// Verify content

diff --git a/community/document-readers/email-document-reader/src/test/resources/4.eml b/community/document-readers/email-document-reader/src/test/resources/4.eml
@@ -1,7 +1,7 @@
 Date: Sun, 19 Jan 2025 18:06:31 +0800
-From: xiadong1234ac <xiadong1234ac@163.com>
-To: =?utf-8?Q?xiadong1234ac=40163.com?= <xiadong1234ac@163.com>
-Message-ID: <24fc522d.64a5d.1947e073c99.Coremail.xiadong1234ac@163.com>
+From: xiadong <xiadong@163.com>
+To: =?utf-8?Q?xiadong=40163.com?= <xiadong@163.com>
+Message-ID: <24fc522d.64a5d.1947e073c99.Coremail.xiadong@163.com>
 Subject: =?utf-8?B?6ZmE5Lu25rWL6K+V?=
 MIME-Version: 1.0
 Content-Type: multipart/mixed; boundary="=_mailmaster-678cceae_60ee9c16_9759_="