本指南将引导您完成创建基本的批处理驱动的解决方案的过程。

你会建立什么

您将构建一个服务,该服务从CSV电子表格导入数据,使用自定义代码对其进行转换,然后将最终结果存储在数据库中。

你需要什么

如何完成本指南

像大多数Spring 入门指南一样,您可以从头开始并完成每个步骤,也可以绕过您已经熟悉的基本设置步骤。无论哪种方式,您最终都可以使用工作代码。

从头开始 ,请继续进行“ 从Spring Initializr开始”

跳过基础知识 ,请执行以下操作:

完成后 ,您可以根据中的代码检查结果gs-batch-processing/complete

业务资料

通常,您的客户或业务分析师提供电子表格。对于这个简单的示例,您可以在以下位置找到一些虚构数据src/main/resources/sample-data.csv

Jill,Doe
Joe,Doe
Justin,Doe
Jane,Doe
John,Doe

该电子表格在每行上包含一个名字和一个姓氏,用逗号分隔。这是Spring无需定制即可处理的相当普遍的模式。

接下来,您需要编写一个SQL脚本来创建一个表来存储数据。您可以在以下位置找到这样的脚本src/main/resources/schema-all.sql

DROP TABLE people IF EXISTS;

CREATE TABLE people  (
    person_id BIGINT IDENTITY NOT NULL PRIMARY KEY,
    first_name VARCHAR(20),
    last_name VARCHAR(20)
);
Spring Boot运行[email protected]@[email protected]@.sql在启动过程中自动运行。 -all是所有平台的默认设置。

从Spring Initializr开始

对于所有Spring应用程序,您应该从Spring Initializr开始。Initializr提供了一种快速的方法来提取应用程序所需的所有依赖关系,并为您完成了许多设置。此示例需要Spring Batch和HyperSQL数据库依赖项。下图显示了此示例项目的Initializr设置:

初始化
上图显示了选择Maven作为构建工具的Initializr。您也可以使用Gradle。它还显示了com.examplebatch-processing分别是Group和Artifact。在本示例的其余部分中,将使用这些值。

以下清单显示了pom.xml选择Maven时创建的文件:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
	<modelVersion>4.0.0</modelVersion>
	<parent>
		<groupId>org.springframework.boot</groupId>
		<artifactId>spring-boot-starter-parent</artifactId>
		<version>2.1.8.RELEASE</version>
		<relativePath/> <!-- lookup parent from repository -->
	</parent>
	<groupId>com.example</groupId>
	<artifactId>batch-processing</artifactId>
	<version>0.0.1-SNAPSHOT</version>
	<name>batch-processing</name>
	<description>Demo project for Spring Boot</description>

	<properties>
		<java.version>1.8</java.version>
	</properties>

	<dependencies>
		<dependency>
			<groupId>org.springframework.boot</groupId>
			<artifactId>spring-boot-starter-batch</artifactId>
		</dependency>

		<dependency>
			<groupId>org.hsqldb</groupId>
			<artifactId>hsqldb</artifactId>
			<scope>runtime</scope>
		</dependency>
		<dependency>
			<groupId>org.springframework.boot</groupId>
			<artifactId>spring-boot-starter-test</artifactId>
			<scope>test</scope>
		</dependency>
		<dependency>
			<groupId>org.springframework.batch</groupId>
			<artifactId>spring-batch-test</artifactId>
			<scope>test</scope>
		</dependency>
	</dependencies>

	<build>
		<plugins>
			<plugin>
				<groupId>org.springframework.boot</groupId>
				<artifactId>spring-boot-maven-plugin</artifactId>
			</plugin>
		</plugins>
	</build>

</project>

以下清单显示了build.gradle选择Gradle时创建的文件:

plugins {
	id 'org.springframework.boot' version '2.1.8.RELEASE'
	id 'io.spring.dependency-management' version '1.0.8.RELEASE'
	id 'java'
}

group = 'com.example'
version = '0.0.1-SNAPSHOT'
sourceCompatibility = '1.8'

repositories {
	mavenCentral()
}

dependencies {
	implementation 'org.springframework.boot:spring-boot-starter-batch'
	runtimeOnly 'org.hsqldb:hsqldb'
	testImplementation 'org.springframework.boot:spring-boot-starter-test'
	testImplementation 'org.springframework.batch:spring-batch-test'
}

创建业务类

现在您可以看到数据输入和输出的格式,可以编写代码来代表一行数据,如以下示例所示(来自src/main/java/com/example/batchprocessing/Person.java )显示:

package com.example.batchprocessing;

public class Person {

    private String lastName;
    private String firstName;

    public Person() {
    }

    public Person(String firstName, String lastName) {
        this.firstName = firstName;
        this.lastName = lastName;
    }

    public void setFirstName(String firstName) {
        this.firstName = firstName;
    }

    public String getFirstName() {
        return firstName;
    }

    public String getLastName() {
        return lastName;
    }

    public void setLastName(String lastName) {
        this.lastName = lastName;
    }

    @Override
    public String toString() {
        return "firstName: " + firstName + ", lastName: " + lastName;
    }

}

您可以实例化Person类,可以通过构造函数或通过设置属性来使用名字和姓氏。

创建一个中间处理器

批处理中的常见范例是摄取数据,对其进行转换,然后将其通过管道传输到其他地方。在这里,您需要编写一个简单的转换器,将名称转换为大写。以下清单(来自src/main/java/com/example/batchprocessing/PersonItemProcessor.java )显示了操作方法:

package com.example.batchprocessing;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import org.springframework.batch.item.ItemProcessor;

public class PersonItemProcessor implements ItemProcessor<Person, Person> {

    private static final Logger log = LoggerFactory.getLogger(PersonItemProcessor.class);

    @Override
    public Person process(final Person person) throws Exception {
        final String firstName = person.getFirstName().toUpperCase();
        final String lastName = person.getLastName().toUpperCase();

        final Person transformedPerson = new Person(firstName, lastName);

        log.info("Converting (" + person + ") into (" + transformedPerson + ")");

        return transformedPerson;
    }

}

PersonItemProcessor实现Spring Batch的ItemProcessor接口。这样可以很容易地将代码连接到批处理作业中,您将在本指南的后面定义。根据界面,您收到Person对象,之后将其转换为大写Person

输入和输出类型不必相同。实际上,在读取了一个数据源之后,有时应用程序的数据流需要另一种数据类型。

汇总批处理作业

现在,您需要整理实际的批处理作业。Spring Batch提供了许多实用程序类,这些实用程序类减少了编写自定义代码的需求。相反,您可以专注于业务逻辑。

要配置您的工作,您必须首先创建一个Spring @Configuration类类似于以下示例src/main/java/com/exampe/batchprocessing/BatchConfiguration.java

@Configuration
@EnableBatchProcessing
public class BatchConfiguration {

    @Autowired
    public JobBuilderFactory jobBuilderFactory;

    @Autowired
    public StepBuilderFactory stepBuilderFactory;

    ...

}

对于初学者, @EnableBatchProcessing注释添加了许多关 key beans ,这些 bean 可以支持工作并为您节省很多工作。本示例使用基于内存的数据库(由@EnableBatchProcessing ),表示完成后数据就消失了。它还为下面需要的几个工厂自动接线。现在将以下 bean 添加到您的BatchConfiguration定义读取器,处理器和写入器的类:

@Bean
public FlatFileItemReader<Person> reader() {
    return new FlatFileItemReaderBuilder<Person>()
        .name("personItemReader")
        .resource(new ClassPathResource("sample-data.csv"))
        .delimited()
        .names(new String[]{"firstName", "lastName"})
        .fieldSetMapper(new BeanWrapperFieldSetMapper<Person>() {{
            setTargetType(Person.class);
        }})
        .build();
}

@Bean
public PersonItemProcessor processor() {
    return new PersonItemProcessor();
}

@Bean
public JdbcBatchItemWriter<Person> writer(DataSource dataSource) {
    return new JdbcBatchItemWriterBuilder<Person>()
        .itemSqlParameterSourceProvider(new BeanPropertyItemSqlParameterSourceProvider<>())
        .sql("INSERT INTO people (first_name, last_name) VALUES (:firstName, :lastName)")
        .dataSource(dataSource)
        .build();
}

第一部分代码定义了输入,处理器和输出。

  • reader()创建一个ItemReader 。它寻找一个名为sample-data.csv并解析每个订单项足够的信息,以将其转化为Person

  • processor()创建一个实例PersonItemProcessor您之前定义的意思是将数据转换为大写。

  • write(DataSource)创建一个ItemWriter 。这是针对JDBC目标的,并自动获取由创建的dataSource的副本。 @EnableBatchProcessing 。它包括插入单个所需的SQL语句Person ,由Java bean属性驱动。

最后一块(来自src/main/java/com/example/batchprocessing/BatchConfiguration.java )显示了实际的作业配置:

@Bean
public Job importUserJob(JobCompletionNotificationListener listener, Step step1) {
    return jobBuilderFactory.get("importUserJob")
        .incrementer(new RunIdIncrementer())
        .listener(listener)
        .flow(step1)
        .end()
        .build();
}

@Bean
public Step step1(JdbcBatchItemWriter<Person> writer) {
    return stepBuilderFactory.get("step1")
        .<Person, Person> chunk(10)
        .reader(reader())
        .processor(processor())
        .writer(writer)
        .build();
}

第一种方法定义作业,第二种方法定义一个步骤。作业是按步骤构建的,其中每个步骤都可以涉及阅读器,处理器和编写器。

在此作业定义中,您需要一个增量器,因为作业使用数据库来维护执行状态。然后,您列出了每个步骤(尽管此作业只有一个步骤)。作业结束,并且Java API产生了配置完美的作业。

在步骤定义中,您定义一次要写入多少数据。在这种情况下,它一次最多写入10条记录。接下来,使用前面注入的位来配置读取器,处理器和写入器。

chunk()带前缀因为它是通用方法这表示每个“块”处理的输入和输出类型,并与ItemReaderItemWriter

批处理配置的最后一位是在作业完成时获得通知的方法。以下示例(摘自src/main/java/com/example/batchprocessing/JobCompletionNotificationListener.java )显示了此类:

package com.example.batchprocessing;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.batch.core.BatchStatus;
import org.springframework.batch.core.JobExecution;
import org.springframework.batch.core.listener.JobExecutionListenerSupport;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.jdbc.core.JdbcTemplate;
import org.springframework.stereotype.Component;

@Component
public class JobCompletionNotificationListener extends JobExecutionListenerSupport {

	private static final Logger log = LoggerFactory.getLogger(JobCompletionNotificationListener.class);

	private final JdbcTemplate jdbcTemplate;

	@Autowired
	public JobCompletionNotificationListener(JdbcTemplate jdbcTemplate) {
		this.jdbcTemplate = jdbcTemplate;
	}

	@Override
	public void afterJob(JobExecution jobExecution) {
		if(jobExecution.getStatus() == BatchStatus.COMPLETED) {
			log.info("!!! JOB FINISHED! Time to verify the results");

			jdbcTemplate.query("SELECT first_name, last_name FROM people",
				(rs, row) -> new Person(
					rs.getString(1),
					rs.getString(2))
			).forEach(person -> log.info("Found <" + person + "> in the database."));
		}
	}
}

JobCompletionNotificationListener在工作时听BatchStatus.COMPLETED然后使用JdbcTemplate检查结果。

使应用程序可执行

尽管批处理可以嵌入到Web应用程序和WAR文件中,但是下面演示的更简单的方法创建了一个独立的应用程序。您将所有内容打包在一个可运行的JAR文件中,由一个好的旧Java驱动main()方法。

Spring Initializr为您创建了一个应用程序类。对于这个简单的示例,它无需进一步修改即可工作。以下列表(来自src/main/java/com/example/batchprocessing/BatchProcessingApplication.java )显示了应用程序类:

package com.example.batchprocessing;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;

@SpringBootApplication
public class BatchProcessingApplication {

    public static void main(String[] args) throws Exception {
        SpringApplication.run(BatchProcessingApplication.class, args);
    }
}

@SpringBootApplication是一个方便注释,它添加了以下所有内容:

  • @Configuration :将类标记为应用程序上下文的Bean定义的源。

  • @EnableAutoConfiguration :告诉Spring Boot根据类路径设置,其他bean和各种属性设置开始添加bean。例如,如果spring-webmvc在类路径上,此注释将应用程序标记为Web应用程序并激活关键行为,例如设置DispatcherServlet

  • @ComponentScan :告诉Spring在其中寻找其他组件,配置和服务com/example包,让它找到控制器。

main()方法使用Spring Boot的SpringApplication.run()启动应用程序的方法。您是否注意到没有一行XML?没有web.xml文件。该Web应用程序是100%纯Java,因此您无需处理任何管道或基础结构。

出于演示目的,有一些代码可以创建一个JdbcTemplate ,查询数据库,并打印出批处理作业插入的人员的姓名。

构建可执行的JAR

您可以使用Gradle或Maven从命令行运行该应用程序。您还可以构建一个包含所有必需的依赖项,类和资源的可执行JAR文件,然后运行该文件。构建可执行的jar使得在整个开发生命周期中,跨不同环境等等的情况下,可以轻松地将服务作为应用程序进行发布,版本化和部署。

如果您使用Gradle,则可以使用./gradlew bootRun 。或者,您可以通过使用以下命令构建JAR文件: ./gradlew build然后运行JAR文件,如下所示:

java -jar build/libs/gs-batch-processing-0.1.0.jar

如果使用Maven,则可以通过使用以下命令运行应用程序./mvnw spring-boot:run 。或者,您可以使用以下命令构建JAR文件: ./mvnw clean package然后运行JAR文件,如下所示:

java -jar target/gs-batch-processing-0.1.0.jar
此处描述的步骤将创建可运行的JAR。您还可以构建经典的WAR文件

这项工作为每个要转变的人打印一行。作业运行后,您还可以查看查询数据库的输出。它应该类似于以下输出:

Converting (firstName: Jill, lastName: Doe) into (firstName: JILL, lastName: DOE)
Converting (firstName: Joe, lastName: Doe) into (firstName: JOE, lastName: DOE)
Converting (firstName: Justin, lastName: Doe) into (firstName: JUSTIN, lastName: DOE)
Converting (firstName: Jane, lastName: Doe) into (firstName: JANE, lastName: DOE)
Converting (firstName: John, lastName: Doe) into (firstName: JOHN, lastName: DOE)
Found <firstName: JILL, lastName: DOE> in the database.
Found <firstName: JOE, lastName: DOE> in the database.
Found <firstName: JUSTIN, lastName: DOE> in the database.
Found <firstName: JANE, lastName: DOE> in the database.
Found <firstName: JOHN, lastName: DOE> in the database.

摘要

恭喜你!您构建了一个批处理作业,该作业从电子表格中提取数据,对其进行处理,然后将其写入数据库。

也可以看看

以下指南也可能会有所帮助:

是否要编写新指南或为现有指南做出贡献?查看我们的贡献准则

所有指南均以代码的ASLv2许可证和写作的Attribution,NoDerivatives创作共用许可证发布