In a previous article, I showed how to set up a web application to use microservices with just the bare minimum of effort. However, that can result in some limitations, such as the presentation layer (or API Gateway) that aggregates the results of the microservices using hard-coded endpoint addresses (e.g. http://localhost:8888/api/v1/fromurl).

In actual practice, this should be avoided, because the host is unlikely to be local, but rather an IP address or a symbolic name, which could change, if not from day to day, then sometime. The port number could change too. To solve this, a microservices architecture would need a registry of some sort that could keep track of services. There are a few readily available, but I decided that in this case, I would try to write my own, just to get a flavor of what’s involved. I also was curious to see how one might go about solving one of the security issues that I see with microservices: how can rogue services be prevented from registering and getting used.

How would one go about setting up a registry? Let’s start with what it needs to do. In many situations, the registry can play either a passive role, waiting for services to act, or an active role, or it could do both. Let’s see:

  1. It lets services enroll themselves/It goes out and discovers services
  2. It lets service clients look up services/It sends out notifications of what services are available
  3. It listens for periodic “heartbeat” signals from services/It sends are-you-there messages to services

Enrollment vs. Discovery

If services have the responsibility of enrolling themselves with a registry, then the registry address is probably going to need to be fixed and partially hard-coded in the services, otherwise they’ll need a registry where they can look up the registry, recursing infinitely. The registry location could be made available as an environment setting, but if the registry address changes, the microservice will at least have to be restarted. Nevertheless, self-enrollment seems like a fairly simple design to implement.

On the other hand, if the registry needs to go out and discover the services, the situation gets more complicated. The registry needs an address and/or port range to search over, it needs to know how to identify a microservice from some other kind of web service or API server, and it needs a defined frequency with which to scan to learn about new services. This approach could create unwanted network spam traffic and security issues (it could conflate legitimate registry scans from malignant scans). However, discovery scans could also serve as presence tests to see which services are still available.

Service Lookup vs. Broadcast

A registry could wait for clients to look up the services they need. That way clients may get an almost real-time status of service availability (almost because any service status that the registry has may already be outdated by the time it receives it). Depending upon the number of clients and the number of services they use, this could make the registry very busy. To relieve the registry load, it’s possible that clients could cache the lookup results for some period of time.

Conversely, the registry could periodically broadcast which services are available. Then it wouldn’t be so busy. However, this could lead to the possibility that clients are operating with outdated information.

Which approach is best depends on how often services become unavailable or new services come online, and how critical it is for clients to have the latest status.

Collecting Heartbeats vs. Pinging

Similar to enrollment and service lookup, the registry could listen for service heartbeats. Whenever it receives a heartbeat from a service, the registry could set the last-contact time for that service. When clients look up a service, the registry would check the time elapsed since last contact, and if it is within some threshold, provide the address. It could also provide an indicator of quality. Clients could then use that to adjust their timeout periods, for example.

(As an aside, providing stale information rather than no information seems like a bad idea. Recently my phone didn’t have a signal inside the hotel I was staying at, so it showed me the last weather forecast it had. When I went outside, the weather had changed dramatically.)

The registry could also periodically ping every service that it knows about to see whether it is still there. This approach could go wrong if the service was too busy or some other network issue caused the server to not get a response and consequently mark the service as erroneously unavailable.

Time to Choose a Strategy

Picking a strategy for one aspect of the registry impacts the choices for the other aspects as well. It seems like service initiated enrollments and heartbeats go hand-in-hand, while discover and ping are more compatible together.

Client lookup vs registry broadcast of available services has no clear winner, though with broadcast the system would also need a messaging queue, so that’s just shifting the load elsewhere. Client-side caching might have the same net results as broadcast, as opposed to 100% on-demand lookups.

With that discussion out of the way, it’s time to pick some options. I chose service registration/heartbeat, and client-initiated lookup. This may not be my choice in a live system, but it’s what I chose to build for this exercise.

My registry is implemented using almost the same pattern as the other micro-services. It is a Tornado web app that listens for POST messages from services wanting to enroll themselves, and GET requests from clients looking up services. It has two API endpoint handlers, RegistryHandler and HeartbeatHandler. Let’s take the RegistryHandler first.

[pastacode lang=”python” manual=”registry%20%3D%20%7B%7D%0Aclass%20RegistryHandler(tornado.web.RequestHandler)%3A%0A%20%20%20%20def%20get(self)%3A%0A%20%20%20%20%20%20%20%20service_name%20%3D%20self.get_argument(‘service_name’)%0A%20%20%20%20%20%20%20%20if%20service_name%20in%20registry%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20service%20%3D%20registry%5Bservice_name%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20self.write(json.dumps(%7B’data’%3A%20%7B’name’%3Aservice.name%2C%20’url’%3Aservice.url%2C%20%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20’port’%3Aservice.port%7D%7D))%0A%20%20%20%20%20%20%20%20%20%20%20%20self.set_header(‘Content-Type’%2C%20’application%2Fjson’)%0A%20%20%20%20%20%20%20%20%20%20%20%20self.set_status(HTTP_STATUS_OK)%0A%20%20%20%20%20%20%20%20else%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20self.set_status(HTTP_STATUS_BAD_REQUEST%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20’Service%20is%20not%20registered%3A%20%7B0%7D’.format(service_name))%0A%20%20%20%20def%20post(self)%3A%0A%20%20%20%20%20%20%20%20service_name%20%3D%20self.get_argument(‘name’)%0A%20%20%20%20%20%20%20%20service_url%20%3D%20self.get_argument(‘url’)%0A%20%20%20%20%20%20%20%20service_port%20%3D%20int(self.get_argument(‘port’))%0A%20%20%20%20%20%20%20%20http_client%20%3D%20AsyncHTTPClient()%0A%20%20%20%20%20%20%20%20data%20%3D%20urlencode(%7B’challenge’%3A%20CHALLENGE%2C%20’secret’%3Adatetime.now().timestamp()%7D)%0A%20%20%20%20%20%20%20%20http_client.fetch(‘%7B0%7D%3A%7B1%7D%2Fapi%2Fv1%2Fverify%2F’.format(service_url%2C%20service_port)%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20handle_challenge%2C%20method%3D’POST’%2C%20headers%3DNone%2C%20body%3Ddata)%0A%20%20%20%20%20%20%20%20self.set_status(HTTP_STATUS_OK)” message=”” highlight=”” provider=”manual”/]

Microservices use the POST method to register themselves. In the sequence diagram below, this is step 1. A microservice sends its name, server (either hostname or IP) and the port where it listens. In order to mutually authenticate the registry and the service, the registry initiates a separate request (step 2) to a Verify endpoint of the microservice, using the connection information that the service provided. This is the http_client.fetch line in the post method of the code above. The server sends a known challenge query, and the service must send back a pre-agreed response. The response from the service is processed in a handler method that is in the same file as the RegistryHandler class above:

[pastacode lang=”python” manual=”def%20handle_challenge(response)%3A%0A%20%20%20%20resp_j%20%3D%20json.loads(response.body.decode())%0A%20%20%20%20reply%20%3D%20resp_j%5B’reply’%5D%0A%20%20%20%20if%20reply%20%3D%3D%20RESPONSE%3A%0A%20%20%20%20%20%20%20%20service_name%20%3D%20resp_j%5B’name’%5D%0A%20%20%20%20%20%20%20%20service_url%20%3D%20resp_j%5B’url’%5D%0A%20%20%20%20%20%20%20%20service_port%20%3D%20int(resp_j%5B’port’%5D)%0A%20%20%20%20%20%20%20%20service%20%3D%20ServiceMeta(service_name%2C%20service_url%2C%20service_port)%0A%20%20%20%20%20%20%20%20service.secret%20%3D%20resp_j%5B’secret’%5D%0A%20%20%20%20%20%20%20%20registry%5Bservice_name%5D%20%3D%20service” message=”” highlight=”” provider=”manual”/]

In addition to the challenge/response authenticaton, the registry also sends a session secret that is unique to this microservice, so that in the future the registry recognizes this service as one that it has already authenticated. In practice, all these authentications could be done using PKI, but to demonstrate the concepts, for now, they are done using plain text strings.

 

On the microservice side, the registration process is the same across all services, so this creates a good opportunity for doing some refactoring and creating an abstract base class that encapsulates the registration and heartbeat methods.

The Microservice class defines a  start  method, which must be called by whatever process or command runs the microservice. This start  method creates the Tornado app (make_app), sets up the port, calls a method to register the microservice with the registry ( register_service ), and sets up a “pinger” that runs in a timer loop and performs the heartbeat function.

[pastacode lang=”python” manual=”class%20Microservice%3A%0A%20%20%20%20def%20__new__(cls%2C%20*args%2C%20**kwargs)%3A%0A%20%20%20%20%20%20%20%20new_class%20%3D%20super(Microservice%2C%20cls).__new__(cls%2C%20*args%2C%20**kwargs)%0A%20%20%20%20%20%20%20%20opts%20%3D%20getattr(new_class%2C%20’Meta’%2C%20None)%0A%20%20%20%20%20%20%20%20new_class._meta%20%3D%20opts%0A%20%20%20%20%20%20%20%20return%20new_class%0A%20%20%20%20def%20register_service(self)%3A%0A%20%20%20%20%20%20%20%20data%20%3D%20%7B’name’%3A%20self._meta.name%2C%20’url’%3A%20self._meta.url%2C%20’port’%3A%20self._meta.port%7D%0A%20%20%20%20%20%20%20%20response%20%3D%20requests.post(‘%7B0%7D%3A%7B1%7D%2Fapi%2Fv1%2Fregister%2F’.format(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20REGISTRY_URL%2C%20REGISTRY_PORT)%2C%20data%3Ddata)%0A%20%20%20%20def%20make_app(self)%3A%0A%20%20%20%20%20%20%20%20handlers%20%3D%20self.handlers()%0A%20%20%20%20%20%20%20%20handlers.append((r%22%2Fapi%2Fv1%2Fverify%2F%22%2C%20VerificationHandler%2C%20dict(info%3Dself._meta)))%0A%20%20%20%20%20%20%20%20return%20tornado.web.Application(handlers)%0A%20%20%20%20def%20handlers(self)%3A%0A%20%20%20%20%20%20%20%20raise%20NotImplementedError()%0A%20%20%20%20def%20ping(self)%3A%0A%20%20%20%20%20%20%20%20http_client%20%3D%20AsyncHTTPClient()%0A%20%20%20%20%20%20%20%20data%20%3D%20urlencode(%7B’name’%3A%20self._meta.name%2C%20’url’%3A%20self._meta.url%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20’port’%3A%20self._meta.port%2C%20’secret’%3A%20self._meta.secret%7D)%0A%20%20%20%20%20%20%20%20http_client.fetch(‘%7B0%7D%3A%7B1%7D%2Fapi%2Fv1%2Fping%2F’.format(REGISTRY_URL%2C%20REGISTRY_PORT)%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20handle_pong%2C%20method%3D’POST’%2C%20headers%3DNone%2C%20body%3Ddata)%0A%20%20%20%20def%20start(self)%3A%0A%20%20%20%20%20%20%20%20app%20%3D%20self.make_app()%0A%20%20%20%20%20%20%20%20app.listen(self._meta.port)%0A%20%20%20%20%20%20%20%20self.register_service()%0A%20%20%20%20%20%20%20%20pinger%20%3D%20tornado.ioloop.PeriodicCallback(self.ping%2C%20HEARTBEAT_INTERVAL*1000)%0A%20%20%20%20%20%20%20%20pinger.start()%0A%20%20%20%20%20%20%20%20tornado.ioloop.IOLoop.current().start()” message=”” highlight=”” provider=”manual”/]

Subclasses of Microservice must implement a nested Meta class and a  handlers  method.  These are discussed further below. The Microservice class also sets up a handler called VerificationHandler, which responds to the verify request from the registry during the initial registration step. VerificationHandler just checks that the registry provided the correct challenge, then sends back the same connection information as before, taking it from the Meta nested class that is passed in, and the secret that the registry sent.

[pastacode lang=”python” manual=”class%20VerificationHandler(tornado.web.RequestHandler)%3A%0A%20%20%20%20def%20initialize(self%2C%20info)%3A%0A%20%20%20%20%20%20%20%20self.info%20%3D%20info%0A%20%20%20%20def%20post(self)%3A%0A%20%20%20%20%20%20%20%20challenge%20%3D%20self.get_argument(%22challenge%22)%0A%20%20%20%20%20%20%20%20if%20challenge%20%3D%3D%20CHALLENGE%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20self.info.secret%20%3D%20self.get_argument(‘secret’%2C%20None)%0A%20%20%20%20%20%20%20%20%20%20%20%20resp%20%3D%20json.dumps(%7B’name’%3A%20self.info.name%2C%20’url’%3A%20self.info.url%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20’port’%3A%20self.info.port%2C%20’reply’%3A%20RESPONSE%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20’secret’%3A%20self.info.secret%7D)%0A%20%20%20%20%20%20%20%20%20%20%20%20self.write(resp)%0A%20%20%20%20%20%20%20%20%20%20%20%20self.set_header(‘Content-Type’%2C%20’application%2Fjson’)%0A%20%20%20%20%20%20%20%20%20%20%20%20self.set_status(HTTP_STATUS_OK)%0Adef%20handle_pong(response)%3A%0A%20%20%20%20pass” message=”” highlight=”” provider=”manual”/]

Hard-coding the microservice address information in a nested Meta class makes it less dynamic, of course, but it does the trick for this example. However, this lets the Microservice parent class read the properties whenever it is instantiating a new VerificationHandler class (which is only done once, in this example). The other requirement imposed by Microservice is a handlers method, which supplies the handlers that will provide the desired functionality of this microservice. This is how a concrete child class looks:

[pastacode lang=”markup” manual=”class%20FetchUrlService(Microservice)%3A%0A%20%20%20%20class%20Meta%3A%0A%20%20%20%20%20%20%20%20name%20%3D%20’fetch_url’%0A%20%20%20%20%20%20%20%20url%20%3D%20’http%3A%2F%2Flocalhost’%0A%20%20%20%20%20%20%20%20port%20%3D%208888%0A%20%20%20%20%20%20%20%20secret%20%3D%20None%0A%20%20%20%20def%20handlers(self)%3A%0A%20%20%20%20%20%20%20%20return%20%5B%0A%20%20%20%20%20%20%20%20%20%20%20%20(r%22%2Fapi%2Fv1%2Ffetchurl%2F%22%2C%20URLHandler)%2C%0A%20%20%20%20%20%20%20%20%5D” message=”” highlight=”” provider=”manual”/]

With the registry in place, a client that needs to use a microservice can look up the service by name in order to get its address.

[pastacode lang=”python” manual=”def%20post(self%2C%20request%2C%20*args%2C%20**kwargs)%3A%0A%20%20%20%20form%20%3D%20self.form_class(request.POST)%0A%20%20%20%20results%20%3D%20None%0A%20%20%20%20message%20%3D%20None%0A%20%20%20%20if%20form.is_valid()%3A%0A(1)%20%20%20%20%20resp%20%3D%20requests.get(‘http%3A%2F%2Flocalhost%3A9000%2Fapi%2Fv1%2Fregister%2F’%2C%20%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20params%3D%7B’service_name’%3A%20’fetch_url’%7D)%0A%20%20%20%20%20%20%20%20if%20resp.status_code%20%3D%3D%20200%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%23%20Here%20we%20extract%20the%20service%20information%0A(2)%20%20%20%20%20%20%20%20%20service%20%3D%20resp.json()%5B’data’%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20words%20%3D%20”%0A%20%20%20%20%20%20%20%20%20%20%20%20urls%20%3D%20form.cleaned_data%5B’urls’%5D.split(‘%5Cn’)%0A%20%20%20%20%20%20%20%20%20%20%20%20for%20url%20in%20urls%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%23%20Call%20the%20service%20that%20we%20dynamically%20looked%20up%20in%20the%20registry%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%23%20The%20path%20is%20hard-coded%2C%20but%20it%20would%20be%20for%20any%20API%20call%0A(3)%20%20%20%20%20%20%20%20%20%20%20%20%20resp%20%3D%20requests.get(‘%7B0%7D%3A%7B1%7D%2Fapi%2Fv1%2Ffetchurl%2F’.format(service%5B’url’%5D%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20service%5B’port’%5D)%2C%20params%3D%7B’url’%3A%20url%7D)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20if%20resp.status_code%20%3D%3D%20200%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20html64%20%3D%20resp.json()%5B’data’%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20html%20%3D%20base64.decodebytes(html64.encode())%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20parse_result%20%3D%20urlparse(url)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20if%20parse_result.netloc.endswith(‘dice.com’)%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%23%20Completely%20hard-coded%20way%20of%20calling%20the%20microservice%20%0A(4)%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20resp%20%3D%20requests.post(‘http%3A%2F%2Flocalhost%3A8887%2Fapi%2Fv1%2Fwords’%2C%20%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20data%3D%7B’html’%3A%20html%7D)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20if%20resp.status_code%20%3D%3D%20200%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20words%20%2B%3D%20resp.json()%5B’data’%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20else%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20message%20%3D%20%22Only%20dice.com%20is%20currently%20supported%22%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20else%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20message%20%3D%20’Unable%20to%20retrieve%20data%20from%20at%20least%20one%20URL’%0A%20%20%20%20%20%20%20%20%20%20%20%20if%20words%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20resp%20%3D%20requests.post(‘http%3A%2F%2Flocalhost%3A8886%2Fapi%2Fv1%2Fwordcloud’%2C%20%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20data%3D%7B’words’%3A%20words%7D)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20if%20resp.status_code%20%3D%3D%20200%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20results%20%3D%20resp.json()%5B’data’%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20else%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20message%20%3D%20’Unable%20to%20extract%20any%20words’%0A%20%20%20%20%20%20%20%20else%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20message%20%3D%20’Unable%20to%20complete%20the%20request%20at%20this%20time’%0A%20%20%20%20return%20render(request%2C%20self.template_name%2C%20%7B’form’%3A%20form%2C%20’results’%3A%20results%2C%20’message’%3A%20message%7D)” message=”” highlight=”” provider=”manual”/]

The line marked (1) shows the client looking up a service in the registry. The response comes back as JSON so in (2) the client code extracts the HTTP response content as a JSON object and gets the data field. In (3) the client uses this information to prepare the call to the microservice API. Just for comparison, line (4) shows how to make an API call when everything is hard-coded.

For developers, writing a microservice is not difficult. However, the architecture and design need to be well thought through, or else managing microservices can become very complex. Just as one example of that, note that the service that extracts the job-description text is customized to work on a Dice.com page. For this entire application to be more useful, it should also be able to handle other job sites. As microservices for new sites are written and deployed, they too will register themselves, so that part is dynamic. However, for the client to also dynamically take advantage of new services, it has to know how to look up new services and what they do. That requires a lot more consideration than one would see in a high-level architecture diagram.

Finally, there has to be an organizational aesthetic to how services are deployed. For example, suppose that microservices for another five or nine job sites are deployed. Now there are ten microservices that all pretty much do the same thing, but in a specialized way, along with two microservices that do something completely different, all on the same registry. That may be fine, but if this proliferates to hundreds of services, it may be better to organize them differently, or use different registries, and so on.

So there you have it, a microservices based app with an API gateway and some basic dynamic registration of services. The full code is available on GitHub, and you can try the full app here.