'서버' 카테고리의 글 목록

서버

5. Apache James 메일 서버 - 스팸 필터 2021.01.10
스팸 메일 서버 구축 - SpamAssassin & Postfix 2021.01.09
1. Apache James 메일 서버 - 설치 2020.12.06 1
2. Apache James 메일 서버 - 설정 2020.12.06
3. Apache James 메일 서버 - 메일 클라이언트 2020.12.06 3
4. Apache James 메일 서버 - Text와 JPA(MariaDB등) 2020.12.06
1. 검색엔진 실전 예제 - Solr 설치 2020.03.15 6
2. 검색엔진 실전 예제 - Solr 주요 설정과 코드 2020.03.15 2
3. 검색엔진 실전 예제 - Elasticsearch 설치 2020.03.15
4. 검색엔진 실전 예제 - Elasticsearch 주요 설정과 코드 2020.03.15 2

5. Apache James 메일 서버 - 스팸 필터

forest71 2021. 1. 10. 12:10

2021. 1. 10. 12:10

메일 서버를 운영하면, 어떻게 아는지 몰라도 매일 매일 많은 스팸 메일들을 수신하게 된다.

이 스팸 메일들을 차단하기 위해 스팸 서버를 별도로 구축하기도 하지만, 메일 서버에 스팸 필터를 설치하여 구현할 수도 있다.

앞서서 SpamAssassin을 이용하여 스팸 서버를 구축하는 것을 정리하였고

여기에서는 SpamAssassin을 Apache James 메일 서버의 스팸 필터로 사용하는 2 가지 방법을 정리한다.

메일 관련 내용들

1. 메일 서버 구축: Apache James

2. 스팸 메일 서버 구축: Postfix & Apache SpamAssassin

3. 메일 서버와 스팸 필터: Apache James & SpamAssassin

먼저, SpamAssassin을 다음 명령어로 설치한다.

사용하는 리눅스에 따라서 설치하는 명령어만 다를 뿐 나머지는 동일하다 (CentOS를 기준).

CentOS > sudo yum install spamassassin

Ubuntu > sudo apt-get install spamassassin

좀 더 상세한 설치는 스팸 서버 구축에 정리한 인터넷 자료를(url) 참고 하면 된다.

SpamAssassin을 설치하고, SpamAssassin 설정(local.cf) 파일을 다음과 같이 수정한다.

CentOS > vi /etc/mail/spamassassin/local.cf

Ubuntu > vi /etc/spamassassin/local.cf

required_hits 2
report_safe 0
rewrite_header Subject [SPAM]

SpamAssassin은 지정되거나 학습된 규칙에 의해서 메일을 평가해서 점수로 환산하고, 지정된 값(required_hits) 이상이면 스팸으로 표시한다.

위 설정외에도 다양한 설정을 할 수 있는데, 설정에 대한 상세한 내용은 이 사이트에 정리된 내용을 참고하면 된다.

기본 값은 5인데, 이렇게 지정되면 테스트하기 어렵기 때문에 2으로 수정한다.

수정내용을 반영하기 위해서 SpamAssassin을 재가동 한다.

> sudo service spamassassin restart

이상으로 SpamAssassin에서 처리할 것은 완료 되었다.

이제부터는 Apache James 에서 Spam 설정을 하고, 메일 테스트를 진행한다.

먼저, James를 설치한 폴더 하위의 conf 파일 중 smtpserver.xml파일을 열어서

SpamAssassinHandler를 사용할 수 있도록 주석으로 처리된() 부분을 삭제한다.

> vi conf/smtpserver.xml

SpamAssassin은 지정되거나 학습된 규칙에 의해서 메일을 평가해서 점수로 환산한다.

Apache James가 수신한 메일을 SpamAssassin에 넘기고, SpamAssassin이 평가한 점수를 반환 받아서 spamdRejectionHits 값으로 지정한 값 이상이면 메일을 수신하지 않고 돌려 보낸다.

spamdRejectionHits의 기본 값은 10으로 되어 있는데, 값이 너무 높으면 테스트를 할 수 없기 때문에 2로 수정해서 테스트 한다.

수정한 내용을 반영하기 위해서 Apache James를 제가동 한다.

> sudo bin/james restart

로그를 확인해서 제임스 재가동 완료 여부를 확인한다 (10여초 이상이 걸린다).

> tail -f log/wrapper.log

메일을 주고 받기 위해 앞서 생성한 생성한 계정(gujc1)외에 하나 더 생성(gujc2)하거나

생성한 하나의 계정으로 메일을 주고 받도록한다.

여기서는 썬더버드(Thunderbird)를 사용할 예정인데,

아웃룩등의 MUA을 실행해서 생성한 메일 계정을 등록하고 다음과 같이 메일을 발송한다.

메일 본문에 dear winner를 입력하고 메일을 발송한다.

다음과 같이 오류가 발생하는 것을 확인할 수 있다.

지금 보내려는 메시지는 스팸인 것 같으니, 스팸이 아니라면 관리자에게 연락하라는 메시지가 나타난다.

dear winner는 스팸 발송자들이 많이 사용하는 단어로

이 단어가 메일 본문에 있으면 SpamAssassin가 스팸으로 판단해서 Apache James에게 알려주고

Apache James가 위와 같이 수신 거부를 하게 된다.

dear winner 같은 스팸 단어와 관련된 자세한 내용은 스팸 서버 구축에 정리된 내용을 참고하면 된다.

앞서서 smtpserver.xml파일에서 수정했던 SpamAssassin 설정 부분을 다시 주석처리하고

Apache James를 재가동하고 메일을 보내면 다음과 같이 메일이 잘 송신되고 수신되는 것을 볼 수 있다.

이 방식은 수신된 메일이 확실하게 스팸 메일(spamdRejectionHits 이 10 이상- 테스트는 2)이면 되돌려 보내는 것이다.

하지만 수신한 메일이 스팸인지 애매한 경우도 있다.

spamdRejectionHits에 지정된 값 보다 작지만 (즉, 수신되었지만)

앞서 SpamAssassin에서 지정한 required_hits 값보다 큰 메일은 메일 수신자의 스팸 폴더에 넣어주는게 좋다.

(required_hits의 기본값은 5이지만, 앞서서 테스트를 위해 2로 지정했다.)

대부부의 상용 메일 서버들은 스팸으로 의심되는 메일들은 각 개인의 스팸 폴더에 넣어주고,

개인이 판단하도록 하기 때문에 여기에서도 이 방식을 구현한다.

앞서서 smtpserver.xml파일에서 수정했던 SpamAssassin 설정 부분을 다시 주석처리하거나

spamdRejectionHits 값을 10 이상으로 수정해서 스팸 메일을 반환하지 않도록 한다.

스팸 폴더에 메일을 저장하기 위해, conf 폴더에 있는 mailetcontainer.xml 파일에 다음 설정을 추가한다.

> vi conf/mailetcontainer.xml

생략 ~~
<processor state="root" enableJmx="true">
생략 ~~
       <mailet match="SMTPAuthSuccessful" class="ToProcessor">
          <processor>transport</processor>
       </mailet>

       <mailet match="All" class="SpamAssassin">
           <spamdHost>localhost</spamdHost>
           <spamdPort>783</spamdPort>
       </mailet>
       <mailet match="HasHeader=org.apache.james.spamassassin.flag=YES" class="ToProcessor">
           <processor>spam</processor>
       </mailet>

mailetcontainer.xml는 메일을 처리하는 주요 과정을 설정하는 파일로,

메일을 수신하면 SpamAssassin클래스를 실행해서 스팸 확인을 하도록 추가하였다.

match 문은(Macher) 일종의 if문을 의미하는데,

위 코드에서는 모든 메일(All)은 SpamAssassin에 접속해서 스팸 여부를 확인하는 SpamAssassin클래스를 거치도록 하였다.

SpamAssassin클래스에서는 스팸 여부를 확인후 org.apache.james.spamassassin.flag헤더를 추가하고 YES / NO 값을 지정한다.

다음 match에서는 검사후 org.apache.james.spamassassin.flag헤더의 값이 YES이면

spam처리를 하는 spam프로세스(<processor>spam</processor>)로 이동한다.

주의: 인터넷 검색 자료(공식자료?)에서는 HasMailAttributeWithValue=org.apache.james.spamassassin.flag,YES를 사용하도록 되어 있다.
HasMailAttributeWithValue는 속성값을 확인하는 것인데, 이유는 모르지만 제대로 작동하지 않는다.
여기에서는 헤더 값을 확인하는 HasHeader를 사용했다.
상세한 설명은 Apache James Macher 문서에 정리되어 있다.

mailetcontainer.xml 하단에 다음과 같이 spam프로세스를 처리하는 부분이 있다.

<processor state="spam" enableJmx="true">
   
   

   <mailet match="All" class="ToRepository">
<repositoryPath>file://var/mail/spam/</repositoryPath>
   </mailet>
</processor>

스팸으로 확인된 메일은 지정된 경로(repositoryPath)에 저장하도록 되어 있다.

이 Matcher를 삭제하고, 그 위에 주석으로() 작성된 코드에서 주석을 제거한다.

<processor state="spam" enableJmx="true">
   
   <mailet match="RecipientIsLocal" class="ToRecipientFolder">
        <folder>Junk</folder>
<consume>false</consume>
   </mailet>
</processor>

수신자(Recipient)가 Apache James에 등록된(local) 사용자면 (RecipientIsLocal)

수신자 저장 클래스를(ToRecipientFolder) 실행해서 스팸(Junk) 폴더에 저장하도록 한다.

스팸으로 지정되면, 한 폴더에 모으는 것이 아니고 각 개인의 스팸 폴더에 저장해서 개인이 볼 수 있도록 설정했다.

마지막 설정으로 수신한 스팸을 저장할 개인별 Junk 폴더를(메일함) 생성한다.

james-cli.sh CreateMailbox private 이메일주소 Junk

Apache James를 재가동하고,

선더버드와 같은 MUA에서 다음과 같이 스팸 메일을 발송한다.

그림과 같이 [스팸 편지함]에 메일이 제대로 저장 되는 것을 볼 수 있다.

수신한 메일을 선택하고 그림 우측 중앙에 있는 [기타]를 선택해서, [소스보기]를 실행한다.

다음과 같이 수신한 메일의 EML 원문 내용을 볼 수 있는데, 메일 헤더에 스팸 메일로 표시되어 있다.

org.apache.james.spamassassin.flag가 YES이고, 스팸 점수가 2.9점으로 표시되었다.

위 그림과 같이 [스팸 편지함]이 보이지 않는 경우,

썬더보드의 경우 해당 메일 계정을 선택하고 마우스 오른쪽 버튼을 눌러서 [설정] 메뉴를 실행한다.

계정 설정 화면 하단에 있는 [새 스팸 메시지 이동]을 선택하고, 편지함 탭을 선택하면 [스팸 편지함]을 볼 수 있다.

이상으로 SpamAssassin을 Apache James 의 스팸 필터로 사용하는 방법을 정리하였다.

SpamAssassin을 스팸 서버로 사용하는 방법도 정리하였는데,

SpamAssassin을 스팸 서버로 사용하는 경우,

스팸 메일이면 메일헤더에 X-Spam-Flag가 추가되고 YES값이 추가된다(참고).

앞서 mailetcontainer.xml 에서 설정한 스팸 필터 연동 부분을 삭제하고 (<mailet match="All" class="SpamAssassin">)

스팸 여부를 확인하는 HasHeader=org.apache.james.spamassassin.flag=YES 대신에

HasHeader=X-Spam-Flag=YES을 지정하면 스팸서버에서 판단한 스팸 메일을 각 개인의 스팸 메일함(Junk)에 저장할 수 있다.

덧붙이는 글

한글 스팸 메일들을 SpamAssassin으로 학습시켜서 스팸 메일을 테스트하는 내용에 대해서 공유할 계획입니다.

자신의 메일 함에 있는, 또는 회사 스팸 서버에 있는 스팸 메일들을 공유해주시면 감사하겠습니다.

net_forest@hanmail.net 으로 보내주세요.

'서버 > 메일' 카테고리의 다른 글

스팸 메일 서버 구축 - SpamAssassin & Postfix (0)	2021.01.09
1. Apache James 메일 서버 - 설치 (1)	2020.12.06
2. Apache James 메일 서버 - 설정 (0)	2020.12.06
3. Apache James 메일 서버 - 메일 클라이언트 (3)	2020.12.06
4. Apache James 메일 서버 - Text와 JPA(MariaDB등) (0)	2020.12.06

스팸 메일 서버 구축 - SpamAssassin & Postfix

forest71 2021. 1. 9. 15:53

2021. 1. 9. 15:53

앞서서 Apache James를 이용하여 메일 서버를 운영하는 방법에 대해서 정리하였다.

이렇게 메일 서버를 운영하면, 어떻게 아는지 몰라도 매일 매일 많은 스팸 메일들을 수신하게 된다.

이 스팸 메일들을 차단하기 위해 스팸 서버를 이용하거나 메일 서버내에 스팸 필터를 적용해서 이용하는데, 여기에서는 오픈 소스인 Apache SpamAssassin를 이용하여 스팸 서버를 구축하는 방법에 대해서 정리한다.

메일 관련 내용들

1. 메일 서버 구축 : Apache James

2. 스팸 메일 서버 구축: Postfix & Apache SpamAssassin

3. 메일 서버와 스팸 필터 : Apache James & SpamAssassin

구축 방법은 다음과 같이 인터넷 검색으로 쉽게 찾을 수 있기 때문에 여기에서는 정리하지 않고, 스팸 메일 서버를 이용해서 실제로 테스트하는 방법만 정리한다.

스팸 서버 구축에 필요한 SpamAssassin은 리눅스에서 운영되며 여기에서는 Centos 7에 설치하고 정리하였다.

Ubuntu도 설치법은 유사하다.

Centos 설치
https://tweenpath.net/configuring-spamassassin-postfix-centos/
https://devopspoints.com/centos-7-installing-and-configuring-spamassassin.html

Ubuntu 설치
https://hostadvice.com/how-to/how-to-secure-postfix-with-spamassassin-on-an-ubuntu-18-04-vps-or-dedicated-server/

스팸 서버도 메일을 주고 받는 서버이기 때문에 메일 서버랑 기본적으로 동일하다.

따라서 인터넷 자료는 Postfix, Dovecot등으로 메일 서버를 구축하고,

SpamAssassin으로 스팸 메일을 체크를 하는 식으로 구현하는 자료가 많은데, 이러한 내용들은 설치만 해도 제법 복잡하다 (이런 구축은 스팸 서버라기 보다 스팸 필터라고 생각한다).

스팸 서버는 메일을 주고 받는 SMTP와 스팸 여부를 확인하는 기능만으도 충분하다.

(각종 메일 처리나 IMAP, POP3등을 구현하지 않는다.)

메일 송수신에 사용되는 SMTP는 Postfix를 이용하고, 송수신하는 메일에 대한 스팸 여부는 SpamAssassin으로 확인하도록 구축한다.

Postfix는 운영체제와 같이 설치되어 있고, SpamAssassin만 위 인터넷 자료를 따라서 설치한다 (Ubuntu에서 spamc는 굳이 설치하지 않아도 되는 것 같다).

설치 문서의 핵심은 메일을 발송하는 Postfix와 SpamAssassin을 연결하는 것으로, Postfix에서 메일을 송수신 하면 SpamAssassin으로 검사 하기 위한 것이다.

다만, 이 문서에서 SpamAssassin 설정(/etc/mail/spamassassin/local.cf)을 다음과 같이 수정한다 (CentOS).

> vi /etc/mail/spamassassin/local.cf

required_hits 2
report_safe 0
rewrite_header Subject [SPAM]

SpamAssassin은 지정되거나 학습된 규칙에 의해서 메일을 평가해서 점수로 환산하고, 지정된 값(required_hits) 이상이면 스팸으로 표시한다.

위 설정외에도 다양한 설정을 할 수 있는데, 설정에 대한 상세한 내용은 이 사이트에 정리된 내용을 참고하면 된다.

기본 값은 5인데, 이렇게 지정되면 테스트하기 어렵기 때문에 2으로 수정해서 진행한다.

수정내용을 반영하기 위해서 SpamAssassin을 재가동 한다.

> sudo service spamassassin restart

스팸 메일을 테스트하려면 스팸 메일을 만들어야 한다.

스팸 메일을 만들려면 SpamAssassin의 규칙을 알아야 하는데, 다음 그림과 같이 Futurequest 사이트에 잘 정리되어 있다.

위 내용들은 메일이 어떤 내용을 가지고 있는 냐에 따라 점수를 부여하는지를 나타낸 것으로

특정 메일이 위 사항을 위반했는지 확인해서 점수들을 부여하고, 이 점수들을 합산하여 스팸으로 평가한다.

위 리스트 중에 메일 본문에 "dear winner"란 글자가 있으면 3.099의 점수를 부여 받는다는 것을 알 수 있다.

앞서 SpamAssassin 설정에서 기준 점수를 2점으로 지정했으니 "dear winner"를 입력하면 스팸 메일로 처리할 수 있다.

이 문장을 포함한 메일을 메일서버나 스팸 서버에서 수신하도록 하면 되는데, 도메인을 등록하고 MX 레코드등을 지정하지 않으면 메일을 수신할 수 없다.

이 문제 때문에 스팸 서버 설치만 있고 테스트가 없는 것 같은데,

여기에서는 스팸 서버로 수신하는 것이 아니고, 송신하는 방식으로 테스트 한다.

스팸 서버는 송신을 하던 수신을 하던, 스팸 여부를 확인하기 때문이다.

그리고, Apache James에서 정리한 것과 같이 메일을 송신하는 것은 별도의 도메인이나 MX 레코드등을 지정하지 않아도 가능하기 때문이다.

Postfix와 SpamAssassin이 잘 실행되었으면 (스팸 서버가 구축되었으면), 실제로 메일을 보내기 위해 텔넷으로 이 스팸(?)서버에 접속한다.

> telnet localhost 25

Postfix등 메일 서버는 기본적으로 25번 포트를 사용한다.

텔넷 접속후 다음 내용을 순서데로 입력한다.

ehlo aaa
mail from:<gujc1@forest71.com>
rcpt to:<gujc~~~@gmail.com>
data
subject:dear winner

dear winner

.

ehlo는 메일을 보내겠다고 Postfix에 알리는 것으로 아무 값(aaa)이나 지정하면 된다.

메일을 보내는 사람(from)과 받는 사람(to)을 입력한다.

보내는 사람은(from) 아무 값이나 입력해도 되다.

아무 값이나 입력해도 되기 때문에 스팸 발송자들이 다양하게(?) 활용한다.

받는 사람은(to) 메일을 받아야 하기 때문에 실제 사용하는 계정을 지정한다.

data를 지정하고 엔터키를 치면 메일 제목(subject)과 본문을 입력할 수 있다.

제목(subject)을 입력한 뒤에는 빈 라인 하나를 입력해야 제목(subject)으로 인식된다.

그렇지 않으면 본문으로 처리되어 제목없는 메일이 발송된다.

본문까지 입력한 뒤에는 점(.)을 입력하고 엔터키를 쳐서 다음과 같이 메일을 발송한다.

여기에서는 gmail로 메일을 보냈으니 gmail에 접속해서 보낸 메일을 확인한다.

대부분 스팸 메일함에 있을 텐데, SpamAssassin 때문이 아니고, 구글의 스팸 서버가 그렇게 처리한 것이다.

위 그림과 같이 메일 제목에 [SPAM]이 붙은 것을 볼 수 있다.

일반적인 문장으로 보내면 [SPAM]이라는 문자열이 없다.

위 메일은 메일을 보낼때 SpamAssassin이 스팸으로 판단해서 메일 제목에 붙인 것으로, 앞서 설정한 SpamAssassin 설정에서 지정한 문자열이다.

그림 우측의 메뉴(점 3개)를 클릭해서 [원본보기]를 선택한다.

메일 보기 화면은 필요한 사항만 추출하여 잘 정리하여 보여주는 것이고, 실제 수신해서 저장한 EML 메일 내용은 다음과 같이 다양한 정보들을 포함하고 있다.

실행된 별창에서 스크롤을 내리면 다음과 같이 X-Spam~~으로 시작하는 메일 헤더들을 볼 수 있다.

생략 ~~~
Received: by localhost.localdomain (Postfix, from userid 1001) id 30AEC811148; Sat,
9 Jan 2021 15:44:19 +0900 (KST)
X-Spam-Checker-Version: SpamAssassin 3.4.0 (2014-02-07) on localhost.localdomain
X-Spam-Flag: YES
X-Spam-Level: ****
X-Spam-Status: Yes, score=4.5 required=2.0 tests=ALL_TRUSTED,DEAR_WINNER, DKIM_ADSP_NXDOMAIN,MISSING_HEADERS,NO_DNS_FOR_FROM,TVD_SPACE_RATIO autolearn=no autolearn_force=no version=3.4.0
X-Spam-Report: * -1.0 ALL_TRUSTED Passed through trusted hosts only via SMTP *
0.8 DKIM_ADSP_NXDOMAIN No valid author signature and domain not in DNS *
1.2 MISSING_HEADERS Missing To: header *
3.1 DEAR_WINNER BODY: Spam with generic salutation of "dear winner" *
0.4 NO_DNS_FOR_FROM DNS: Envelope sender has no MX or A DNS records *
0.0 TVD_SPACE_RATIO No description available.
Received: from aaa (localhost [IPv6:::1]) by localhost.localdomain (Postfix) with ESMTP id 3DA12811149 for <gujc71@gmail.com>; Sat,
9 Jan 2021 15:43:30 +0900 (KST)
subject: [SPAM] dear winner
Message-Id: <20210109064341.3DA12811149@localhost.localdomain>

메일을 발송하기 전에 SpamAssassin이 처리한 결과를 메일 헤더에 저장한 것으로

X-Spam-Status에 기준값이(required) 2인데, 이 메일은 4.5 (score)이기 때문에 스팸(yes)이라고 저장되어 있다.

X-Spam-Report에는 어떻게 4.5점이 되었는지 이유가 정리되어 있다.

다른 이유도 있지만 "dear winner"가 3.1점으로 가장 큰 이유가 되었다.

이상으로 스팸 서버를 구축해서 테스트 하는 방법을 정리하였다.

메일을 수신하지 못하기 때문에 발신으로 테스트 하였지만, 실제 스팸 서버를 구축하고 수신으로 처리하여도 동일한 결과를 얻을 수 있다.

실제로 스팸 서버로 사용하기 위해 빠진 내용은 스팸 서버가 메일을 받아서 스팸 여부를 확인하고 나면 확인한 메일을 실제 메일서버로 전달(relay)한다.

또, 실제 메일 서버에서는 메일의 헤더를 확인하고 스팸이면 삭제하거나 해당 수신자의 스팸 메일함에 넣게 된다.

도메인 관련 설정도 필요하고 메일 서버도 정리해야 하기 때문에 메일서버로 전달(relay)하는 기능은 여기서 정리하지 않았고,

스팸 메일함에 저장하는 방법은 SpamAssassin을 스팸 필터로 사용하는 방법을 정리하는 부분에서 조금 정리하였다.

추가적으로 정리하지 못한 내용은 [한글] 메일에 대한 스팸 처리이다.

SpamAssassin은 베이지안(Bayesian) 알고리즘으로 스팸 메일을 학습해서 성능을 향상시킬 수 있다.

영어 메일은 학습해서 기본적인 규칙을 만들어 가지고 있지만, 한글에 대한 규칙은 제공되는 것이 없다 (못 찾은 것일 수도 있다).

한글 스팸 규칙을 만들기 위해서는 한글 스팸 메일들을 학습시켜야 하는데, 제법 많은 메일이 필요해서 테스트를 하지 못했다.

덧붙이는 글

한글 스팸 메일들을 SpamAssassin으로 학습시켜서 스팸 메일을 테스트하는 내용에 대해서 공유할 계획입니다.

자신의 메일 함에 있는, 또는 회사 스팸 서버에 있는 스팸 메일들을 공유해주시면 감사하겠습니다.

net_forest@hanmail.net 으로 보내주세요.

'서버 > 메일' 카테고리의 다른 글

5. Apache James 메일 서버 - 스팸 필터 (0)	2021.01.10
1. Apache James 메일 서버 - 설치 (1)	2020.12.06
2. Apache James 메일 서버 - 설정 (0)	2020.12.06
3. Apache James 메일 서버 - 메일 클라이언트 (3)	2020.12.06
4. Apache James 메일 서버 - Text와 JPA(MariaDB등) (0)	2020.12.06

1. Apache James 메일 서버 - 설치

forest71 2020. 12. 6. 19:33

2020. 12. 6. 19:33

Apache James 메일 서버는 Java로 만든 메일 서버로

다양한 오픈 소스 메일 서버 중에서 최고의 메일 서버인지는 확인되지 않지만, 안정적인 기능과 Apache의 지원을 받는 메일 서버이다.

다만 문서나 자료가 많지 않아서, 알게 되는 것들을 기록차원에서 다음과 같이 나누어 정리한다.

Apache James 메일 서버 - 설치
Apache James 메일 서버 - 설정
Apache James 메일 서버 - 메일 클라이언트
Apache James 메일 서버 - Text와 JPA(MariaDB등)
Apache James 메일 서버 - 스팸 필터 (SpamAssassin)

Apache James 메일 서버(이하 James)를 사용해 보기 전에

SMTP(Simple Mail Transfer Protocol), IMAP(Internet Message Access Protocol) 등의 개념에 대해서는 검색해 보거나 다음 자료들을 읽어보는 것이 좋다.

https://wodonggun.github.io/wodonggun.github.io/study/SMTP,-POP3,-IMAP-%EC%9D%B4%EB%9E%80.html
https://m.post.naver.com/viewer/postView.nhn?volumeNo=26957131&memberNo=2521903

James의 공식 사이트는 다음과 같이 그럴 듯 해 보이는데, 메뉴를 클릭하면 심플한 구조에 간단한 설명들만 있다.

상세한 자료는 커뮤니티 사이트의 내용을 참조해야 한다.

James 설치 방법은 다음 URL에 정리되어 있지만, 상세하게 설명되어 있지 않다.

(아는 사람에게는 간단 명료한 설치 문서가 될 것 같다.)

https://james.apache.org/server/quick-start.html
https://james.apache.org/server/install.html

여기에서는 이 내용을 토대로 윈도우(10)에서 설치하는 방법을 중심으로 정리한다.

리눅스에 설치하는 방법은 위 URL 내용대로 하면 되지만, 윈도우는 조금 더 설치가 어렵기(?) 때문이다.

Java 설치 방법은 여기에서 정리하지 않는다.

JDK 1.8 이상을 설치해야 하고, JAVA_HOME과 bin 폴더에 대한 Path는 지정되어 있어야 한다.

먼저, 다운로드 사이트에서 apache-james-3.5.0-app.zip 파일을 다운받는다.

오픈 소스이기 때문에 소스를 받아서 (할 수 있다면) 수정해서 사용할 수도 있다.

(도전 중인데, 설치가 쉽지 않다. 실력향상을 위해 도전해 보는 것도 좋을 것 같다.)

여기에서는 Binary 파일인 apache-james-3.5.0-app.zip을 받아서 실행한다.

적당한 폴더에 압축을 풀면, 다음과 같은 폴더 구조를 볼 수 있다.

bin 폴더에는 James를 실행하는 파일이 있고,

conf 폴더에는 James 설정 파일들이 있다.

lib 폴더는 James 실행에 필요한 Java 라이브러리들이 있고,

log 폴더는 실행 결과에 대한 다양한 정보를 제공하는 로그 파일들이 있다.

var 폴더에는 activemq, 메일 오류 파일 등이 저장되어 있다.

conf 폴더에는 20 여개의 설정 파일들이 있다.

James는 다양한 기능을 제공하는데, 이 설정 파일들을 이용하여 조절할 수 있다.

설정에 대한 간략한 웹 페이지가 있지만 설명이 많지 않고, 각 설정 파일 안에 간단한 설명이 주석으로 포함되어 있다.

설정과 관련된 주요한 몇 가지 내용은 별도로 정리한다.

여기에서는 James를 실행하기 위한 설명 몇 가지만 지정한다.

domainlist.xml 파일에서 사용할 도메인(forest71.com)을 지정한다.

이 도메인은 실제 등록된 도메인을 지정해도 되고, 테스트를 위해서 여기서는 forest71.com을 사용한다.

사용할 도메인을 지정하고 James를 실행하면 되지만,

mailetcontainer.xml에서 우편 관리자 계정에 대한 도메인도 위와 같이 동일하게 지정한다.

우편 관리자 계정은 반송 메일 등에 사용된다.

James는 Java로 제작되었기 때문에 다운로드 받은 zip 파일 하나로 윈도우와 리눅스에서 실행할 수 있다.

다만, James가 여러 가지 이유로 갑자기 종료 되었거나 멈춰진 상태로 있을 경우, 자동으로 감지하여 재시작하기 위해 Wrapper를 사용하여 제작되었다.

(기업에서 메일 서버는 중지되면 안 된다.)

이 Wrapper가 윈도우에서는 윈도우 서비스로 등록해서 사용하고, 리눅스에서는 쉘(Shell)로 백그라운드에서 실행한다.

윈도우 시작 메뉴를 눌러 cmd 를 입력해서 콘솔(cmd) 창을 관리자 권한으로 실행한다.

리눅스도 root 권한으로 실행해야 한다.

(메일 서버는 25와 143포트(port)를 사용하는데 1024보다 작은 포트는 관리자 권한으로만 실행 할 수 있다.)

콘솔 창에서 James 압축을 해제한 폴더 중 bin 폴더로 이동하여 james.bat install 를 실행한다.

이것은 James를 윈도우 서비스로 등록하는 명령어로, 다음과 같이 서비스가 등록된다.

james.bat remove로 제거 할 수 있다.

윈도우 서비스 창에서 실행 버튼을 눌러 실행해도 되고, 콘솔 창에서 james.bat start로 실행해도 된다.

start외에 stop이나 restart 로 James를 중지하거나 재시작할 수 있다.

리눅스에서는 james.bat 대신에 ./james.sh를 실행하면 되고, 위와 같이 서비스에 등록하는 과정없이 실행하면 된다.

윈도우는 관리자 권한으로 콘솔(cmd) 창을 실행했지만,

리눅스는 root 계정으로 로그인해서 실행하거나 다음과 같이 sudo를 이용해서 실행해야 한다.

sudo ./james.sh start

James를 실행하는 윈도우와 리눅스의 차이는 이 정도가 있다.

log폴더에 다양한 로그 파일들이 생성되는데, wrapper.log 파일에 각 로그의 내용이 포함되어 생성된다.

wrapper.log파일을 적절한 편집기로 열어서 다음과 같이 잘 시작되었는지 확인한다.

리눅스는 less log/wrapper.log 나 tail -f log/wrapper.log로 확인한다.

주의: wrapper.log에 위와 같은 실행 결과가 아닌, 다음과 같은 오류를 볼 수 있다.

Unable to start JVM: No such file or directory (2)
JVM exited while loading the application.

이것은 JAVA_HOME 이나 PATH 설정이 제대로 지정되지 않아서 생기는 오류로 JAVA_HOME 이나 PATH 설정을 확인한다.
콘솔 창에서 java를 실행하면 사용법이 출력되어야 제대로 설치된 것이다.

계속 이렇게 오류가 발생할 경우 conf폴더의 wrapper.conf 파일에서 다음과 같이 java가 설치된 경로(bin폴더 포함)를 지정하면 된다.

# Java Application
wrapper.java.command=(자바경로지정)java
wrapper.working.dir=.

또는 콘솔 창에서 다음 명령어로 SMTP (25), POP3 (110), IMAP (143) 포트가 보이면 잘 실행된 것이다.

윈도우 : netstat -anq | findstr LISTEN
리눅스 : netstat -anp | grep LISTEN

James가 제대로 실행되었으면,

다음 명령어로 앞서 지정한 도메인을 제임스에 등록하고, ListDomains으로 확인한다 (다음 주의사항 확인).

윈도우: james-cli.bat adddomain forest71.com
리눅스: ./james-cli.sh AddDomain forest71.com

주의
James 설치 문서에서는 위와 같이 실행하라고 하는데,
domainlist.xml 파일에서 사용할 도메인(forest71.com)을 지정했기 때문에 추가하지 않아도 된다.

다음 명령어로(adduser) 메일 사용자(계정@도메인)을 생성하고 ListUsers로 확인한다.

james-cli AddUser gujc1@forest71.com gujc1234

이상으로 James 설치 방법을 윈도우 중심으로 정리하였다.

윈도우나 리눅스나 기본적인 설치 / 사용 방법은 동일하다.

윈도우는 윈도우 서비스에 등록해서(james install) 사용하는 차이만 있다.

(굳이 추가하면 bat를 사용하느냐? sh을 사용하느냐의 차이도 있다.)

주의: 리눅스(Linux)에는 기본적으로 Postfix나 Sendmail이 설치된 경우가 있다.

설치전에 netstat 로 25번 포트를 사용하는 프로그램이 있는지 확인할 수 있다.

설치된 경우에는 James를 실행할때, wrapper.log에 포트 중복 오류가 발생한다.

James 설치 방법을 한마디로 정리하면, James 메일 도메인과 메일 사용자를 등록해서 실행하는 것이다.

기본적인 설정만으로도 내부 메일은 문제없이 사용할 수 있다.

이제 메일을 보내고 받으면 되는데, 메일을 송수신하는 방법과 좀더 상세한 설정은 다른 페이지에 정리하였다.

'서버 > 메일' 카테고리의 다른 글

5. Apache James 메일 서버 - 스팸 필터 (0)	2021.01.10
스팸 메일 서버 구축 - SpamAssassin & Postfix (0)	2021.01.09
2. Apache James 메일 서버 - 설정 (0)	2020.12.06
3. Apache James 메일 서버 - 메일 클라이언트 (3)	2020.12.06
4. Apache James 메일 서버 - Text와 JPA(MariaDB등) (0)	2020.12.06

2. Apache James 메일 서버 - 설정

forest71 2020. 12. 6. 19:33

2020. 12. 6. 19:33

앞서서 James의 conf 폴더에 있는 여러 설정 파일 중에서 domainlist.xml, mailetcontainer.xml에서 도메인을(forest71.com) 수정해서 실행하였다.

여기에서는 몇 가지(알고 있는 or 중요한) 설정에 대해서 정리한다.

Apache James 메일 서버 - 설치
Apache James 메일 서버 - 설정
Apache James 메일 서버 - 메일 클라이언트
Apache James 메일 서버 - Text와 JPA(MariaDB등)
Apache James 메일 서버 - 스팸 필터 (SpamAssassin)

먼저 확인할 설정 파일은

메일을 보낼 때 사용하는 프로토콜인 SMTP (smtpserver.xml),

수신한 메일을 확인하기 위해 사용하는 프로토콜인 IMAP (imapserver.xml) 이다.

POP3 (pop3server.xml) 프로토콜도 있지만 과거에 많이 사용하던 것으로, IMAP 사용이 권장되고 설정 방법도 비슷해서 여기에서는 정리하지 않는다.

SMTP와 관련해서 설정하는 smtpserver.xml의 내용은(주석 제거) 다음과 같다.

<smtpservers>
   <smtpserver enabled="true">

     <jmxName>smtpserver</jmxName>
     <bind>0.0.0.0:25</bind>
     <connectionBacklog>200</connectionBacklog>

     <tls socketTLS="false" startTLS="false">
       <keystore>file://conf/keystore</keystore>
       <secret>yoursecret</secret>
       <provider>org.bouncycastle.jce.provider.BouncyCastleProvider</provider>
       <algorithm>SunX509</algorithm>
     </tls>
        <connectiontimeout>360</connectiontimeout>
        <connectionLimit>0</connectionLimit>
        <connectionLimitPerIP>0</connectionLimitPerIP>
        <authorizedAddresses>127.0.0.0/8</authorizedAddresses>
        <maxmessagesize>0</maxmessagesize>
        <addressBracketsEnforcement>true</addressBracketsEnforcement>
        <handlerchain>
            <handler class="org.apache.james.smtpserver.fastfail.ValidRcptHandler"/>
            <handler class="org.apache.james.smtpserver.CoreCmdHandlerLoader"/>
        </handlerchain>
   </smtpserver>
</smtpservers>

smtpserver.xml

<smtpserver>속성 enabled값이 true면 SMTP를 사용하는 것이고, false이면 사용하지 않는다 (메일을 보내고 받을 수 없다).

<bind>의 25는 사용할 포트를 지정하는 것으로, SMTP는 25번 외에 465, 587번 포트를 사용할 수 있다.

이 포트는 <tls>에서 어떤 인증 방식을 사용하는지에 따라 결정한다.

25번은 일반적인 통신에(socketTLS="false" startTLS="false") 많이 사용하고,

465, 587번은 SSL(Secure Sockets Layer)이나 TLS(Transport Layer Security)를 사용할 때 지정한다.

위의 포트 번호를 바꿔도 돼고, smtpserver 속성(smtpservers내에 있는) 전체를 복사해서 하나 더 만들어도 된다.

2개이상을 사용할 경우에는 <jmxName>의 이름을 다르게 부여해야 한다.

25번 포트의 <jmxName>는 smtpserver이니, 다른 포트는 smtpserver_ssl 등의 이름으로 지정한다.

이외에 <keystore> 속성에 인증서 파일이나 JKS 파일을 지정하고, <secret> 속성에 비밀번호를 지정해서 인증서(SSL, TLS)를 사용한다.

마지막으로 <authorizedAddresses> 속성은 인증 주소를 의미한다.

SMTP, IMAP등은 원격에서 메일 서버에 접속하는 것으로 아이디와 비번을 이용하여 로그인을 해야한다.

<authorizedAddresses>는 이러한 로그인을 하지 않아도 되는 IP주소를 의미한다.

주로, 그룹웨어나 ERP등의 시스템에서 알림 메일등을 발송할때 해당 시스템 서버의 IP를 지정해서 로그인없이 메일을 발송할때 유용하다.

이외에도 다양한 설정이 있고, 주석으로 작성되어 있지만 스팸 차단 프로그램과 연동하는 SpamAssassinHandler나 스팸 발송 업체들(IP)를 차단하는 URIRBLHandler등의 기능도 있다.

IMAP을 설정하는 imapserver.xml에서는 다음과 같이 사용할 포트를 지정하고, 인증서(SSL, TLS)를 사용할지 결정한다.

<imapservers>
    <imapserver enabled="true">
       <jmxName>imapserver</jmxName>
       <bind>0.0.0.0:143</bind>
       <connectionBacklog>200</connectionBacklog>
       <tls socketTLS="false" startTLS="false">
         <keystore>file://conf/keystore</keystore>
         <secret>yoursecret</secret>
         <provider>org.bouncycastle.jce.provider.BouncyCastleProvider</provider>
       </tls>
       <connectionLimit>0</connectionLimit>
       <connectionLimitPerIP>0</connectionLimitPerIP>
    </imapserver>
</imapservers>

imapserver.xml

SMTP와 사용법은 동일하고 사용하는 포트만 143으로 차이가 있다.

인증서(SSL, TLS)를 사용할 경우에는 993 포트를 사용하고, SMTP와 같이 2개의 포트를 지정할 수 있다.

SMTP, IMAP과 SSL(TLS)에 대한 정리

아웃룩, 썬더버드등의 메일 클라이언트 프로그램을 MUA(Mail User Agent)이라고 한다.
이런 프로그램을 이용하여 메일 작성하면 SMTP를 이용하여 메일 서버로 보내고,
해당 메일서버는 다른 메일 서버로 SMTP를 이용하여 메일을 발송한다(Mail Transfer Agent - MTA).
메일 전송은 모두 SMTP 프로토콜이다 (많은 사람이 혼동했다).
메일 서버에서 수신한 메일을 가지고 오는 것은 IMAP/POP3 프로토콜이다.

여기에 별도로 정리하는 것은 인증서 사용에 대해서 혼동하는 경우가 많기 때문으로,

당연이 IMAP/POP3 에서 인증서를 지정하면, 서버에서 메일을 가지고 올때 지정된 인증서로 암호화 해서 가지고 온다.
그리고, SMTP에 인증서를 지정하면, 지정된 인증서로 메일을 암호화해서 메일 서버로 전송한다.
하지만, 이 메일을 다른 메일 서버로 보낼 때에는 상대 서버에 지정된 인증서를 사용한다.
당연한 개념인데, 자신의 메일 서버에 지정된 인증서로 암호화해서 보내는 것이 아니고
상대 서버의 인증서로 암호화해서 상대 서버로 보내게 된다.
자신의 서버에 인증서를 지정하지 않아도 보안 메일을 보낼 수 있는데,
자신의 서버에 인증서를 설치하지 않아서 보안 메일을 사용하지 않는 경우가 있다 (누군가의 경험).

이 내용은 다음의 mailetcontainer.xml 정리에서 gmail을 대상으로한 예제에서 확인할 수 있다.

다음은 James에서 가장 중요하고(?) 복잡한 mailetcontainer.xml파일이다.

James가 메일을 처리하는 과정을 통제하는 부분으로 플러그인을 개발해서 부족한 기능을 구현할 수 있다.

기업에서 많이 사용하는 자동 포워딩이나 자동 분류 등의 다양한 부가 기능을 구현할 수 있는데,

여기에서 정리할 수 없고 아직 분석(?) 중에 있다.

간단하게 정리하면 processor와 match가 중심인데, processor는 여러가지 처리 단계를 의미하고, match는 일종의 if문을 의미한다.

즉, 메일이 어떤 조건에 맞으면 (match) 특정한 일을(class) 하거나 특정한 processor로 이동하도록 한다(ToProcessor).

class에는 실제 Java 클래스를 지정해서 원하는 일을 하도록 한다.

여러가지 조건들은 Apach James 문서를 참고하면 된다.

다만, 여기서는 몇 가지 사항만 정리한다.

먼저, 다음 match를 제거해야 외부로 메일을 보낼 수 있다.

<mailet match="RemoteAddrNotInNetwork=127.0.0.1" class="ToProcessor">
<processor>relay-denied</processor>
<notice>550 - Requested action not taken: relaying denied</notice>
</mailet>

mailetcontainer.xml

내부(LocalDelivery)는 현재 James 메일 서버에 등록된 도메인의 계정끼리 메일을 주고 받는 것을 의미하고,

외부(RemoteDelivery)는 Gmail등의 다른 메일서버로 메일을 보내는 것을 의미한다.

외부주소가 127.0.0.1이 아니면 relay-denied라는 processor로 보내서 메일을 발송하지 않고 종료한다.

이 match를 제거하고, 구글 gmail로 메일을 발송하면 다음과 같이 잘 발송되는 것을 확인할 수 있다.

[받은 편지함]에 메일이 없다면 [스팸 메일함]에 있을 것이다 (이유는 다양).

수신한 메일에서 [나에게] 옆에 빨간색 아이콘을 클릭하면 다음과 같은 그림을 볼 수 있다.

[암호화 기능 사용하지 않음]이라고 표시되는데, 메일을 암호화하지 않고 평문 메일로 받았다는 것이다.

다음과 같이 RemoteDelivery에 startTLS 속성을 추가하고, James를 재가동한 후에 메일을 보낸다.

  <mailet match="All" class="RemoteDelivery">
          <outgoing>outgoing</outgoing>

          <startTLS>true</startTLS>

mailetcontainer.xml

다음과 같이 안전한 메일로 표시되는 것을 볼 수 있다.

이렇게 암호화된 메일을 주고 받는 경우, 수신 서버가 개발자 SSL등 개발 인증서를 사용하여 설치한 경우에는(상용 인증서) 메일을 수신할 수 없다.

다음과 같이 RemoteDelivery 클래스의 설정에 mail.smtp.ssl.trust를 추가해서 사용한다.

  <mailet match="All" class="RemoteDelivery">
          <outgoing>outgoing</outgoing>

          <startTLS>true</startTLS>
          <mail.smtp.ssl.trust>*</mail.smtp.ssl.trust>

mailetcontainer.xml

RemoteDelivery에는 다양한 속성이 있으니, James 문서를 참고해서 익혀 두는 것이 좋다.

이 외에도 mailetcontainer.xml 파일에는 메일과 관련된 다양한 처리를 설정할 수 있다.

다양한 기능들이 주석으로 처리되어 사용자가 선택해서 사용할 수 있다.

예로, 다음 설정은 첨부 파일의 확장자를 확인해서 제한하는 기능으로 주석을() 해제하면 사용할 수 있다.

다음 설정은 내부 사용자가 메일을 보내면(SenderIsLocal), 발신자의 보낸 편지함(Sent)에 메일을 저장하도록하는 설정이다.

이 설정은 기본 사용으로 되어 있는데, MUA로 메일을 발송하는 경우 MUA에서 보낸 편지함에 저장하고 James에서도 보낸 편지함에 저장하면서 MUA의 보낸 편지함에 2개의 동일한 메일이 저장된다.

<mailet match="SenderIsLocal" class="ToSenderFolder">
           <folder>Sent</folder>
           <consume>false</consume>
         </mailet>

Apache James에서 이 기능을 중지하고 사용해면 해결되는데,

Apache James를 기반으로 웹 메일을 구축한 경우 서버에 보낸 메일이 남지않는 문제가 생긴다.

mailbox.xml는 주고 받은 메일을 저장하는 형태를 지정하는 파일이다.

mailbox.xml

jpa, maildir, memory의 세가지 방식이 제공되는데,

jpa는 OpenJPA를 이용하여 메일 정보를 각종 데이터 베이스 (MariaDB, Oracle 등)에 저장하여 관리하는 것으로 기본 설정으로 지정되어 있다.

maildir는 하나의 메일을 EML 파일로 저장하고, 전체 리스트등을 Text 파일로 관리하는 방식을 의미한다.

메일 사용자, 도메인 등은 jpa와 동일하게 OpenJPA를 이용하여 데이터베이스에 저장된다.

memory는 일종의 테스트 용으로 maildir와 유사하지만 메일 정보를 파일이 아닌 메모리에 저장한다.

James를 재가동하면 메일 송수신 내역이 사라진다.

이 3가지 방법에 대한 자세한 사용 방법은 따로 정리하였다.

이외에도 cassandra등이 지원된다고 한다.

개인적으로 메일의 첨부 파일을 데이터 베이스에 저장하는 것을(jpa방식) 좋게 생각하지 않는데,

maildir는 개인별 메일 리스트를 Text 파일로 관리하면서, 메일 양이 많은 경우 속도가 떨어지는 문제가 있다.

(왜 속도가 떨어지는지 해당 코드를 분석해서 알고 있지만 수정해서 기여할 여력(?)이...)

따라서, 메일의 헤더(보낸사람, 받는사람, 제목등)는 데이터베이스에

양이 많은 본문과 첨부 파일은 파일로 저장하는 방식이 좋을 것 같아서 방법을 찾고 있다.

특히, 웹 메일을 구현하려면 JPA 방식으로 구현되어야 하는데, 첨부 파일을 데이터베이스에 저장하는 것이...

자세한 사용 방법은 따로 정리하였다.

다음 파일은 JPA 사용시 접속할 데이터베이스 접속 정보를 지정하는 james-database.properties 파일이다.

사용할 데이터베이스(database=DERBY)를 지정하고,

JAVA에서 JDBC를 이용해서 데이터베이스에 접속하는 4가지 기본 정보를 지정하면 된다.

database.driverClassName=org.apache.derby.jdbc.EmbeddedDriver
database.url=jdbc:derby:../var/store/derby;create=true
database.username=app
database.password=app

# Supported adapters are:
# DB2, DERBY, H2, HSQL, INFORMIX, MYSQL, ORACLE, POSTGRESQL, SQL_SERVER, SYBASE
vendorAdapter.database=DERBY

openjpa.streaming=false

james-database.properties

다음 파일은 usersrepository.xml로 사용자 계정의 암호화 방식을 지정한다.

usersrepository.xml

기본은 MD5인데 SHA-256을 지정해서 사용하는 것이 좋다.

마지막으로 정리할 파일은 wrapper.conf로 사용할 메모리를 지정 등 Java 실행 환경을 지정할 수 있다.

# Initial Java Heap Size (in MB)
#wrapper.java.initmemory=3
wrapper.java.initmemory=128

# Maximum Java Heap Size (in MB)
#wrapper.java.maxmemory=64
wrapper.java.maxmemory=512

# Log Level for console output. (See docs for log levels)
wrapper.console.loglevel=INFO

wrapper.conf

기본적으로 메모리를 MB 단위로 지정했는데, 처리 양이 많은 경우 GB 단위로 하는 것이 좋고,

James의 각종 처리를 확인하기 위해서는 로그 단위를 INFO보다 DEBUG등으로 하는 것이 좋다.

James 로그는 Log4J를 사용하나 Log4J를 찾아보고, log4j2.xml에서 설정한다.

'서버 > 메일' 카테고리의 다른 글

5. Apache James 메일 서버 - 스팸 필터 (0)	2021.01.10
스팸 메일 서버 구축 - SpamAssassin & Postfix (0)	2021.01.09
1. Apache James 메일 서버 - 설치 (1)	2020.12.06
3. Apache James 메일 서버 - 메일 클라이언트 (3)	2020.12.06
4. Apache James 메일 서버 - Text와 JPA(MariaDB등) (0)	2020.12.06

3. Apache James 메일 서버 - 메일 클라이언트

forest71 2020. 12. 6. 19:32

2020. 12. 6. 19:32

앞서 설치한 Apache James 메일 서버에 접속해서 메일을 보내고 받는 방법을 정리한다.

메일을 보내고 받는 방법은 간단하게는 텔넷(telnet)을 이용할 수 있고, 전용 프로그램(Mail Transfer Agent - MTA)을 설치해서 이용할 수도 있다.

Apache James 메일 서버 - 설치
Apache James 메일 서버 - 설정
Apache James 메일 서버 - 메일 클라이언트
Apache James 메일 서버 - Text와 JPA(MariaDB등)
Apache James 메일 서버 - 스팸 필터 (SpamAssassin)

사전 작업

메일 접속을 하기 전에, 앞서 James를 실행하면서 지정한 forest71.com 도메인을 등록한다.

실제 도메인을 사용한 경우에는 신경 쓰지 않아도 되지만, 개발자가 임의로 지정한 도메인인 경우에는 운영체제에 임의로 등록해서 사용해야 한다.

먼저 James를 설치한 PC가 윈도우일 경우에는 윈도우 시작 메뉴에서 관리자 권한으로 메모장을 실행하고,

C:\Windows\System32\drivers\etc 폴더에 있는 hosts 파일을 열어서 다음과 같이 수정한다.

127.0.0.1은 현재 사용 중인 PC를 의미하고,

임의로 지정한 forest71.com 도메인은 127.0.0.1를 가르키도록 지정했다.

다른 PC에 제임스를 실행한 경우에는 해당 PC의 IP를 지정하면 된다.

리눅스일 경우에는 etc/hosts를 관리자 권한으로 수정한다.

sudo vi /etc/hosts

윈도우와 동일하게 127.0.0.1을 임의의 도메인 forest71.com로 지정한다.

네트워크 상태를 점검하는 명령어인 ping으로 forest71.com의 IP를 확인할 수 있다.

ping forest71.com

1. 텔넷(Telnet)

텔넷은 간단하게 메일 서버가 제대로 작동하는지 확인하기 위해 많이 사용하는 방법으로, 각종 명령어를 직접 입력해야 하는 불편함이 있다.

하지만, 폐쇄망일 경우에 별도의 MUA를 설치할 수 없는 경우가 많아, 많은 사람들이 이용하는 방법이다.

리눅스일 경우에는 기본 설치되어 있고, 윈도우는 추가 설치를 해야 한다.

설치 방법은 [윈도우 텔넷]으로 검색하면 쉽게 찾을 수 있다.

텔넷을 설치한 후에, 운영체제에 관계없이 콘솔에서 다음 명령어 중 하나로 텔넷을 실행한다.

메일 발송(SMTP-25)을 먼저 테스트한다.

              telnet localhost 25
              telnet 1270.0.01 25
              telnet forest71.com 25

localhost는 현재 텔넷을 실행한 컴퓨터의 도메인을 의미하는 것으로 127.0.0.1과 같은 의미이다.

메일 서버가 텔넷을 실행하는 서버에 있는 경우 위와 같이 IP를 지정하고, 다른 서버에 있는 경우에는 해당 메일 서버의 도메인이나 IP를 지정한다.

메일을 발송할 것이라 SMTP 포트인 25번으로 접속한다.

당연하겠지만 메일을 가져올 때는 IMAP 포트인 143으로 접속한다.

모든 설정이 제대로 된 경우 다음과 같은 SMTP 메시지가 입력되고 커서가 깜박인다.

ehlo 명령어로 메일 전송을 시작한다.

ehlo test

ehlo 다음에는 아무 값이나 입력하면 된다.

위와 같은 메시지가 출력되면,

메일을 보내는 사람 mail from:<gujc1@forest71.com>

메일을 받는 사람 rcpt to:<gujc1@forest71.com>

을 입력하고 메일 내용을 작성하기 위해 data를 입력하고 <enter>키를 누른다.

메일 제목을 입력하고 Subject: test mail

본문을 입력한 뒤에 this is a test mail

점(.)을 입력하고 <enter>키를 누르면 메일이 발송된다.

메일 제목을(Subject) 입력한 뒤에 <enter>키를 눌러 <CRLF>를 추가하고 메시지를 입력해야

메일 제목과 본문이 구분된다.

그렇지 않으면 제목이 없는 메일이 발송된다.

이번에는 받은 메일을 가져오는 IMAP을 연습해 보기 위해 콘솔에서 다음 명령어 중 하나로 텔넷을 실행한다.

              telnet localhost 143
              telnet 1270.0.01 143
              telnet forest71.com 143

IMAP 환영 메시지가 나오면,

메시지를 확인할 계정과 비밀번호를 지정해서 다음과 같이 login을 한다.

a login gujc1@forest71.com gujc1234

list 명령어로 로그인한 계정의 메일함 종류를 확인한다.

a list "" "*"

별도의 메일함을 생성하지 않았기 때문에

기본 메일함인 받은 편지함(INBOX), 보낸 편지함(Sent), 삭제함(Trash)등이 출력된다.

받은 메일을 읽기 위해 받은 편지함(INBOX)을 선택한다.

a select inbox

하나의 메일(1 EXISTS)이 있다고 표시된다.

이미 한번 읽었기 때문에 0 RECENT로 표시 되는데, 안 읽은 메시지가 있으면 안 읽은 메시지 개수가 표시된다.

fetch 명령어로 하나의 메일에 대한 내용을 확인 할 수 있다.

a fetch 1 body[]

1 은 메일 서버에서 메일함 별로 부여하는 메일 고유 번호로 (uid라고 한다),

메일 개수를 번호로 생각하고 지정하면 된다.

여기서는 위 그림과 같이 하나의 메일, 첫번째 메일의 내용을 보여 준다.

이외에도 imap은 다양한 명령어가 있으니, [imap 명령어]로 관련 내용들을 찾아서 익혀두는 것이 좋다.

주의: IMAP에서는 특정 계정으로 로그인을 했지만, SMTP에서는 로그인을 하지 않았다.

SMTP에서 로그인을 하지 않고 메일을 발송할 수 있었던 이유는 James SMTP 설정 파일인 smtpserver.xml의 속성 중에서 <authorizedAddresses>에서 로컬 IP(127.0.0.1)를 지정했기 때문이다.

<authorizedAddresses>속성으로 지정된 IP에서 보내는 메일은 로그인을 하지 않고 메일을 발송한다.

SMTP 로그인은 계정 정보를 Base64로 변환해서 입력해야 하는데, 상세한 내용은 [SMTP 명령어]로 검색해서 익혀두는 것이 좋다.

로그인을 해서 메일을 발송하는 경우에는 다음과 같이 MUA(Mail User Agent) 사용하는 것이 편리하다.

2. Mail User Agent

이메일을 읽고 보내는 이메일 클라이언트 프로그램들은(Mail User Agent) 인터넷으로 쉽게 구할 수 있다.

무료와 유료가 다양하게 제공되는데, 기업에서는 제법 오래전 부터 아웃룩(Outlook)이 독보적이다.

다만, 아웃룩은 메일 서버에 인증서 설정이 되어 있지 않으면 쉽게 계정을 등록할 수 없다.

개인적으로 PC에서는 오픈 소스인 썬더 버드를 선호한다.

썬더버드와 같은 MUA를 사용하면 메일을 쉽게 주고 받을 수 있는데, 현재 로컬에 개발로 설정하였기 때문에 썬더버드에서 메일을 발송하면 메일은 잘 발송되지만, 발송된 메일을 보낸 편지함(sent)에 저장하면서 오류가 발생한다.

그냥 무시하고 사용해도 된다 (?).

자세한 설치는 [썬더버드 설치]로 검색해서 익혀두고, 여기에서는 계정 등록시 주의해야 할 사항을 정리한다.

다음 그림과 같이 이메일 계정 등록 화면에서 하단에 있는 [수동으로 구성]을 선택한다.

[수동으로 구성]을 선택하면, 다음 그림과 같이 SMTP와 IMAP 서버 주소를 입력하는 창에 자동으로 도메인 앞에 점(.)이 붙어 생성된다.

SMTP와 IMAP 프로토콜 별로 서버 도메인을 등록하기 때문에 점이 붙는데,

smtp.forest71.com, imap.forest71.com 같이 하위 도메인을 프로토콜별 서버 주소로 입력해야 한다.

또는 합쳐서 mail.forest71.com과 같은 도메인을 등록해서 사용한다.

여기에서는 임의의 도메인을 만들어서 사용하는 것이기 때문에 하위 도메인 없이 구현하였다.

따라서 점(.)을 제거하고 forest.com만 서버 주소로 입력한다.

단, 썬더버드를 설치한 PC의 hosts 파일에 forest.com을 등록해야 한다.

아니면 James를 설치한 서버 주소 IP를 직접 입력해서 사용해도 된다.

모바일에서는 아웃룩을 사용하지 않는 것이 좋을 것 같다.

자주 (약 2주 간격) 업데이트하기도 하는데, 모바일의 특성상 메일 서버에 인증서가 설치되어 있어야 이메일 계정을 등록할 수 있다.

그나마 많이 사용하는 것이 스파크 인것 같고, 개인적으로는 gmail 앱을(gmail 메일 서버가 아니다.) 선호한다.

Android 폰에는 기본적으로 설치되어 있다.

모바일 MUA에 계정을 등록하려면 James에 인증서를 등록해서 실행해야 하기 때문에

모바일 MUA에 계정을 등록하는 방법은 정리하지 않는다.

'서버 > 메일' 카테고리의 다른 글

5. Apache James 메일 서버 - 스팸 필터 (0)	2021.01.10
스팸 메일 서버 구축 - SpamAssassin & Postfix (0)	2021.01.09
1. Apache James 메일 서버 - 설치 (1)	2020.12.06
2. Apache James 메일 서버 - 설정 (0)	2020.12.06
4. Apache James 메일 서버 - Text와 JPA(MariaDB등) (0)	2020.12.06

4. Apache James 메일 서버 - Text와 JPA(MariaDB등)

forest71 2020. 12. 6. 19:32

2020. 12. 6. 19:32

Apache James를 설치하고 접속해서 메일을 주고 받는 것까지 정리하였고, 여기에서는 주고 받은 메일을 저장하는 방식에 대해서 정리한다.

Apache James 메일 서버 - 설치
Apache James 메일 서버 - 설정
Apache James 메일 서버 - 메일 클라이언트
Apache James 메일 서버 - Text와 JPA(MariaDB등)
Apache James 메일 서버 - 스팸 필터 (SpamAssassin)

앞서 정리한 conf 폴더의 설정 파일 중에서 mailbox.xml는 주고 받은 메일을 저장하는 형태를 지정하는 파일로,

James에서는 jpa, maildir, memory 등의 방식이 제공된다.

mailbox.xml

jpa, maildir, memory의 세가지 방식이 제공되는데,

jpa는 OpenJPA를 이용하여 메일 정보를 각종 데이터베이스 (MariaDB, Oracle 등)에 저장하여 관리하는 것으로 기본 설정으로 지정되어 있다.

maildir은 하나의 메일을 EML 파일로 저장하고, 전체 메일 리스트 등을 Text 파일로 관리하는 방식을 의미한다.

메일 사용자, 도메인 등은 jpa와 동일하게 OpenJPA를 이용하여 데이터베이스에 저장한다.

memory는 일종의 테스트 용으로 maildir와 유사하지만 메일 정보를 파일이 아닌 메모리에 저장하기 때문에 James를 재가동하면 메일 송수신 내역이 사라진다.

여기에서는 maildir과 jpa 설정 방식에 대한 자세한 내용을 정리한다.

먼저, mailbox.xml에서 위와 같이 <provider>가 jpa로 지정되었는지 확인하고 (기본 설정),

conf 폴드의 james-database.properties 파일을 다음과 같이 수정한다.

database.driverClassName=org.mariadb.jdbc.Driver
database.url=jdbc:mariadb://127.0.0.1:3306/james_mail
database.username=root
database.password=gujc1004

# Supported adapters are:
# DB2, DERBY, H2, HSQL, INFORMIX, MYSQL, ORACLE, POSTGRESQL, SQL_SERVER, SYBASE
vendorAdapter.database=MYSQL

james-database.properties

james-database.properties 파일은 데이터베이스 방식을 사용하기 위해 데이터베이스 접속 정보를 입력하는 파일로 Java의 JDBC 설정 내용과 동일한 값을 입력한다.

기본 데이터베이스는 DERBY로 지정되어 있고, 앞서서 설정한 도메인(forest71.com), 사용자(gujc1@forest71.com), 메일 송수신 정보 등이 DERBY에 저장되어 있다.

DERBY는 많은 데이터를 처리하기 어렵고 관련 자료를 구하기도 어렵다.

여기에서는 James가 OpenJPA로 지원하는 여러가지 데이터베이스 중 보편적인 MariaDB를 사용한다.

MariaDB를 설치하는 방법은 여기서 정리하지 않으니 인터넷 자료를 찾아서 설치하고, james_mail이라는 데이터베이스를 생성하면 된다.

다른 데이터베이스를 생성한 경우에는 위 코드에서 database.url에 해당 데이터베이스 이름을 지정하면 된다.

주의: MariaDB를 사용하지만 드라이버 클래스 이름만 mariadb를 지정하고, vendorAdapter.database 변수에는 MYSQL을 지정해서 사용한다.

MariaDB대신에 MYSQL을 설치해서 사용해도 된다.

MariaDB와 Apache James를 연결하기 위한 JDBC 드라이버를 MariaDB 드라이버(Connector/J) 공식 사이트에서 다운로드 받는다.

Java용 라이브러리를 선택하고, download 버튼을 클릭한다.

다운로드 받을 때, 다음 그림의 왼쪽과 같이 이메일 등의 개인 정보를 입력하라고 하는데,

입력하지 않고 가만이 있으면 다운로드가 진행된다.

다운로드 받은 jar파일을(현재는 mariadb-java-client-2.7.1.jar) 복사해서

James의 conf폴더 하위에 있는 lib(james-server-app-3.5.0\conf\lib) 폴더에 넣어준다.

그리고, 제임스를 재가동(james restart)한다.

제임스를 재가동하면 데이터베이스를 MariaDB로 변경하였기 때문에

앞서서 설정한 도메인(forest71.com), 사용자(gujc1@forest71.com), 메일 송수신 정보가 없다.

콘솔창에서 사용자를 다시 생성한다.

james-cli.bat adduser gujc1@forest71.com gujc1234

도메인은 따로 설정 파일에서 (domainlist.xml) 등록했기 때문에 다시 생성하지 않아도 된다.

데이터베이스 관리도구로 MariaDB에 접속하면 지정한 데이터베이스(james_mail)에 자동으로 테이블들이 생성되어 있고

도메인 테이블(james_domain)에 임의로 사용하는 도메인(forest71.com)이 등록되어 있는 것을 볼 수 있다.

james_user 테이블에 새로 생성한 사용자가

james_mailbox에는 사용자별 메일함이

james_mail에는 송수신한 메일들이 저장되어 있다.

대량의 메일을 관리하기에는 MariaDB나 Oracle등의 DBMS를 사용하는 것이 좋은데

첨부파일도 데이터베이스에 저장하는 것이 좋은지에 대해서는 의문이 있다.

지나치게 데이터 베이스 용량이 커지면서 백업과 복구에 소요되는 시간등의 문제가 있을 것 같다.

이번에는 JPA외에 전통적인 text 방식으로 관리하는 maildir 방식으로 구현한다.

다만, text 방식은 윈도우에서 제대로 작동하지 않는다.

이유는 아래에 정리하였으며, 여기에서는 리눅스로 정리한다.

mailbox.xml에서 다음과 같이 <provider>를 maildir로 변경한다.

<mailbox>
   
   
   
   <provider>maildir</provider>
</mailbox>

mailbox.xml

그리고, 제임스를 재가동(james restart)한다.

conf 폴더에 있는 mailbox-maildir.properties 파일에는 다음과 같은 내용이 있다.

maildir.folder=../var/store/maildir/%domain/%user
maildir.messageNameParser.strictMode=false

mailbox-maildir.properties

James를 설치한 폴더의 하위에 var 폴더 하위로 이어지는 위와 같은 경로가 있다.

이중 도메인(%domain)은 forest.com이고, 사용자(%user)는 gujc1이다.

즉, james-server-app-3.5.0\var\store\maildir\forest71.com\ 폴더에 사용자별로 폴더가 생긴다.

메일을 하나 발송한 뒤에 해당 폴더를 확인하면 다음과 같은 폴더들이 생성된다.

각 계정의 기본 폴더(gujc1)가 받은 메일함(inbox)이고

보낸 메일함은 .Sent이고, 각 폴더 안에 new와 cur 폴더가 있다.

새로 받은 메일은 new 폴더에, imap 접속하고 나면 cur폴더에 EML 파일이 생성된다.

다음 그림과 같이 메일의 EML 파일명에 콜론(:)이 포함되어 있다.

이 콜론이 윈도우에서는 파일명으로 사용할 수 없는 특수 문자라서 maildir 방식은 리눅스에만 사용할 수 있다.

maildir로 지정하면 메일 내용은 EML 파일로 생성해서 관리하고, 계정별 메일 리스트는 james-uidlist라는 텍스트 파일로 관리한다.

james-uidlist는 메일함 별로 생성되어 관리하는데,

한 사용자가 하나의 메일함에 메일을 많이 가지고 있는 경우 처리 속도가 느린 단점이 있다.

송수신된 메일들을 파일로 처리하기 때문에,

앞서서 메일 정보를 저장하는 james_mail 테이블을 확인하면 메일이 추가 되지 않는 것을 확인할 수 있다.

'서버 > 메일' 카테고리의 다른 글

5. Apache James 메일 서버 - 스팸 필터 (0)	2021.01.10
스팸 메일 서버 구축 - SpamAssassin & Postfix (0)	2021.01.09
1. Apache James 메일 서버 - 설치 (1)	2020.12.06
2. Apache James 메일 서버 - 설정 (0)	2020.12.06
3. Apache James 메일 서버 - 메일 클라이언트 (3)	2020.12.06

1. 검색엔진 실전 예제 - Solr 설치

forest71 2020. 3. 15. 23:10

2020. 3. 15. 23:10

오픈 소스 Lucene(루씬)을 기반으로 하는

대표적인 검색엔진인 Solr(쏠라)와 Elasticsearch(엘라스틱서치)는 Lucene을 기반으로 하지만 사용법은 전혀 다르다.

특히 데이터 수집(색인-Indexing)에 있어서,

일반적인 문서 색인은 Solr가 쉽게 구현할 수 있고, 웹 로그와 같은 짧은 형태의 데이터는 Elasticsearch가 쉽게 구현할 수 있는 것 같다.

또, 검색(Search) 문법에 있어서 Solr는 Lucene의 문법을 그대로 따르고, Elasticsearch는 자신만의 문법을 구현한 차이가 있다.

이 두 가지 검색엔진의 차이를 이해하고,

둘 다 익히기 위해 예제를 만드는 중으로 세부 기능을 구현하는데 시간이 많이 걸려 (언제 끝날지...)

일단 먼저 기본적인 색인 / 검색 기능을 구현하고 설치 / 사용하는 방법을 정리한다.

Solr와 Elasticsearch예제는 각각 Github 에서 다운로드 받을 수 있다.

    1. Solr 설치
    2. Solr 주요 설정과 코드
    3. Elasticsearch 설치
    4. Elasticsearch 주요 설정과 코드

먼저, Solr 예제 사용법을 정리한다.

예제는 그림과 같이 기존에 공유한 웹 프로젝트인 Project9에 검색 기능을 추가하는 형태로 작성했다.

Project9에 대한 설명은 기존 블로그에서 확인 할 수 있다.

Project9의 게시판 데이터를 대상으로 하고,

공지사항과 일반 게시판의 게시판 종류를 데이터 종류로 구분해서 통합 검색 기능을 구현하였다.

설치 방법은 Solr설치 (데이터 수집)와 Project9 설치(데이터 검색)로 구분된다.

Solr 설치

Solr 다운로드 및 설치
실행: solr start
라이브러리 설치
데이터 구성
색인

Project9 설치

소스 다운로드 및 설치

참고: Project9 설치는 기존 방식과 동일하기 때문에 여기에서 별도로 정리하지 않는다.

Solr 설치

1.Solr 다운로드 및 설치

Solr 다운로드 사이트에서 운영체제에 맞는 압축 파일을 다운로드 받아서, 압축을 해제 한다.

2. 실행: solr start

콘솔창(cmd)에서 Solr를 실행하고(start), 데이터를 저장할 코어(project9)를 생성한다(create).

주의: Solr를 사용하려면 JDK1.8 이상이 설치 되어 있어야 한다.

웹 브라우저에서 http://localhost:8983/solr/를 입력해서 Solr 관리창에 접속한다.

생성된 project9 코어르 확인하고, 색인을 하기 위해 선택한다.

3. 라이브러리 설치

웹 프로젝트인 Project9은 MariaDB에 데이터를 저장하기 때문에,

데이터를 수집 하기 위해서 MariaDB 드라이버를 설치하고,

수집된 한글 데이터를 색인하기 위해 아리랑 형태소 분석기를 추가한다.

먼저, MariaDB 공식 웹 사이트에서 드라이버를 다운로드 받거나 Project9을 설치하고 .m2 폴더에서 mariadb-java-client-x.x.x.jar파일을 복사해서 solr/dist 폴더에 넣어준다.

형태소 분석기는 아리랑을 사용하고, 커뮤니티 사이트의 다운로드 메뉴에서 적절한 버전을 다운로드 받아서

[solr설치경로]\server\solr-webapp\webapp\WEB-INF\lib 폴더에 넣어 준다.

4. 데이터 구성

이 작업을 하기 위해서는 Project9의 소스가 설치 되어 있어야 한다.

데이터 구성에 필요한 정보가 Project9의 소스의 solr 폴더에 있기 때문이다.

문서 작성의 단계상 다음 단계에 하는 것으로 정리했지만, Project9의 Solr 예제 소스를 다음과 같이 다운로드 받는다.

또는, Eclipse에서 다운로드 받는 것이 편리하고, Eclipse로 git 소스를 다운로드 받는 것은 기존 블로그를 참고하면 된다.

git clone https://github.com/gujc71/Project9_Solr.git

다운 받은 Project9 소스 폴더에서 project9_solr\solr에 있는 모든 파일을 [solr설치경로]\server\solr\project9\conf 폴더에 복사한다.

지금까지 설정한(복사한) 내용들이 반영될 수 있도록 Solr를 재가동 한다.

solr restart -p 8983

5. 색인

Solr의 색인은 DIH (Data Import Handler)를 이용하며 자세한 정리는 DIH 예제 분석에서 정리되어 있다.

생성한 project9 코어를 선택하고, Dataimport 메뉴에서 풀색인(full-import)을 실행한다(execute).

위 그림의 우측 녹색 배경에 출력된 내용처럼 41건의 데이터가 조회되면 잘 색인(Indexing)된 것이다.

주의: 실행 결과는 [Refresh Status] 버튼을 계속 클릭하거나, [Auto-Refresh Status]를 선택하면 된다.

[Query] 메뉴에서 실행(Execute Query] 버튼을 클릭해서 색인한 데이터를 조회한다.

검색과 관련된 자세한 사항은 인터넷 검색을 해보거나 기존 블로그 내용을 참고하면 된다.

Project9 설치

Project9의 설치는 기존에 공개한 웹 프로젝트로 기존 블로그에 정리되어 있다.

이 내용과 동일하고, Github 프로젝트 명만 project9이 아닌 project9_solr로 바꾸어 설치하면 된다.

그리고, 적당한 계정으로 로그인해서 [통합검색] 메뉴에서 다양한 검색 결과를 확인할 수 있다.

이상으로 예제를 실행하는 방법을 정리하였고

데이터를 수집해서 색인하고, 색인한 데이터를 프로그램에서 조회하는 주요 부분에 대한 코드 정리는 다음 블로그에서 정리한다.

'서버 > 검색엔진' 카테고리의 다른 글

2. 검색엔진 실전 예제 - Solr 주요 설정과 코드 (2)	2020.03.15
3. 검색엔진 실전 예제 - Elasticsearch 설치 (0)	2020.03.15
4. 검색엔진 실전 예제 - Elasticsearch 주요 설정과 코드 (2)	2020.03.15
검색 엔진, 챗봇 개발에 유용한 사전 (0)	2020.02.16
1. Solr 예제 분석 - 설치 (1)	2020.01.12

2. 검색엔진 실전 예제 - Solr 주요 설정과 코드

forest71 2020. 3. 15. 23:10

2020. 3. 15. 23:10

검색 서버를 구축 하려면 필요한 사항이 많지만, 가장 중요한 부분은 색인(Indexing)과 검색(Search)이다.

Solr에서 색인은 DIH (Data Import Handler)로 처리하고

검색식을 Solr 검색엔진에 전송하고 결과를 받아서 보여주는 Java(SolrJ) 부분으로 나누어 구현하였다.

DIH에 대한 사항과 SolrJ 사용법은 각각 이전에 정리하였고

구현 방법을 모두 여기에 정리 할 수 없기 때문에, 색인과 검색에 관련된 몇 가지 주요한 사항만 정리한다.

주의: 용어나 옵션에 대한 상세한 설명을 정리하지 않기 때문에 Solr를 잘 모른다면 다음 내용이 어려울 수 있다.

    1. Solr 설치
    2. Solr 주요 설정과 코드
    3. Elasticsearch 설치
    4. Elasticsearch 주요 설정과 코드

정리할 주요 내용은 다음 그림과 같다.

색인

색인 작업은 Solr 검색 서버가 처리하는 것이고,

개발자가 구현하는 것은 Solr가 색인 할 수 있도록 데이터를 수집하는 작업을 의미한다.

데이터 수집 작업은 수집한 데이터를 저장하는 공간에 대한 정의와 데이터를 수집하는 방법에 대한 정의로 구분된다.

앞서서 코어(project9)를 생성하고, 설정에([solr설치경로]\server\solr\project9\conf) 몇 가지 파일을 복사했다.

이 복사한 파일 중 managed-schema 파일은 다음과 같이 코어에 저장한 데이터 구조를 지정하는 파일이다.

<field name="brdtype" type="string" indexed="true" stored="true"/>
<field name="bgno" type="string" indexed="true" stored="true"/>
<field name="brdno" type="string" indexed="true" stored="true"/>
<field name="brdwriter" type="string" indexed="true" stored="true"/>
<field name="brdtitle" type="text_ko" indexed="true" stored="true"/>
<field name="brdmemo" type="text_ko" indexed="true" stored="true"/>
<field name="brddate" type="string" indexed="true" stored="true"/>
<field name="brdtime" type="string" indexed="true" stored="true"/>

<field name="reno" type="string" indexed="true" stored="true" multiValued="false" required="false" />
<field name="rememo" type="string" indexed="true" stored="true" multiValued="false" required="false" />

<field name="fileno" type="string" indexed="true" stored="true" multiValued="false" required="false" />
<field name="filename" type="string" indexed="true" stored="true" multiValued="false" required="false" />
<field name="filememo" type="text_ko" indexed="true" stored="true" multiValued="false" required="false" />

managed-schema

게시판의 내용(brd*)과 댓글(reno, rememo), 첨부파일(file*)에 대한 정보를 저장한다.

검색엔진은 RDBMS와 다르게 데이터를 정규화해서 저장하지 않고, 위 코드와 같이 하나의 문서로 모든 내용을 저장한다.

데이터 타입(type)은 여러가지가 있지만

여기서는 형태소 분석기로 분석해서 색인할 데이터는 text_ko라는 사용자 정의 타입으로 지정하고,

그대로 색인할 데이터는 string으로 지정한다.

사용자 정의 타입인 text_ko는 managed-schema 파일 하단에 다음과 같이 정의하였다.

<fieldType name="text_ko" class="solr.TextField" >
    <analyzer type="index">
        <tokenizer class="org.apache.lucene.analysis.ko.KoreanTokenizerFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.ClassicFilterFactory"/>
        <filter class="org.apache.lucene.analysis.ko.KoreanFilterFactory" hasOrigin="true" hasCNoun="true"  bigrammable="false" queryMode="false"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false" />
        <filter class="org.apache.lucene.analysis.ko.WordSegmentFilterFactory" hasOrijin="true"/>
        <!--filter class="org.apache.lucene.analysis.ko.HanjaMappingFilterFactory"/>
        <filter class="org.apache.lucene.analysis.ko.PunctuationDelimitFilterFactory"/-->
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
    </analyzer>
    <analyzer type="query">
        <tokenizer class="org.apache.lucene.analysis.ko.KoreanTokenizerFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.ClassicFilterFactory"/>
        <filter class="org.apache.lucene.analysis.ko.KoreanFilterFactory" hasOrigin="true" hasCNoun="true" bigrammable="false" queryMode="false"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false" />
        <filter class="org.apache.lucene.analysis.ko.WordSegmentFilterFactory" hasOrijin="true"/>
        <filter class="org.apache.lucene.analysis.ko.HanjaMappingFilterFactory"/>
        <filter class="org.apache.lucene.analysis.ko.PunctuationDelimitFilterFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
    </analyzer>
</fieldType>

managed-schema

위 코드는 한글 형태소 분석기인 아리랑을 사용하기 위해 필요한 설정으로 상세한 설명은 인터넷에서 찾아보면 된다.

저장한 공간을 지정한 뒤에는 db-data-config.xml 파일에서 다음과 같이 수집할 데이터를 지정한다.

db-data-config.xml

데이터 수집은 SQL문으로 작성하고, DIH 예제 정리를 참고하면 된다.

단순한 구조는 DIH 예제에 정리한 것과 같이 데이터를 가지고 오는 SQL만 초기 전체 데이터와 증가된 데이터에 대해서 작성한다.

여기서 사용된 구조는 조금 복잡한데,

게시판 글이(board) 부모이고, 댓글(reply)과 첨부파일이(boardFileList) 자식인 구조로 작성되었다.

위 XML 코드를 자세히 보면 게시판(board) entity 안에 댓글(reply)과 첨부파일(boardFileList) entity 가 포함되어 있고,

게시판(board) entity는 root로, 댓글(reply)과 첨부파일(boardFileList) entity는 child로 설정한다.

이것을 nested documents라고 한다.

데이터가 직관적으로 저장되지 않아서 개인적으로 Solr가 Elasticsearch보다 조금 부족한 부분이라고 생각하는데,

다음 그림과 같이 자식 데이터인 댓글이 부모와 따로 저장되어 있다.

Elasticsearch에서는 자식 데이터가 배열형처럼 처리되어 부모 글과 같이 조회된다.

주의: Solr에서 자식 문서(nested) 처리를 찾기 위해 제법 많은 시간을 허비했지만 찾지 못 한 것 일 수 있음.

마지막으로 첨부 파일은 Tika(TikaEntityProcessor)를 사용해서 텍스트로 변환해서 색인한다.

Tika로 추출된 텍스트(text)는 filememo라는 이름으로 Solr에 색인된다.

검색

검색은 기존 Prohect9 프로젝트에 구현되어 있으며

하나의 Java파일(gu.search.SearchCtr)과 Jsp(search.jsp) 파일로 작성하였다.

search.jsp 파일은 검색 결과를 Json으로 받아서 적절하게 보여주는 기능을 하고, 여기서 정리하지 않는다.

SearchCtr.java 파일은 SolrJ를 기반으로 작성하였고,

검색식을 만드는 부분, SolrJ를 이용하여 Solr에 질의하는 부분, Solr에서 반환 받은 결과를 정리해서 Json으로 작성하는 부분으로 나눌 수 있다.

검색식을 만드는 기본 코드는 다음과 같고

사용자가 입력한 키워드와 검색 필드에 맞추어 Solr(Lucene) 검색식을 생성한다.

Solr(Lucene) 검색식은 기존 자료를 참고하고, 기본적으로 [필드명 : 키워드] 형태로 작성한다.

예를 들어 글 제목에서 JS 란 단어를 찾는 경우 brdsubject:JS가 된다.

private String makeQuery(String keyword, String[] fields) {
    String queryStr = "";
    
    for (int i=0; i<fields.length; i++) {
        if (queryStr.length()>0) queryStr += " OR ";
        if ("brdfiles".equals(fields[i]))
            queryStr += " {!parent which=\"brdtype:1\"}filememo:" + keyword;
        else 
        if ("brdreply".equals(fields[i]))
             queryStr += " {!parent which=\"brdtype:1\"}rememo:" + keyword;
        else queryStr += " " + fields[i] + ":" + keyword;
    }
    
    return queryStr;
}

SearchCtr.java

makeQuery()함수에서는 작성자(brdwriter), 글 제목(brdsubject), 글 내용(brdmemo) 등의 여러 필드(fields)가 searchRange 변수에 콤마(,)로 묶여서 넘어오기 때문에 콤마로 나누어서(split) 개수만큼 반복한다.

여러개의 필드에서 해당 키워드를 찾기 때문에 OR로 연결한다.

즉, 작성자(brdwriter)에 키워드가 있거나(OR) 글 제목(brdsubject)에 키워드가 있는(OR ...) 문서를 찾는 것이 된다.

중요: 기본 검색식 brdsubject:JS는 위 코드에서 마지막 else 문에 있는 코드이다.

queryStr += " " + fields[i] + ":" + keyword;

앞서 사용한 if 문들은 nested 처리, 즉, 하나의 게시글에 대한 댓글, 첨부 파일 같은 자식글 검색을 위한 코드로

댓글, 첨부 파일 같은 자식글에서 검색이 되더라도 부모글이 조회되어야 하기 때문에 다음과 같이 별도의 코드를 사용한다.

{!parent which="brdtype:1"}rememo:키워드

댓글(rememo)에 키워드가 검색되더라도 글종류(brdtype)가 1인 데이터를 조회하는 것으로

글 종류는 게시물 색인시 1로 저장하도록 작성해 두었다.

이렇게 작성 한 makeQuery()함수를 호출하는 검색식의 메인 부분은 다음 코드이다.

String searchKeyword = searchVO.getSearchKeyword();

String[] fields = searchVO.getSearchRange().split(",");	 			// 검색 대상 필드 - 작성자, 제목, 내용 등
String[] words  = searchKeyword.split(" ");
String queryStr = "";

for (int i=0; i<words.length; i++) {
	queryStr += makeQuery(words[i], fields);
}

String searchType = searchVO.getSearchType();
if (searchType!=null & !"".equals(searchType)) {
	queryStr = "(" + queryStr + ") AND bgno:" + searchType;  
}

if (!"a".equals(searchVO.getSearchTerm())) { // 기간 검색		
	queryStr = "(" + queryStr + ") AND brddate:[" + searchVO.getSearchTerm1() + " TO " + searchVO.getSearchTerm2() + "]";  
}

SearchCtr.java

사용자가 입력하는 키워드(searchKeyword)는 공백으로 구분되어 여러 개가 입력될 수 있기 때문에 searchKeyword.split(" ")로 배열을 생성해서, 개수 만큼(words) Solr 검색식을 만든다(makeQuery).

여러 개의 키워드를 입력한 경우도 OR 연산으로 처리하였다.

한 필드에 A 키워드가 있거나 B 키워드가 있으면 조회하도록 한 것이다.

개발하는 조건에 따라 AND로 구현 할 수 있다.

사용자가 입력한 키워드(searchKeyword)와 검색할 필드(searchRange)를 이용해 기본 검색식을 생성하고

날짜(searchTerm)에 대한 조건을 지정할 수도 있고

통합 검색을 흉내내기 위해 게시판 종류(searchType)를 지정할 수 있다.

다만, 기본식은 OR로 연결했지만 날짜와 게시판 종류는 AND로 조회한다.

예를 들면, 게시판 종류가 공지사항이고(AND) 날짜는 3월 1일부터 3월 14일까지의 데이터 중에서(AND)

글제목에 해당 키워드가 있거나 글내용에 해당 키워드가 있는 문서를 조회하기 때문이다.

다음 부분은 검색식을 Solr로 보내는 SolrJ 코드이다.

SolrQuery solrQuery = new SolrQuery();
solrQuery.setQuery(queryStr);
solrQuery.setFields("");
solrQuery.addSort("id", ORDER.desc);								// 정렬
solrQuery.setStart( (searchVO.getPage()-1) * DISPLAY_COUNT);		// 페이징
solrQuery.setRows(DISPLAY_COUNT); 
solrQuery.setFacet(true);											// 합계
solrQuery.addFacetField("bgno");
solrQuery.setParam("hl.fl", "brdwriter, brdtitle, brdmemo");		// 하이라이팅
solrQuery.setHighlight(true).setHighlightSnippets(1);
logger.info(solrQuery.toString());

// 실제 조회
QueryResponse queryResponse = null;
SolrClient solrClient = new HttpSolrClient.Builder("http://localhost:8983/solr/project9").build();
try {
	queryResponse = solrClient.query(solrQuery);
	solrClient.close(); 

	logger.info(queryResponse.toString());
} catch (SolrServerException | IOException e) {
	logger.error("solrQuery error");
}

SearchCtr.java

정렬, 페이징 처리, 하이라이팅할 필드 등을 지정하고 개수를 집계(facet)할 필드를 지정한다.

facet는 통합 검색 기능을 위한 것으로 게시판 종류(bgno)별로 총 개수를 반환한다.

Solr 서버에 접속하고(SolrClient), 작성한 검색식을(solrQuery) 전송한다(질의한다-query).

실행 결과는 queryResponse에 Json(아닌 부분도 있다.) 형태로 반환된다.

마지막 부분은 검색 결과를 정리해서 Json 형태로 만드는 코드이다.

HashMap<String, Long> facetMap = new HashMap<String, Long>();
List<FacetField> ffList = queryResponse.getFacetFields();
for(FacetField ff : ffList){
    List<Count> counts = ff.getValues();
    for(Count c : counts){
        facetMap.put(c.getName(), c.getCount());
    }
}

//Map<String, Map<String, List<String>>> highlights = rsp1.getHighlighting();
HashMap<String, Object> resultMap = new HashMap<String, Object>();
resultMap.put("total", queryResponse.getResults().getNumFound());
resultMap.put("docs", JSONUtil.toJSON(queryResponse.getResults()).toString()) ;
resultMap.put("facet", facetMap) ;
resultMap.put("highlighting", queryResponse.getHighlighting()) ;

SearchCtr.java

반환된 queryResponse가 완전한 Json이면 처리 할 것이 없어서 그대로 JSP로 전달하면 좋은데,

아쉽게 조금 부족해서 조금의 처리를 해야 한다.

위 코드의 아래 부분에 있는 resultMap이 반환을 위한 JSon 작성부분으로

total은 검색된 전체 데이터 개수로 numFound 값으로 Solr에서 반환된다.

docs는 검색된 문서들로 5개씩(DISPLAY_COUNT) 반환되는데, getResults()함수로 가져오고 기본적으로 Json이지만 쓸데 없는 코드가 있어서 JSONUtil.toJSON() 함수로 변환해서 사용한다.

facet는 게시판 종류별 개수로 어쩡쩡한 구조로 반환되기 때문에 위 코드 앞부분에서 조금 복잡한 변환 작업을 한다 (facetMap 변수 부분 참조).

highlighting는 Json으로 반환되기 때문에 그대로 전달한다.

다른 인터넷 자료에서는 반환 결과를 VO 개체에 넣는 등 복잡한 처리를 하지만,

JSP에서 Javascript로 쉽게 Json을 사용 할수 있기 때문에 여기서는 반환 데이터를 Json으로 그냥 전송한다.

JSP까지 정리하면 검색과 관계없는 코드로 너무 길어질 것 같아서 여기까지 정리한다.

이상의 예제는 게시글/댓글,파일에 대한 색인과 검색에 대한 것으로

글이 수정되거나 삭제 된 경우에 대한 것도 처리가 필요하다.

일부 구현하였지만 게시판 프로그램 자체를 수정해야 해서 모두 구현하지 않았다.

이런 부분까지 구현하면 실사용에서도 무난하게 사용할 수 있을 것이다.

'서버 > 검색엔진' 카테고리의 다른 글

1. 검색엔진 실전 예제 - Solr 설치 (6)	2020.03.15
3. 검색엔진 실전 예제 - Elasticsearch 설치 (0)	2020.03.15
4. 검색엔진 실전 예제 - Elasticsearch 주요 설정과 코드 (2)	2020.03.15
검색 엔진, 챗봇 개발에 유용한 사전 (0)	2020.02.16
1. Solr 예제 분석 - 설치 (1)	2020.01.12

3. 검색엔진 실전 예제 - Elasticsearch 설치

forest71 2020. 3. 15. 23:10

2020. 3. 15. 23:10

오픈 소스 Lucene(루씬)을 기반으로 하는

대표적인 검색엔진인 Solr(쏠라)와 Elasticsearch(엘라스틱서치)는 Lucene을 기반으로 하지만 사용법은 전혀 다르다.

특히 데이터 수집(색인-Indexing)에 있어서,

일반적인 문서 색인은 Solr가 쉽게 구현할 수 있고, 웹 로그와 같은 짧은 형태의 데이터는 Elasticsearch가 쉽게 구현할 수 있는 것 같다.

또, 검색(Search) 문법에 있어서 Solr는 Lucene의 문법을 그대로 따르고, Elasticsearch는 자신만의 문법을 구현한 차이가 있다.

이 두 가지 검색엔진의 차이를 이해하고,

둘 다 익히기 위해 예제를 만드는 중으로 세부 기능을 구현하는데 시간이 많이 걸려 (언제 끝날지...)

일단 먼저 기본적인 색인 / 검색 기능을 구현하고 설치 / 사용하는 방법을 정리한다.

Solr와 Elasticsearch예제는 각각 Github 에서 다운로드 받을 수 있다.

    1. Solr 설치
    2. Solr 주요 설정과 코드
    3. Elasticsearch 설치
    4. Elasticsearch 주요 설정과 코드

먼저, Elasticsearch 예제 사용법을 정리한다.

예제는 그림과 같이 기존에 공유한 웹 프로젝트인 Project9에 검색 기능을 추가하는 형태로 작성했다.

Project9에 대한 설명은 기존 블로그에서 확인 할 수 있다.

Project9의 게시판 데이터를 대상으로 하고,

공지사항과 일반 게시판의 게시판 종류를 데이터 종류로 구분해서 통합 검색 기능을 구현하였다.

설치 방법은 Elasticsearch설치와 Project9 설치로 구분된다.

Elasticsearch 설치

다운로드 및 설치
실행
형태소 분석기 설치
사전 복사
저장소 생성

Project9 설치

소스 다운로드 및 설치

참고: Project9 설치는 기존 방식과 동일하기 때문에 여기에서 별도로 정리하지 않는다.

Elasticsearch 설치

1. Elasticsearch 다운로드 및 설치

Elasticsearch 다운로드 사이트에서 운영체제에 맞는 압축 파일을 다운로드 받아서, 압축을 해제 한다.

2. Elasticsearch 실행

압축을 해제한 폴더에서 bin 폴더에 있는 elasticsearch.sh(Linux)나 elasticsearch.bat (윈도우)를 실행한다.

그림과 같이 started가 보이면 잘 실행 된 것이다.

주의: Elasticsearch는 JDK 1.8에서도 실행되지만, JDK 11 이상에서 실행하도록 강력하게 추천한다.

그리고, jdk 폴더에 JDK 13 버전이 포함되어서 배포된다.

JAVA_HOME이 설정되지 않은 경우, 이 JDK 13에서 실행된다.

3. 형태소 분석기 설치

콘솔창(cmd)에서 Elasticsearch가 설치된 경로(bin)로 이동한 후,

다음 명령어를 실행해서 Elasticsearch에서 기본적으로 제공하는 형태소 분석기 nori를 설치한다.

elasticsearch-plugin install analysis-nori

4. 사전 복사

비었지만 나중에 사용할 사용자 사전(userdict.txt), 불용어 사전(stopwords.txt), 유의어 사전(synonyms.txt) 파일을 복사한다.

저장소 생성시 지정해 두었기 때문에 복사해야 한다.

사전 파일과 저장소 정보를 지정한 파일을 얻기 위해서는 Project9 Elasticsearch 예제 파일을 먼저 다운로드 받아야 한다.

문서 작성의 단계상 다음 단계에 하는 것으로 정리했지만, Project9의 Elasticsearch 예제 소스를 다음과 같이 다운로드 받는다.

또는, Eclipse에서 다운로드 받는 것이 편리하고, Eclipse로 git 소스를 다운로드 받는 것은 기존 블로그를 참고하면 된다.

git clone https://github.com/gujc71/Project9_es.git

다운 받은 Project9 소스 폴더에서 project9_es\elasticsearch에 있는 3개의 사전 파일을 [elasticsearch설치경로]/config 폴더에 복사한다.

5. 저장소(Index) 생성

앞서 설치한 형태소 분석기와 사전을 Elasticsearch에 인식시키기 위해 Elasticsearch를 다시 실행한다.

저장소 구성 정보를 저장한 index_board.json 파일이 있는 project9_es 설치 경로로 이동해서

다음 명령어를 실행한다.

curl -XPUT localhost:9200/project9 -d @index_board.json -H "Content-Type: application/json"

project9이라는 저장소(index)를 생성하고,

index_board.json 파일에 작성된 데로 저장 구조(Schema)를 생성한다.

Project9 설치

Project9의 설치는 기존에 공개한 웹 프로젝트로 기존 블로그에 정리되어 있다.

이 내용과 동일하고, Github 프로젝트 명만 project9이 아닌 project9_solr로 바꾸어 설치하면 된다.

그리고, 적당한 계정으로 로그인해서 [통합검색] 메뉴에서 다양한 검색 결과를 확인할 수 있다.

주의: Project9의 Elasticsearch 웹 예제를 실행하면, 1 분간격으로 데이터를 수집하도록 되어 있다.

Elasticsearch가 실행되어 있지 않으면 오류가 발생할 수 있고,

너무 빨리 통합 검색을 실행하면, 실행 결과가 없을 수 있다.

콘솔 창에서 Project9의 실행 로그 중에 데이터 수집 결과가 보이거나 조금 시간이 지난 뒤에 검색을 해야 한다.

이상으로 예제를 실행하는 방법을 정리하였고

데이터를 수집해서 색인하고, 색인한 데이터를 프로그램에서 조회하는 주요 부분에 대한 코드 정리는 다음 블로그에서 정리한다.

'서버 > 검색엔진' 카테고리의 다른 글

1. 검색엔진 실전 예제 - Solr 설치 (6)	2020.03.15
2. 검색엔진 실전 예제 - Solr 주요 설정과 코드 (2)	2020.03.15
4. 검색엔진 실전 예제 - Elasticsearch 주요 설정과 코드 (2)	2020.03.15
검색 엔진, 챗봇 개발에 유용한 사전 (0)	2020.02.16
1. Solr 예제 분석 - 설치 (1)	2020.01.12

4. 검색엔진 실전 예제 - Elasticsearch 주요 설정과 코드

forest71 2020. 3. 15. 23:09

2020. 3. 15. 23:09

검색 서버를 구축 하려면 필요한 사항이 많지만, 가장 중요한 부분은 색인(Indexing)과 검색(Search)이다.

Elasticsearch에서는 색인과 검색을 모두 Java로 개발했다.

(Solr에서는 DIH - Data Import Handler를 이용하여 SQL문만 작성하여 색인한다.)

Logtash라고 데이터를 수집하는 별도의 프로그램이 있지만,

RDBMS의 부모 / 자식 관계, 첨부 파일 색인 처리에 어려움이 많아서 직접 개발하였다.

Logtash는 로그 데이터 수집에는 편리했지만 그 외에는 불편한 것이 많았다.

그래서 Log 가 붙은 것인지…

모든 기능을 아직 구현하지 않았고 (기약할 수 없지만 구현 중),

구현 방법을 모두 여기에 정리 할 수 없어서, 색인과 검색 개발에 관련된 몇 가지 주요한 사항만 정리한다.

주의: 용어나 옵션에 대한 상세한 설명을 정리하지 않기 때문에 Elasticsearch를 잘 모른다면 다음 내용이 어려울 수 있다.

    1. Solr 설치
    2. Solr 주요 설정과 코드
    3. Elasticsearch 설치
    4. Elasticsearch 주요 설정과 코드

정리할 주요 내용은 다음 그림과 같다.

색인

색인 작업은 Elasticsearch 검색 서버가 처리하는 것이고,

색인과 관련해서 구현해야 하는 것은 데이터를 수집해서 Elasticsearch 검색 서버에 전달하는 것이다(IndexingCtr.java).

데이터 수집 작업은 수집한 데이터를 저장하는 공간(저장소-Index)에 대한 정의와 데이터를 수집하는 방법에 대한 정의로 구분된다.

색인할 데이터를 저장할 저장소(Index)에 대한 정의는 다운받은 Project9 프로젝트의 project9_es 폴더에 있는 index_board.json 파일에 있다.

Elasticsearch 설치 과정에서 이 파일을 실행해서 스키마를 정의하였다.

이것은 Json 계층 구조로 작성하고, 가장 최상위는 다음과 같다.

{
  "settings": {
    "number_of_shards" : 1,
    "number_of_replicas": 0,  
    "index": {...}
  },
  "mappings": {
      "properties": {...}
  } 
}

index_board.json

최상위는 저장소에 대한 설정(settings)과 구조(mappings)로,

설정은(settings) 샤드(number_of_shards) 개수, 복제(number_of_replicas) 개수, 색인(index) 규칙에 대해서 정의하고,

구조(mappings)는 속성키(properties) 하위에 색인해서 저장하는 필드들에 대해서 정의한다.

설정(settings)의 색인(index)에서는 형태소 분석기(노리-Nori) 사용에 대한 설정을 하고,

복합어 처리(decompound_mode), 필터, 불용어 처리 등을 지정한다.

이 중에서 nori_analyzer는 형태소 분석기(노리-Nori) 사용에 대한 설정으로,

설정(settings)의 색인(index) 관련 부분을 모두 모아서 지정한다.

"analyzer": {
  "nori_analyzer": {
	"type": "custom",
	"tokenizer": "nori_user_dict",
	"char_filter": ["html_strip"],            
	"filter": [
	  "nori_posfilter", "stop_filtering", "lowercase", "stemmer", "nori_readingform", "synonym_filter"
	]
  }
},

index_board.json

내용에서 HTML 태그는 제거하고(html_strip),

품사로 불용어를 제거하거나(nori_posfilter) 불용어 사전으로 제거하는 (stop_filtering)등의 색인하는 과정을 정의한다.

보다 자세한 것은 인터넷 자료를 참고하고 여기서는 넘어간다.

구조(mappings)는 속성(properties)만 있고, 그 하위에는 저장하는 필드들에 대해서 정의한다.

"bgno": {"type": "long"},
"brdno": {"type": "keyword"},
"brddate": {"type": "date"},
생략 ~~    
"brdtitle": {"type": "text","analyzer":"nori_analyzer"},
"brdmemo": {"type": "text","analyzer":"nori_analyzer"},
"brdreply": {
    "type": "nested",
    "properties": {
        "reno": {"type": "text"} ,
        "redate": {"type": "text"} ,
        "rememo": {"type": "text", "analyzer":"nori_analyzer"} ,
        "usernm": {"type": "text"} ,
        "userno": {"type": "text"} 
    }
생략 ~~

index_board.json

필드 타입(type)이 long, keyword, date 형 등은 값 그대로 색인하는 필드이고,

nori_analyzer로 지정된 필드는 앞서 정의한 nori_analyzer 과정데로 형태소 분석을 하고 색인한다.

댓글(brdreply)과 첨부 파일(brdfiles)은 RDBMS의 부모/자식 관계에 있는 데이터를 저장하기 위한 구조로 nested 형으로 지정한다.

nested형으로 지정된 데이터는 문서내의 문서로 배열처럼 저장된다.

문서내의 문서이기 때문에 속성(properties)키 하위에 reno, rememo등 다시 문서에 대한 필드 정의를 한다.

개인적으로 Solr보다 직관적이고 사용하기 쉬운 것 같다.

데이터를 수집하는 부분은 Solr의 경우 DIH로 개발자는 SQL문만 작성하면 되지만 (Solr의 장점?)

Elasticsearch에서는 Elasticsearch가 제공하는 Java High Level REST Client로 색인을 구현한다.

gu.search.IndexingCtr에 다음과 같은 구조로 작성한다.

@Scheduled(cron="0 */1 * * * ?")
public void indexingFile() {
    RestHighLevelClient client = createConnection();

    게시글 이전 색인시 마지막 번호 로드

    색인할 게시글 리스트
    게시글을 Json으로 작성후 색인 - INSERT

    마지막 게시글 번호 저장

    ------------------
    댓글 이전 색인시 마지막 번호 로드

    색인할 댓글 리스트
    댓글을 Json으로 작성후 색인 - UPDATE

    마지막 댓글 번호 저장

    ------------------
    첨부파일 이전 색인시 마지막 번호 로드

    색인할 첨부파일 리스트
    첨부파일에서 텍스트 추출(Tika)
    첨부파일 정보를 Json으로 작성후 색인 - UPDATE

    마지막 첨부파일 번호 저장
}

IndexingCtr.java

게시글, 댓글, 첨부파일 모두 동일한 방식으로 작성하였고,

첨부파일은 파일에서 색인할 텍스트를 추출하는 Tika를 사용한다.

셋 모두 이전에 마지막으로 색인한 글 번호 (Pk-Primary Key) 이후의 데이터들을 조회한다.

Solr에서는 날짜(brddat)로 구현했지만, Elasticsearch에서는 글번호로 구현했다.

고유한 값을 가지는 필드면 어떤 것이라도 사용할 수 있다.

마지막 색인 값으로 마지막으로 색인한 이후의 증가된 데이터만 색인하고,

마지막 색인 값이 없는(NULL) 경우는 모든 데이터가 대상이 되어 풀색인을 한다.

SQL문을 그렇게 하도록 다음과 같이 작성하였다.

<select id="selectBoards4Indexing" resultType="gu.board.BoardVO" parameterType="String">
    SELECT BGNO, BRDNO, CU.USERNM, TB.USERNO, BRDTITLE, BRDMEMO
          , LEFT(BRDDATE, 10) BRDDATE, RIGHT(BRDDATE, 8) BRDTIME
     FROM TBL_BOARD TB
    INNER JOIN COM_USER CU ON CU.USERNO=TB.USERNO
    WHERE TB.BRDDELETEFLAG='N'
       AND BRDNO > #{brdno}
    ORDER BY BRDNO
    LIMIT 20
</select>

board.xml

추출한 색인 대상들은 Java의 VO개체에 담겨서 동적 배열(List)형태로 관리되는데,

List boardlist = (List) boardSvc.selectBoards4Indexing(brdno);
List replylist = (List) boardSvc.selectBoardReply4Indexing(lastVO);
List filelist = (List) boardSvc.selectBoardFiles4Indexing(lastVO);

IndexingCtr.java

반환 된 개수 만큼 반복하면서 (for), VO에 있는 필드의 값을 Json 형태로(키:값) 저장한다.

게시판은 source로 지정해서 작성했고,

IndexRequest indexRequest = new IndexRequest(INDEX_NAME)
    .id(el.getBrdno())
    .source("bgno", el.getBgno(),
              "brdno", brdno,
              "brdtitle", el.getBrdtitle(),
              "brdmemo", el.getBrdmemo(),
              "brdwriter", el.getUsernm(),
              "userno", el.getUserno(),
              "brddate", el.getBrddate(),
              "brdtime", el.getBrdtime()
              );

IndexingCtr.java

댓글과 첨부 파일은 Map 구조로 작성했다.

            Map<String, Object> replyMap = new HashMap<String, Object>();
            replyMap.put("reno", reno);
            replyMap.put("redate", el.getRedate());
            replyMap.put("rememo", el.getRememo());
            replyMap.put("usernm", el.getUsernm());
            replyMap.put("userno", el.getUserno());

            Map<String, Object> singletonMap = Collections.singletonMap("reply", replyMap);

UpdateRequest updateRequest = new UpdateRequest()
             .index(INDEX_NAME)
             .id(el.getBrdno())
             .script(new Script(ScriptType.INLINE, "painless", 생략~

IndexingCtr.java

모두 키와 값으로 구성된 Json 방식으로 둘 중 어느 방식을 사용해도 된다.

가장 중요한 처리로 게시글은 IndexRequest로 색인하고(저장하고), 댓글과 첨부 파일은 UpdateRequest로 색인한다.

게시글을 먼저 처리해서 저장하고(Insert)

댓글과 첨부 파일은 해당 게시글을 찾아서 수정하는(Update) 방식으로 구현한다.

더우기 RDBMS의 부모/자식, 1 : n (일대다)의 관계,

즉 하나의 게시물이 여러개의 댓글과 첨부 파일을 가지기 때문에 다음과 같이 다소 복잡한 코드로 저장한다.

.script(new Script(ScriptType.INLINE, "painless",

"if (ctx._source.brdreply == null) {ctx._source.brdreply=[]} ctx._source.brdreply.add(params.reply)", singletonMap));

painless라는 Elasticsearch에서 제공하는 스크립트 언어로

게시물 문서에서 brdreply 라는 필드를 배열( [ ] )로 초기화하고,

생성된 댓글이나 첨부 파일 하나(Json)를 다음과 같이 배열에 추가(add)하는 방식으로 작성한다.

{
                "_index": "project9",
                "_type": "_doc",
                "_id": "38",
                "_score": 1,
                "_source": {
                    "bgno": "3",
                    "brdno": "38",
                    "brdtitle": "거침없이 배우는 Jboss",
                    "brdmemo": "거침없이 배우는 Jboss",
                    "brdwriter": "이종무",
                    "userno": "24",
                    "brddate": "2020-03-01",
                    "brdtime": "17:42:42",
                    "brdreply": [
                        {
                            "reno": "1",
                            "usernm": "관리자",
                            "redate": "2020-03-08 09:43:27.0",
                            "rememo": "윈도우",
                            "userno": "1"
                        }
                    ]
                }
},

이 코드 덕분인지 Solr보다 직관적인 모습으로 색인되어 저장된다 (Solr Nested 참고).

이렇게 작성된 코드는 스프링 스케쥴러를 이용해서 1분마다 실행되게 작성했다.

@Scheduled(cron="0 */1 * * * ?")

실제로 사용할 경우에는 사용자가 없는 새벽 1시에 일괄 색인하는 경우가 많다.

웹 브라우저에서 게시판을 접속해서 게시글을 추가하거나 댓글을 작성하면 잠시 뒤에 검색된다.

검색

검색도 기존 Prohect9 프로젝트에 구현되어 있으며

하나의 Java파일(gu.search.SearchCtr)과 JSP(search.jsp) 파일로 작성하였다.

search.jsp 파일은 검색 결과를 Json으로 받아서 적절하게 보여주는 기능을 하고, 여기서 정리하지 않는다.

SearchCtr.java 파일은 High Level REST Client를 기반으로 작성하였고,

검색식을 만드는 부분과 Elasticsearch에 질의하는 부분으로 구분할 수 있다.

반환 된 결과는 Json으로 작성되어 있어서 그데로 jsp로 전달하고 종료한다.

검색식을 만드는 기본 코드는 다음과 같이 makeQuery()함수에서 작성한다.

private BoolQueryBuilder makeQuery (String[] fields, String[] words, FullTextSearchVO searchVO) {
	BoolQueryBuilder qb = QueryBuilders.boolQuery();
	
	String searchType = searchVO.getSearchType();
	if (searchType!=null & !"".equals(searchType)) {
		qb.must(QueryBuilders.termQuery("bgno", searchType));
	}
	
	if (!"a".equals(searchVO.getSearchTerm())) {							// 기간 검색
		qb.must(QueryBuilders.rangeQuery("brddate").from( searchVO.getSearchTerm1()).to( searchVO.getSearchTerm2()) );	
	}

	for( String word : words) {			// 검색 키워드
		word = word.trim().toLowerCase();
		if ("".equals(word)) continue;
		
		BoolQueryBuilder qb1 = QueryBuilders.boolQuery();
		for( String fld : fields) {							// 입력한 키워드가 지정된 모든 필드에 있는지 조회
			if ("brdreply".equals(fld)) {		// 댓글은 nested로 저장되어 있어 별도로 작성
				 qb1.should(QueryBuilders.nestedQuery("brdreply", QueryBuilders.boolQuery().must(QueryBuilders.termQuery("brdreply.rememo", word)), ScoreMode.None));
			} else 
			if ("brdfiles".equals(fld)) {		// 첨부 파일은  nested로 저장되어 있어 별도로 작성
				 qb1.should(QueryBuilders.nestedQuery("brdfiles", QueryBuilders.boolQuery().must(QueryBuilders.termQuery("brdfiles.filememo", word)), ScoreMode.None));
			} else {
				qb1.should(QueryBuilders.boolQuery().must(QueryBuilders.termQuery(fld, word)));
			}
		}
		
		qb.must(qb1);			// 검색 키워드가 여러개일 경우 and로 검색
	}
	
	return qb;
}

SearchCtr.java

Elasticsearch이 기본적인 검색은 필드:키워드 구조로 Solr와 유사하지만,

다음과 같이 보다 더 Json 구조로 직관적인 구조로 작성한다.

{
   "query":{
      "match":{
         "brdtitle":"js"
      }
   }
}

Solr는 필드:키워드가 and, or, ()로 표현되자만,

Elasticsearch은 위와 같은 Json 구조에 must(and), should(or), []로 표현된다.

따라서 위 코드의 마지막 Else문이 기본 검색으로, 이상의 json을 표현한 것이다.

qb1.should(QueryBuilders.boolQuery().must(QueryBuilders.termQuery(fld, word)));

댓글(brdreply)과 첨부파일(brdfiles)은 해당 필드에 값이 있으면 게시글이 조회 되어야 하기 때문에 nestedQuery 를 이용해서 따로 작성한다.

QueryBuilders.nestedQuery("brdreply",
QueryBuilders.boolQuery().must(QueryBuilders.termQuery("brdreply.rememo", word)), ScoreMode.None)
QueryBuilders.nestedQuery("brdfiles",
QueryBuilders.boolQuery().must(QueryBuilders.termQuery("brdfiles.filememo", word)), ScoreMode.None)

사용자가 여러개의 키워드를 입력할 수 있기 때문에 공백 단위로 잘라서 개수 만큼 반복하고

이 키워드들을 조회할 필드들 개수 만큼 반복해서 검색식을 만들기 때문에 두개의 반복문을 실행한다.

for ( String word : words) {
for ( String fld : fields) {

날짜를 기간으로 검색하기 위해 rangeQuery를 사용하고,

공지사항과 일반 게시판 중 하나를 선택해서 조회할 수 있도록 게시판 종류(bgno)를 지정할 수 있게 하였다.

SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
searchSourceBuilder.highlighter( makeHighlightField ( searchRange ) );		// 검색 대상 필드에 대해서 하이라이트(댓글, 첨부파일은 제외)
searchSourceBuilder.fetchSource(INCLUDE_FIELDS, null);
searchSourceBuilder.from( (searchVO.getPage()-1) * DISPLAY_COUNT);							// 페이징
searchSourceBuilder.size(DISPLAY_COUNT); 
searchSourceBuilder.sort(new FieldSortBuilder("_score").order(SortOrder.DESC));				// 정렬
searchSourceBuilder.sort(new FieldSortBuilder("brdno").order(SortOrder.DESC));

TermsAggregationBuilder aggregation = AggregationBuilders.terms("gujc").field("bgno");		// 그룹별(게시판) 개수
searchSourceBuilder.aggregation(aggregation);

searchSourceBuilder.query( makeQuery ( searchRange, searchVO.getSearchKeyword().split(" "),  searchVO ));	// 검색식 작성

SearchRequest searchRequest = new SearchRequest();
searchRequest.indices(INDEX_NAME);
searchRequest.source(searchSourceBuilder);

RestHighLevelClient client = null;
SearchResponse searchResponse = null;

client =  createConnection();
searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);

SearchCtr.java

이렇게 작성한 검색식은 query로 실행하지만

하이라이팅(highlighter), 페이징(from, size), 정렬(sort)의 설정을 추가해서 실행한다.

특히, 다양한 데이터를 조회하는 통합 검색 기능을 흉내내기 위해

여기서는 공지사항과 일반 게시판의 게시판 종류(bgno) 기능을 구현하였고,

게시판 종류(bgno)별 개수를 확인하기 위해 Elasticsearch에서 제공하는 집계(aggregation) 기능을 이용한다.

TermsAggregationBuilder aggregation = AggregationBuilders.terms("gujc").field("bgno"); // 그룹별(게시판) 개수
searchSourceBuilder.aggregation(aggregation);

이렇게 실행된 결과는 Json으로 반환되고, 이 값은 그대로 JSP로 전달해서 처리한다.

JavaScript가 Json을 쉽게 사용할 수 있기 때문이지만,

JSP까지 정리하면 검색과 관계없는 코드로 너무 길어질 것 같아서 여기까지 정리한다.

이상의 예제는 게시글/댓글,파일에 대한 색인과 검색에 대한 것으로

글이 수정되거나 삭제 된 경우에 대한 것도 처리가 필요하다.

게시판 프로그램 자체를 수정해야 해서 구현하지 않았다.

이런 부분까지 구현하면 실사용에서도 무난하게 사용할 수 있을 것이다.

'서버 > 검색엔진' 카테고리의 다른 글

2. 검색엔진 실전 예제 - Solr 주요 설정과 코드 (2)	2020.03.15
3. 검색엔진 실전 예제 - Elasticsearch 설치 (0)	2020.03.15
검색 엔진, 챗봇 개발에 유용한 사전 (0)	2020.02.16
1. Solr 예제 분석 - 설치 (1)	2020.01.12
2. Solr 예제 분석 - 기술제품과 검색식 (3)	2020.01.12

PREV 이전 1 2 NEXT 다음

SW 개발이 좋은 사람

서버

5. Apache James 메일 서버 - 스팸 필터

'서버 > 메일' 카테고리의 다른 글

스팸 메일 서버 구축 - SpamAssassin & Postfix

'서버 > 메일' 카테고리의 다른 글

1. Apache James 메일 서버 - 설치

'서버 > 메일' 카테고리의 다른 글

2. Apache James 메일 서버 - 설정

'서버 > 메일' 카테고리의 다른 글

3. Apache James 메일 서버 - 메일 클라이언트

사전 작업

1. 텔넷(Telnet)

2. Mail User Agent

'서버 > 메일' 카테고리의 다른 글

4. Apache James 메일 서버 - Text와 JPA(MariaDB등)

이번에는 JPA외에 전통적인 text 방식으로 관리하는 maildir 방식으로 구현한다.

'서버 > 메일' 카테고리의 다른 글

1. 검색엔진 실전 예제 - Solr 설치

Solr 설치

Project9 설치

Solr 설치

Project9 설치

'서버 > 검색엔진' 카테고리의 다른 글

2. 검색엔진 실전 예제 - Solr 주요 설정과 코드

색인

검색

'서버 > 검색엔진' 카테고리의 다른 글

3. 검색엔진 실전 예제 - Elasticsearch 설치

Elasticsearch 설치

Project9 설치

Elasticsearch 설치

Project9 설치

'서버 > 검색엔진' 카테고리의 다른 글

4. 검색엔진 실전 예제 - Elasticsearch 주요 설정과 코드

색인

검색

'서버 > 검색엔진' 카테고리의 다른 글

+ Recent posts

티스토리툴바