近代新聞テキスト化事業とは

【よくある質問とその回答】
 
B.記事を全文テキスト化するとは具体的にどのような作業なのですか?
記事全文テキスト化>とは、対象となる新聞の記事の全てを一文字づつ入力し、データベース化することです。商品広告の絵や写真などは文字ではありませんのでテキスト化することは不可能ですが、これら以外の、紙面に掲載されている全ての文字情報をパソコンで入力し、インターネットを使用して送信し、当NPOのサーバ内にデータ集積します。一般記事、社説、広告の宣伝文、写真の説明文、統計資料(表)、コラム、公告、市況、天気予報などがこれに当たります。新聞小説や川柳、和歌、俳句などについても、著作権の確認を行い可能なものは収録を行います。要するに当時の社会、政治、経済、文化、庶民の生活などなどの実相がうかがえる全ての事項を、一定の意図で選別するすることなく網羅的にテキストデータ化するということです。記事中の旧体字でJISの第一、第二水準に無い外字は、第一、第二水準の字形に置き換え入力を行うこととなります。(WEB上で外字の表示が困難なため)以上の記事入力は、全て入力者個人ごとに作成された専用のURL(ホームページ)上で行い、入力が終われば送信ボタンを押して送信します。送信するとすぐにNPOサーバー内のデータベースに取り込まれ、記事閲覧ホームページから検索も可能となる仕組みになっています。また、入力、送信後に入力誤りに気がついた場合、自分が入力した記事を自分自身がホームページ上で修正して送信しなおすことも可能です。詳しくはテキスト化のための仕様書が用意されていて、入力者に配布されています。ボランティア参加する、しないに係わらず、必要であればお送りしますのでご連絡ください。



閉じる