აირჩიეთ ენა

 

TEI - გზამკვლევი დამწყებთათვის



კომპიუტერს მხოლოდ ისეთი ტექსტის აღქმა შეუძლია, რომელშიც ნიშნები (ანდა ასოები) სპეციალური სისტემით არის წარმოდგენილი. ეს სისტემა დაკავშირებულია ბინარულ სისტემასთან, რომლის ინტერპრეტირებაც კომპიუტერისთვის ადვილად შესაძლებელია. ამ პროცესს ნიშანთა კოდირება (character encoding) ეწოდება.

მაგალითად, ამგვარი ნიშანთა კოდირების სქემაა ინგლისურ ანბანზე დაფუძნებული ASCII (American Standard Code for Information Interchange - სტანდარტული ამერიკული კოდი ინფორმაციის მიმოცვლისათვის). ნიშანთა კოდირება ხელს უწყობს კომპიუტერებში ტექსტების ბაზის შექმნას და მათს სხვადასხვა პლატფორმაზე გაგზავნას. თუმცა, ნიშანთა კოდირება ტექსტის სემანტიკასთან, ინტერპრეტაციასა თუ სტრუქტურასთან კავშირში არაა. ამგვარ მონაცემებს მეტა-ინფორმაციას ვუწოდებთ.

თუ გვინდა, რომ ტექსტს რაიმე სახის მეტა-ინფორმაცია დავამატოთ, ისე, რომ კომპიუტერმა მისი გამოყენება შეძლოს, უნდა მოვნიშნოთ (markup) ან დავშიფროთ (encode) ტექსტი. ამისათვის, ტექსტს უნდა დავამატოთ ფრაზები/ სიტყვის მნიშვნელობები ან მათი გამომხატველი კოდები და იგივე ნიშანთა კოდირების სისტემა გამოვიყენოთ, რომელსაც ვიყენებდით მოცემული ტექსტისათვის. თუმცა, შინაარსის გამომხატველი კოდი უნდა განსხვავდებოდეს ნიშანთა კოდისგან სპეციალური აღმნიშვნელებით (markers). ერთ-ერთი ასეთი აღმნიშვნელია ტეგი. ტექსტის კოდირებისათვის გამოყენებულ ტეგთა ერთობლიობას აღმნიშვნელ ენას ვუწოდებთ (markup language).                                                           
ტექსტის კოდირების საწყისი (TEI) არის სტანდარტი, რომელიც გამოიყენება კოდირების მეშვეობით ტექსტის ციფრულ ფორმატში წარმოსადგენად. ეს სტანდარტი შექმნეს TEI კონსორციუმის (TEI Consortium) წევრმა მეცნიერებმა, რომელთა უმეტესობა მოღვაწეობს ჰუმანიტარული და სოციალური მეცნიერებებისა და ლინგვისტიკის სფეროებში. ეს არაკომერციული ორგანიზაცია მრავალი მიმართულებით მუშაობს; მაგალითად, მისი ინტერესის სფეროში შედის პუბლიკაციები, ტექსტის კოდირების იმ სტანდარტის შენარჩუნება, რომელიც  TEI-ის გზამკვლევშია მოცემული, ყოველწლიური შეხვედრების დაგეგმვა, კონფერენციებისა და ტრენინგების ჩატარება და ა.შ. ამ ღონისძიებებში მონაწილეობის მიღება არა-წევრ მეცნიერებსაც შეუძლიათ.                                                                                                             
TEI გზამკვლევში მოიზარება როგორც TEI კონსორციუმის მიერ შემოთავაზებული აღმნიშვნელი ენა და ტეგების ნაკრები (tag set), ასევე ინტერნეტში არსებული ინფორმაცია ამ პროგრამის შესახებ. წინამდებარე სტატიაში TEI გზამკვლევს ან შემოკლებით TEI-ს კოდირების სტანდარტის აღმნიშვნელად გამოვიყენებთ. ამ სტანდარტს ფართოდ იყენებენ ბიბლიოთეკები, მუზეუმები, გამომცემლობები და ინდივიდუალურად მოღვაწე მეცნიერები, რათა კვლევის, სწავლებისა თუ შენახვის მიზნით ტექსტები გააფიცრულონ.        

                               
TEI სახეს იძენს „განვრცობადი აღმნიშვნელი ენის“ მეშვეობით (the eXtensible Markup Language, იგივე - XML), მაგრამ ის გვაძლევს წვდომას საჭირო პროცედურებსა და მექანიზმებზე, რათა შევძლოთ კოდირების მოდელის კონკრეტულ პროექტზე მორგება. ამდენად, TEI გზამკვლევი ღია სტანდარტია და შეგვიძლია, იგი ნებისმიერი ტექსტის კოდირებისათვის გამოვიყენოთ.


 
2. ტექსტის კოდირება ჰუმანიტარულ მეცნიერებათა სფეროში


 
კომპიუტერებისა და სხვადასხვა კომპიუტერული ტექნიკის გამოყენება ჰუმანიტარულ მეცნიერებებში პირველად  1940-იანი წლების დასასრულს დაიწყეს.  მკვლევარებმა სცადეს სისტემათა შემუშავება რათა ინფორმაცია კომპიუტერისთვის ისე მიეწოდებინათ, რომ ამ უკანასკნელს მისი დამუშავება შესძლებოდა.  ეს მარტივი პროცესი არაა. მაიკლ სპერბერგ-მაკქუინი (Michael Sperberg-McQueen) აღნიშნავდა, რომ კომპიუტერები ბინარული მანქანებია და მათ შეუძლიათ ელექტრონული იმპულსების სქემებზე დაყრდნობთ მუშაობა, მაგრამ ისინი არ შეიცავენ ციფრებს, რომლებიც აბსტრაქტული მათემატიკური ნიშნები არიან და არა ელექტრონული იმპულსები. იგივე შეიძლება ითქვას ტექსტებზე - კომპლექსურ, აბსტრაქტულ, კულტურულსა და ლინგვისტურ ქმნილებებზე (Sperberg-McQueen 1991, 34).                               

თავიდან ინფორმაციის შესატან ხელსაწყოდ გამოიყენებოდა ბარათები, რომლებზეც კონკრეტულ ადგილას დატანილი ხვრელი ნიშნავდა I ან 0-ს (იშიფრებოდა, როგორც - სიმართლე ან სიცრუე) და ნიშანი ან ციფრი ამ ხვრელის კოორდინატით იყო წარმოდგენილი. კომპიუტერი კონკრეტულ ნიშანთა სისტემას იყენებდა. მაგრამ პრობლემა ის იყო, რომ სხვადასხვა კომპუტერს განსხვავებული სისტემა ჰქონდა. ამ სისტემაში შემავალ ნიშანთა რაოდენობაც განსხვავდებოდა. ამიტომ ერთი კომპიუტერიდან მეორეში ტექსტის გაგზავნისას აუცილებელი იყო მისი „თარგმნა“ ერთი სისტემიდან მეორეზე. ეს პროცესი კოდირებას გულისხმობდა - იშიფრებოდა ყველა ნიშანი (ასო), პუნქტუაციის ნიშნები, დიაკრიტიკული ნიშნები და სხვ. კომპიუტერს უნდა შესძლებოდა ხაზის ზედა და ქვედა მხარეს განლაგებული ასოების გარჩევა და გამორჩეული ნიშნების ხაზგასმა ტექსტში. ასევე, ახალი თავის,  აბზაცის, წინადადებისა და ცალკეული სიტყვის გამოყოფა, რაც ერთგვარი „დროშების“ (flags) მეშვეობით ხდებოდა.                                                                                                                     
პროგრამისტები ამ დროშებს ასევე იყენებდნენ ტექსტისთვის ანალიტიკური ინფორმაციის დასამატებლად (სიტყვის კლასიფიკაცია, მორფოლოგიური, სინტაქსური და ლექსიკური მოცემულობები). იდეალურ შემთხვევაში, თითოეული პროექტი საკუთარ სისტემას ბოლომდე მიჰყვებოდა. მაგრამ ეს სისტემები ტექსტუალური მასალის ანალიზის საფუძველზე ყალიბდებოდა, რათა ტექსტი კომპიუტერისათვის აღქმადი გაეხადათ. ამიტომ, ხშირ შემთხვევაში სხვადასხვა ტექსტს განსხვავებული სისტემა სჭირდებოდა კოდირებისათვის. პროექტის მიზნები და   ინფრასტრუქტურაც (კომპიუტერის ტიპი, პროგრამა -  software) გავლენას ახდენდა სისტემაზე.                                                                                                                                                           

მიუხედავად იმისა, რომ რამდენიმე პროექტმა შეძლო ღირებული შედეგების მიღება, ამდენი განსხვავებული სისტემისა და კოდირების სქემის შექმნას ბევრი უარყოფითი მხარე ჰქონდა. ერთი პროექტის მიერ მომზადებული სქემა, უმეტესად, სხვებისთვის გამოუსადეგარი იყო, რადგან კონკრეტული ტექსტის ანალიზისათვის შემუშავებული კოდირების სისტემა და არა-სტანდარტული ტექნიკური უზრუნველყოფა (hardware) სხვა პროექტებს არ ერგებოდა. თუმცა, კომპიუტერისათვის აღქმადი ტექსტების რაოდენობის ზრდასთან ერთად, რესურსების ეკონომიურად გამოყენების საკითხიც დადგა.             

მარტინ კეი (Martin Kay) ჯერ კიდევ 1967 წელს ამტკიცებდა, რომ ერთი სტანდარტული კოდი უნდა შეემუშავებინათ, რომელსაც გარე წყაროდან მასალის მიღების შემთხვევაში კომპიუტერი ავტომატურად აღიქვამდა (Kay 1967, 171). ეს კოდი ინფორმაციის მიმოცვლის ოფიციალური ფორმატი უნდა ყოფილიყო.  


 
3. აღმნიშვნელი ენები ჰუმანიტარულ მეცნიერებებში

 
3.1. პროცედურული და აღწერითი აღმნიშვნელები

 
როცა ადამიანი კითხულობს, იგი ერთდროულად აღიქვამს ლინგვისტურ კოდში ჩადებულ ინფორმაციასაც და მეტა-ინფორმაციასაც, რომელიც ტექსტის ვიზუალურ მხარესა და ინტერპრეტაციაში ვლინდება. მაგალითად, იტალიკს (italics), როგორც წესი, წიგნის სათაურის ან უცხო ფრაზისა თუ სიტყვის აღსანიშნად იყენებენ, ან ნათქვამის ხაზგასასმელად. როგორც წესი, მკითხველები ავტომატურად ხვდებიან მის დანიშნულებას თავიანთი კოგნიტური უნარების წყალობით.    

                
კომპიუტერებს იგივე უნარი არ აქვთ. ამ ინფორმაციის აღქმა რომ შეძლონ, ჯერ უნდა ვასწავლოთ.  სწორედ ამიტომ გვჭირდება აღმნიშვნელი ენა, რომელიც კომპიუტერს აძლებს წესებს ინფორმაციის დასახარისხებლად და მეტა-ინფორმაციის გამოსაყოფად.   ვიღებთ ორი სახის ინფორმაციას - პირველი დოკუმენტში მოცემული ტექსტია, როგორც ნიშანთა სისტემა, ხოლო მეორე - მეტა-ინფორმაცია, რომელიც გვაძლევს დამატებით ცნობებს ამ ტექსტის შესახებ.


აღმნიშვნელი ენები, რომელთაც იყენებდნენ უმეტესად პროცედურული ბუნების იყო - ისინი აღწერდნენ პროცედურას, რომელსაც უნდა მოჰყოლოდა კონკრეტული შედეგი (მაგალითად, ტექსტის იტალიკით დაბეჭდვა). ჰუმანიტარულ მეცნიერებებში ასევე იყენებდნენ აღწერით აღმნიშვნელებს, რომლებიც კონკრეტული ტიპის ნიშნების იდენტიფიცირებას ახდენდნენ (მაგალითად, გარკვეულ სიტყვათა მიმდევრობას აიდენტიფიცირებდნენ, როგორც სათაურს ან უცხო სიტყვას).


პროცედურული და პრეზენტაციული აღმნიშვნელებისგან განსხვავებით, აღწერითი აღმნიშვნელი აკავშირებს ტექსტის ლოგიკურ ელემენტებსა და მათ აღმნიშვნელებს. ამის მისაღწევად, აღწერითი აღმნიშვნელი ენები ფორმალურად განასხვავებენ ინფორმაციას (დოკუმენტის ტექსტი) მეტა-ინფორმაციისგან (ინფორმაცია დოკუმენტის ტექსტის შესახებ).


 
3.2. ადრეული მცდელობები


 
COCOA კოდირების სქემამ (the COCOA encoding scheme) დაამკვიდრა აღმნიშვნელების ერთგვარი სტანდარტი კოდირებისათვის და ლიტერატურული ტექსტების ანალიზისათვის. ეს სქემა შემუშავდა COCOA-ს პროგრამისთვის 1960-70-იან წლებში. მას იყენებდა ოქსფორდის შეთანხმების პროგრამა - Oxford Concordance Program (OCP) 1980-იან წლებში როგორც მონაცემების შეყვანის სტანდარტს, ასევე, ტექსტუალური ანალიზის კომპიუტერული  ხელსაწყოები (tools – როგორ სჯობს ვთარგმნოთ?) -  the Textual Analysis Computing Tools (TACT) 1990-იან წლებში. კლასიკური ბერძნული ტექსტების ტრანსკრიპირებისა და კოდირებისათვის შემუშავდა ბეტა-ტრანსკრიპირების/კოდირების სისტემის სტანდარტი (Berkowitz, Squitier, and Johnson 1986).


3.3. The Standard Generalized Markup Language


საჭირო გახდა ისეთი აღმნიშვნელთა ენის შემუშავება, რომლის ხელახლა გამოყენება, მიმოცვლა სხვადასხვა პლატფორმებს შორის,  და ჰუმანიტარულ მეცნიერებებთან კოლაბორაცია შესაძლებელი იქნებოდა. ამ ენის კიდევ ერთი მახასიათებელი უნდა ყოფილიყო სისტემური და პროგრამული დამოუკიდებლობა. 1986 წელს გამოქვეყნდა „აღმნიშვნელთა საერთაშორისო სტანდარტული ენა“ - the Standard Generalized Markup Language (შემოკლებით - SGML), რომელიც ISO-ს სტანდარტი გახდა (Goldfarb 1990). ჩარლზ გოლდფარბს ყველაზე დიდი წვლილი მიუძღვის ამ მულტი-ენის განვითარებაში. SGML აღმნიშვნელთა სქემების აღწერისთვის გამოიყენებოდა. ის ეფუძნება IBM-ის ენას (Document Composition Facility Generalized Markup Language) და სულ მცირე, შვიდ მოთხოვნას უნდა აკმაყოფილებდეს, რათა კოდირების სტანდარტად ჩაითვალოს (Barnard, Fraser, and Logan 1988, 28–29). ესენია:

  1. ყოვლისმომცველობა/ გააზრების უნარი?  (The requirement of comprehensiveness)

    სიმარტივე (The requirement of simplicity)

  2. საშუალო სირთულის (კომპლექსურობის) პროგრამას უნდა შეეძლოს დოკუმენტების დამუშავება (The requirement that documents be processable by software of moderate complexity)

  3. სტანდარტი არ უნდა იყოს დამოკიდებული რომელიმე კონკრეტულ მახასიათებელზე ან ტექსტის ასაკრეფ გეგმაზე/ჩანაფიქრზე (The requirement that the standard not be dependent on any particular characteristic set or text-entry devise)

  4.  სტანდარტი არ უნდა ერგებოდეს მხოლოდ რომელიმე კონკრეტულ ანალიტიკურ პროგრამას ან ბეჭდვის სისტემას (The requirement that the standard not be geared to any particular analytic program or printing system)

  5. სტანდარტმა უნდა აღწეროს ტექსტი ისე, რომ გამოსაცემად გამოდგებოდეს (The requirement that the standard should describe text in editable form)

  6. კოდირებული ტექსტის მიმოცვლა სხვადასხვა საკომუნიკაციო პლატფორმებს შორის შესაძლებელი უნდა იყოს (The requirement that the standard allow the interchange of encoded texts across communication networks).

პროგრამული და პლატფორმული დამოუკიდებლობის მისაღწევად, ასევე, უნივერსალური მიმოცვლისთვის გამოსადეგი ტექსტის შესაქმნელად, SGML ექსკლუზიურად ASCII კოდებს იყენებს. როგორც აღვნიშნეთ, SGML არ არის აღმნიშვნელთა ენა, ის მულტი-ენაა, რომლის საშუალებითაც შეგვიძლია შევქმნათ ცალკეული, დამოუკიდებელი აღმნიშვნელთა ენები სხვადასხვა მიზნისათვის. ეს ნიშნავს, რომ SGML განსაზღვრავს წესებს და პროცედურების, რათა შექმნას აღმნიშვნელთა ენის ლექსიკონი და სინტაქსი - ეს ყველაფერი იწერება ფორმალურ დოკუმენტში, რომელსაც DTD-ს ვეძახით (Document Type Definition). DTD გვაძლევს ყველა ელემენტის სახელისა და მათი ატრიბუტების ძირითადი ღირებულებების ფორმალურ აღწერას, ასევე, განსაზღვრავს წესებს, თუ სად და როგორ უნდა განთავსდნენ ეს ელემენტები (nest) და რამდენად ხშირად შეიძლება მათი გამოყენება. უფრო მეტიც, DTD სახელებს ანიჭებს იმ მონაცემებს, რომელთა გამოყენებაც მრავალჯერ შეიძლება. მისი წყალობით შესაძლებელია  SGML-ის გამოყენებით კოდირებული  დოკუმენტების სრული კონტროლი და ვალიდაცია.                                              

ყველაზე პოპულარული SGML DTD არის ჰიპერტექსტის აღმნიშვნელთა ენა - Hypertext Markup Language, იგივე HTML, რომელიც ინტერნეტში გრაფიკული დოკუმენტების მიმოცვლისთვის შეიქმნა.                                                                                      

ჰუმანიტარულ მეცნიერებათა სფეროში სწორედ ისეთ აღმნიშვნელთა ენას ეძებდნენ, რომელიც ყველა ზემოთ ჩამოთვლილი თვისების მატარებელი იქნებოდა. მეცნიერებს სურდათ შეექმნათ აღწერითი კოდირების სტანდარტი (a descriptive encoding standard) რათა შესძლებოდათ ელექტრონული ტექსტების მომზადება და მიმოცვლა სამეცნიერო კვლევებისათვის. მათი უმეტესობა მიიჩნევდა, რომ SGML სხვა სქემებთან შედარებით ყველაზე კარგ საფუძველს გვთავაზობდა კვლევაზე-ორიენტირებული ტექსტების კოდირებისათვის. მაგრამ დასაწყისიდანვე თავი იჩინა ორმა პრობლემამ - SGML-ის მიერ ტექსტის იერარქიული თვალთახედვით აღქმამ - იგი ტექსტს წარმოაჩენდა, როგორც იერარქიული ხის სტრუქტურას; და SGML-ის უხვსიტყვიანმა აღმნიშვნელთა სისტემამ (Barnard et al. 1988). ეს ორი პრობლემა მთავარ ადგილს იკავებს თეორეტიკულსა და საგანმანათლებლო დებატებში, რომლებიც ჰუმანიტარული მეცნიერებებისთვის გამოსადეგ აღმნიშვნელთა ენებს ეხება.
 

3.4. The eXtensible Markup Language – XML

 
განვრცობადი აღმნიშვნელთა ენა (the eXtensible Markup Language), იგივე XML-ი 1998 წელს გამოქვეყნდა. მისი 1.0 ვერსია აერთიანებს SGML-ისა და HTML-ის საუკეთესო უნარებს/თვისებებს და ამის გამო, XML-მა მალევე მოიპოვა პოპულარობა. SGML-ისგან მან აღმნიშვნელთა აღწერითი სისტემა წამოიღო, ასევე, იერარქიული მოდელი, აღმნიშვნელთა ენების განვრცობადობა და დოკუმენტის ვალიდაციის უნარი (DTD-ის რომ უკავშირდება). მეორე მხრივ,  XML-ს HTML-ის მსგავსად სიმარტივე და DTD-ის გარეშე მუშაობის უნარი ახასიათებს. შეიძლება ითქვას, XML-ი SGML-ის მემკვიდრეა. იგი დიდწილად სწორედ იმ ადამიანებმა შექმნეს, რომელთაც SGML-თან მუშაობის ხანგრძლივი გამოცდილება ჰქონდათ და ბევრი მათგანი TEI-ის წევრია.

მისი უპირატესობებისა და საყოველთაო პოპულარობის გამო, XML არის ის მულტი-ენა, რომელიც TEI-ში აღწერით ტექსტების კოდირებისათვის გამოიყენება.